中文关键字提取
最近整的是中文分词与关键字提取,用python写的原型,算是复杂度比较可观的应用了;
分词的资料不太好找,只有KaiFu Lee在MSRA带着Guo姓小弟做的一些列paper和中科院I3S组的分词程序。
关键字提取是无先验信息的,篇幅也很短效,但是功能还是满意了。基本流程是聚类后,算条件概率,思想来自某大学的Paper。
起初的实现的模型,大概在1000汉字每秒的处理能力;
折腾了一天,提升到12000汉子每秒。
http://entelechie.ycool.com/post.2763166.html
分词的资料不太好找,只有KaiFu Lee在MSRA带着Guo姓小弟做的一些列paper和中科院I3S组的分词程序。
关键字提取是无先验信息的,篇幅也很短效,但是功能还是满意了。基本流程是聚类后,算条件概率,思想来自某大学的Paper。
起初的实现的模型,大概在1000汉字每秒的处理能力;
折腾了一天,提升到12000汉子每秒。
http://entelechie.ycool.com/post.2763166.html

0 条评论:
发表评论
<< 主页