Google

星期二, 六月 03, 2008

Lucene中文分词 “庖丁解牛”

附件 为Qieqie设计编写的组件,中文分词“庖丁解牛”,具有相当好的使用价值。。。

高效率:QieQie的赛扬PC 1 秒解析 >>> 20000汉字的词语 (实际测试结果数据,可达1秒10万+汉字)
高可维护性:使用“庖丁”隐喻,形象明晰
高灵活性,可扩展:OOD

对比:《终于突破中文分词的效率问题》http://www.lucene.org.cn/read.php?tid=54&fpage=2 他的效率为 6秒 解析2588汉字

2007-08-08:

由于庖丁解牛进行了一些调整和重构,这里的附件代码已经是"较旧"的,最新的下载地址:

http://code.google.com/p/paoding/downloads/list

SVN地址为:http://paoding.googlecode.com/svn/trunk/paoding-analysis/

同时也可以通过浏览器访问http://paoding.googlecode.com/svn/trunk/paoding-analysis/ 直接浏览代码。

最新的在JavaEye的发布帖子是:

http://www.javaeye.com/topic/110148 中文分词 庖丁解牛 2.0.0 发布

http://www.javaeye.com/topic/49441

标签: ,

1 条评论:

Blogger luogang 说...

有兴趣做这方面的研发?
我们在招自然语言处理或Web信息挖掘方面的实习生或全职开发人员
联系email/msn:lgjut@sina.com

9:12 上午  

发表评论

<< 主页

辽ICP备05003652号
流风洄雪听天籁,轻云蔽日看落花

Powered by Blogger