NLPIR 分词准确率接近98.23%
背景
http://www.nlpir.org/
几个例子:
为人民办公益
为/p人民/n办/v公益/n
独立自主和平等互利的原则
独立自主/vl和/cc平等互利/vl的/ude1原则/n
结婚的和尚未结婚的
结婚/vi的/ude1和/cc尚未/d结婚/vi的/ude1
北京大学生前来应聘
北京/ns大学生/n前来/vi应聘/vi
然并卵
然/rz并/cc卵/n
他说的确实在理
他/rr说/v的/ude1确实/ad在理/a
scws的测试结果:
postgres=# SELECT to_tsvector('testzhcfg','独立自主和平等互利的原则');
to_tsvector
--------------------------------------------------
'原则':5 '和':2 '平等互利':3 '独立自主':1 '的':4
(1 row)
postgres=# SELECT to_tsvector('testzhcfg','结婚的和尚未结婚的');
to_tsvector
-------------------------------------
'和':3 '尚未':4 '的':2,6 '结婚':1,5
(1 row)
postgres=# SELECT to_tsvector('testzhcfg','北京大学生前来应聘');
to_tsvector
---------------------------------------
'前来':3 '北京':1 '大学生':2 '应聘':4
(1 row)
postgres=# SELECT to_tsvector('testzhcfg','为人民办公益');
to_tsvector
---------------------------------
'为人':1 '办公':3 '民':2 '益':4
(1 row)
postgres=# SELECT to_tsvector('testzhcfg','然并卵');
to_tsvector
----------------------
'卵':3 '并':2 '然':1
(1 row)
postgres=# SELECT to_tsvector('testzhcfg','他说的确实在理');
to_tsvector
----------------------------------------
'他':1 '在理':5 '的':3 '确实':4 '说':2
(1 row)
NLPIR/ICTCLAS中英文一体化分词可视化效果图
NLPIR/ICTCLAS分词系统可以支持中英文分词与词性标注,可视化系统可根据词性对不同的分词结果进行区分显示,一般虚词都是浅色,而名词、动词、形容词等实词为显著的颜色。在分词的同时,还会发现新词。本系统还支持在线用户词典的输入,用户可以在右下方添加用户词及词性,如“中东呼吸综合征 bing”。NLPIR/ICTCLAS分词系统,采用层叠隐马模型
(算法细节请参照:张华平,高凯,黄河燕,赵燕平,《大数据搜索与挖掘》科学出版社。2014.5 ISBN:978-7-03-040318-6),分词准确率接近98.23%,具备准确率高、速度快、可适应性强等优势。它能够真正理解中文,利用机器学习的方式解决歧义切分与词性标注歧义问题。
相关产品
http://bosonnlp.com/
参考
1. http://www.nlpir.org/
2. http://baike.baidu.com/view/19109.htm
3. https://github.com/NLPIR-team/NLPIR