重工电子论坛

标题: 分词算法 [打印本页]

作者: 李维强-15级 时间: 2019-5-21 14:15
标题: 分词算法
本帖最后由李维强-15级于 2019-5-21 18:29 编辑

例如对于文本串“南京市长江大桥”，找到匹配的所有词条（南京，市，长江，大桥，南京市，长江大桥，市长，江大桥，江大，桥）
这个如何去分解？MIT的同学给出了分词算法，总体来说应用HMM模型，使用了Viterbi算法。
在我的项目里面有一个物料信息搜索，就是电力局内几万种物料名称，搜索后我需要给出匹配建议，这里就需要把搜索词拆分，然后再到数据内LIKE它，还好数据量只有几万，不大不然效率就会慢了，需要加入分布式和缓存了
https://github.com/anderscui/jieba.NET/

另外一个在线的，可调用其API
http://pullword.com/

欢迎光临重工电子论坛 (http://cqutlab.cn/)