重工电子论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 4560|回复: 0
打印 上一主题 下一主题

分词算法

[复制链接]

299

主题

684

帖子

6998

积分

学生管理组

Rank: 8Rank: 8

积分
6998
跳转到指定楼层
楼主
发表于 2019-5-21 14:15:35 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 李维强-15级 于 2019-5-21 18:29 编辑

例如对于文本串“南京市长江大桥”,找到匹配的所有词条(南京,市,长江,大桥,南京市,长江大桥,市长,江大桥,江大,桥)
这个如何去分解?MIT的同学给出了分词算法,总体来说应用HMM模型,使用了Viterbi算法。
在我的项目里面有一个物料信息搜索,就是电力局内几万种物料名称,搜索后我需要给出匹配建议,这里就需要把搜索词拆分,然后再到数据内LIKE它,还好数据量只有几万,不大不然效率就会慢了,需要加入分布式和缓存了
https://github.com/anderscui/jieba.NET/

另外一个在线的,可调用其API
http://pullword.com/
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|cqutlab ( 渝ICP备15004556号

GMT+8, 2024-12-22 00:11 , Processed in 0.179265 second(s), 28 queries .

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表