[发明专利]中文分词歧义消除方法和系统有效
申请号: | 201610596761.7 | 申请日: | 2016-07-26 |
公开(公告)号: | CN106227719B | 公开(公告)日: | 2018-10-23 |
发明(设计)人: | 柳艳红;郭祥;郭瑞 | 申请(专利权)人: | 北京智能管家科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京思创毕升专利事务所 11218 | 代理人: | 孙向民;廉莉莉 |
地址: | 101500 北京市密云县经济开发*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供一种中文分词歧义消除方法和系统,所述方法包括:对待分词语句进行分词,获得初始分词结果;针对初始分词结果,提取分词歧义点;构造包含分词歧义点的新分词,并计算新分词的最大熵模型得分;根据新分词的最大熵模型得分,判断新分词是否为有效分词;用有效分词修正初始分词结果。本发明实施例克服了现有技术中需要大量训练语料数据和歧义语料库的缺点,分词效果达到实用的精度。 | ||
搜索关键词: | 中文 分词 歧义 消除 方法 系统 | ||
【主权项】:
1.一种中文分词歧义消除方法,其特征在于,包括:对待分词语句进行分词,获得初始分词结果;针对所述初始分词结果,提取分词歧义点;构造包含所述分词歧义点的新分词,并计算所述新分词的最大熵模型得分;根据所述新分词的最大熵模型得分,判断所述新分词是否为有效分词;用所述有效分词修正所述初始分词结果;所述提取分词歧义点的步骤包括:针对所述初始分词结果中的每个词构造候选词;在场景库中进行搜索,确定所述候选词是否存在于所述场景库中;提取存在于所述场景库中的候选词的第一个字或最后一个字作为分词歧义点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智能管家科技有限公司,未经北京智能管家科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610596761.7/,转载请声明来源钻瓜专利网。