[发明专利]一种PDA翻译系统的中文分词方法在审
申请号: | 201610505434.6 | 申请日: | 2016-06-28 |
公开(公告)号: | CN106202040A | 公开(公告)日: | 2016-12-07 |
发明(设计)人: | 邓力 | 申请(专利权)人: | 邓力 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/28 |
代理公司: | 广西南宁公平专利事务所有限责任公司 45104 | 代理人: | 韦锦捷 |
地址: | 530001 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种PDA翻译系统的中文分词方法,包括以下步骤:采用中文翻译为东盟各国语言的中文词典进行正向分词,再采用东盟各国语言翻译为中文的中文词典进行逆向分词,当逆向分词与正向分词结果相同时,此结果为最后的分词结果;当逆向分词与正向分词结果不相同时,则需进行歧义分析,分别计算正向分词与反向分词加权值,当正向分词加权值大于反向分词加权值时,取正向分词为最后分词的结果,否则取反向分词为最后的分词结果。本发明采用双向匹配法实现中文分词,能够提高分词匹配的精准性。 | ||
搜索关键词: | 一种 pda 翻译 系统 中文 分词 方法 | ||
【主权项】:
一种PDA翻译系统的中文分词方法,所述的翻译系统包括中文与东盟各国语言的互译词典数据库,各个互译词典数据库中均设置有索引,索引字段为定长字段型,索引对应的翻译字段为变长字段型;其特征在于:所述的中文分词方法包括以下步骤:(1)正向分词:设句子长度为L,句子字数为n,句子分词的总数有2n‑1,在2n‑1分词方式中,只有唯一的一个正确的分词;正向分词采用中文翻译为东盟各国语言的中文词典作为正向分词词典;设k=1,2,……,n,并设a1,a2,……,an为句子的单字,将a1作为匹配条件与正向分词词典中的单词比较,若正向分词词典中两有相等的词,则认为a1为一个词,然后再将a1a2两个字作为匹配条件在正向分词词典中扫描,若正向分词词典中两有相等的词,则认为a1a2为一个词,不断增加k(k<=n)的数值,直至a1a2……ak+1在词典中无匹配的词,则认为a1a2……ak为切分到的最长单词,也是最可能的单词,取a1a2……ak为单词后对句子中余下的字继续分词,最后完成整个句子的分词;(2)逆向分词:与正向分词相似,采用逆向最大匹配法从被处理文档的末端开始匹配扫描,逆向分词采用东盟各国语言翻译为中文的中文词典作为逆向分词词典;先从句子最后一个字an开始分词,然后按句子逆向取anan‑1,取词后对anan‑1进行正向处理:将anan‑1逆序调整为an‑1an,然后将an‑1an按逆向分词词典中的中文单词进行分词,不断逆向取词,最后完成逆向分词;(3)当逆向分词与正向分词结果相同时,此结果为最后的分词结果;当逆向分词与正向分词结果不相同时,则进入步骤(4);(4)歧义分析:设正向分词结果为向量Z=(z1,z2,...,zm);反向分词结果为向量F=(f1,f2,...,fn);正反向反词中包含共同相同的分词为:XTword(Z,F)=Z∩F;相同词相同词序正向分词相同词比率:ZSameword=(XTword(Z,F)/m)×100%;反向分词相同词比率:FSameword=(XTword(Z,F)/n)×100%;正向分词词序相同词比率:ZCXSameword=(CXZWORD/m)×100%;反向分词词序相同词比率:FCXSameword=(CXZWODR/n)×100%;分别计算正向分词与反向分词加权值:SimZSameword=λ1×ZSameword+λ2×ZCXSamewordSimFSameword=λ1×FSameword+λ2×FCXSamewordλ1,λ2为加权常数,且λ1+λ2=1;当(SimZSameword>SimFSameword)时,取正向分词为最后分词的结果,否则取反向分词为最后的分词结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邓力,未经邓力许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610505434.6/,转载请声明来源钻瓜专利网。