[发明专利]一种特定领域的语音识别文本纠错方法有效
申请号: | 201910130170.4 | 申请日: | 2019-02-21 |
公开(公告)号: | CN109977398B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 李加庆;沈春泽;谭子豪;周张泉 | 申请(专利权)人: | 江苏苏宁银行股份有限公司 |
主分类号: | G06F40/232 | 分类号: | G06F40/232;G06F40/242;G06F40/216;G06F16/33;G06F16/36;G10L15/20 |
代理公司: | 南京先科专利代理事务所(普通合伙) 32285 | 代理人: | 缪友菊 |
地址: | 210000 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种特定领域的语音识别文本纠错方法,包括标准词及变种词字典生成、基于词的N‑Gram上下文短语字典生成、基于上下文短语最大匹配保护的变种词替换纠错三个部分。本发明尤其适用于特定领域,比如可用在智能客服机器人或者智能催收机器人等应用场景中,可以对机器人对话过程中语音识别文本的质量进行提升,质量提升后的文本可以提高特定领域应用中机器人意图识别的准确性,进而提升对话过程的流畅性,提升对话机器人的业务价值。 | ||
搜索关键词: | 一种 特定 领域 语音 识别 文本 纠错 方法 | ||
【主权项】:
1.一种特定领域的语音识别文本纠错方法,其特征在于,包括以下步骤:(1)提供正语料库和负语料库,所述正语料库包含无需纠错的文本语料,负语料库包含未经纠错的文本语料;利用正语料库生成标准词表,利用负语料库查找与标准词对应的变种词,组成标准词及变种词字典;(2)对正语料库进行中文分词,按照词频大小构成正语料的词项组合表,将同一个词项组合中的字符串合并,得到短语,计算短语的字符串长度,将字符串长度相同的短语放在一个集合中,组成上下文短语字典;(3)输入待纠错文本,做文本滑窗,从左到右滑动文本滑窗,获取滑窗文本,判断滑窗文本是否存在于上下文字典中,并将出现在上下文短语字典中的滑窗文本中的每个字在文本中的索引列出,建立索引集合;对于索引集合,进一步采用文本滑窗,判断滑窗文本是否存在于标准词及变种词字典中,并将出现在标准词及变种词字典中的变种词用对应的标准词进行替换,输出纠错后文本。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏苏宁银行股份有限公司,未经江苏苏宁银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910130170.4/,转载请声明来源钻瓜专利网。