[发明专利]文本翻译模型的获取方法、文本翻译方法、装置及设备在审

专利信息
申请号: 202210222957.5 申请日: 2022-03-09
公开(公告)号: CN116776898A 公开(公告)日: 2023-09-19
发明(设计)人: 张映雪;孟凡东 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F40/45 分类号: G06F40/45;G06F40/56;G06F40/30;G06F40/279
代理公司: 北京三高永信知识产权代理有限责任公司 11138 代理人: 李文静
地址: 518057 广东省深圳*** 国省代码: 广东;44
权利要求书: 暂无信息 说明书: 暂无信息
摘要: 本申请公开了一种文本翻译模型的获取方法、文本翻译方法、装置及设备,属于自然语言处理技术领域。方法包括:获取源语言文本和源语言文本对应的第一目标语言文本,第一目标语言文本是标注的源语言文本的翻译文本;确定源语言文本中源语言实体对应的目标语言实体;将源语言文本和源语言文本中源语言实体对应的目标语言实体进行拼接,得到拼接文本;基于拼接文本确定源语言文本对应的第二目标语言文本,第二目标语言文本是预测的源语言文本的翻译文本;基于第一目标语言文本和第二目标语言文本,获取文本翻译模型。通过对拼接文本中的源语言文本进行翻译得到第二目标语言文本,降低了翻译不通顺情况的出现,提高文本翻译结果的准确性。
搜索关键词: 文本 翻译 模型 获取 方法 装置 设备
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202210222957.5/,转载请声明来源钻瓜专利网。

同类专利
  • 文本翻译模型的获取方法、文本翻译方法、装置及设备-202210222957.5
  • 张映雪;孟凡东 - 腾讯科技(深圳)有限公司
  • 2022-03-09 - 2023-09-19 - G06F40/45
  • 本申请公开了一种文本翻译模型的获取方法、文本翻译方法、装置及设备,属于自然语言处理技术领域。方法包括:获取源语言文本和源语言文本对应的第一目标语言文本,第一目标语言文本是标注的源语言文本的翻译文本;确定源语言文本中源语言实体对应的目标语言实体;将源语言文本和源语言文本中源语言实体对应的目标语言实体进行拼接,得到拼接文本;基于拼接文本确定源语言文本对应的第二目标语言文本,第二目标语言文本是预测的源语言文本的翻译文本;基于第一目标语言文本和第二目标语言文本,获取文本翻译模型。通过对拼接文本中的源语言文本进行翻译得到第二目标语言文本,降低了翻译不通顺情况的出现,提高文本翻译结果的准确性。
  • 一种翻译处理方法及终端设备-201910222992.5
  • 王丰;杜莉莉 - 维沃移动通信有限公司
  • 2019-03-22 - 2023-09-08 - G06F40/45
  • 本发明提供一种翻译处理方法及终端设备,该方法包括:识别待翻译文件中的分隔标识,所述分隔标识用于将所述待翻译文件分隔成至少两个区域,且所述分隔标识包括封闭或者半封闭的线条;基于所述分隔标识的分区结果,分别对每一区域的文本内容进行翻译,并得到每一区域的翻译结果。这样可以有效提升翻译的准确度及翻译结果的排版的美观程度。
  • 翻译方法、装置、电子设备以及计算机可读存储介质-202210142644.9
  • 梁棋棋;刘宜进;孟凡东;陈钰枫;徐金安 - 腾讯科技(深圳)有限公司;北京交通大学
  • 2022-02-16 - 2023-08-29 - G06F40/45
  • 本申请实施例提供了一种翻译方法、装置、电子设备以及计算机可读存储介质,涉及人工智能、自然语言处理、多媒体及云技术领域。该方法包括:获取源语言的待翻译文本,通过训练好的翻译模型对待翻译文本进行翻译,得到待翻译文本对应于目标语言的目标文本;该翻译模型是通过以下方式训练得到的:获取包括源语言的第一文本和第一文本对应于目标语言的第二文本的多个训练样本;根据每个样本的第一文本和第二文本中相匹配的各单词对在两个文本中的位置偏置,确定每个样本对应的训练损失权重;基于多个样本及其对应的训练损失权重对初始神经网络模型进行迭代训练得到翻译模型。基于该方法,能够有效提升翻译效果。
  • 一种古文到英文的固定风格翻译方法及系统-202310343986.1
  • 杨红征;刘鑫 - 武昌理工学院
  • 2023-04-03 - 2023-08-15 - G06F40/45
  • 本发明提供一种古文到英文的固定风格翻译方法及系统,方法包括:对获取的古文诗词和对应的英文翻译诗词进行子句对齐和分词操作,获取古文诗词分词语料库、古文翻译分词语料库和古文诗词翻译风格语料库;基于语料库分别对分词模型和古文诗词翻译风格模型进行训练;基于古文诗词翻译风格模型对古文诗词进行预测,输出英文翻译,对翻译风格进行分析。本发明针对固定风格的翻译问题,构建了固定翻译风格的古文诗词分词语料库以及其对应的古文翻译分词语料库,根据固定翻译风格对分词网络进行训练,形成了固定翻译风格的分词模型,解决了固定风格的翻译问题。
  • 文本处理方法、装置、介质和计算设备-201911043164.1
  • 付凯;陈旻;黄瑾;段亦涛 - 网易有道信息技术(北京)有限公司
  • 2019-10-29 - 2023-07-21 - G06F40/45
  • 本发明的实施方式提供了一种文本处理方法。所述方法包括获取源文本和目标文本;根据源文本的第一段落数a和目标文本的第二段落数b,确定分割段落对,该分割段落对包括针对源文本的第一段落序号和针对目标文本的第二段落序号;根据分割段落对,分割源文本和目标文本,得到多个子源文本和与多个子源文本一一对应的多个子目标文本;以及采用预定对齐算法,对齐多个子源文本和多个子目标文本。本发明的方法、装置、介质以及计算设备通过先将两个文本划分为多个子文本,再对子文本进行对齐,可以降低后续段落对齐和句子对齐时因文本不规范导致的级联错误,从而提升文本对齐质量,并因此降低对两个文本的质量要求。
  • 一种机器翻译自动后编辑方法及装置-202011209517.3
  • 李付学;闫红;张静;张祯 - 营口理工学院
  • 2020-11-03 - 2023-05-12 - G06F40/45
  • 本发明公开了一种机器翻译自动后编辑方法及装置,借助自主检查单元调用任一其他翻译软件,对初处理信息进行反向翻译,反向翻译即为将该初处理信息重新翻译回初始的语言,得到反向译文;将源文件与反向译文进行比对,得到反向译文与源文件不同的单字个数,从而得到错译比Yc;之后获取到反向译文中断句错误的地方,即为断句的逗号出现错误的地方,得到断句错误处,得到断错比Dc;根据两个因素求取错评值C对应产生不同的评价信号,根据评价信号和其他因素将对应的Xq段内容信息随机发送至目标人员;目标人员对其翻译内容进行更正后得到正确译文,同时将错误处于正确译文以及对应应用环境记录成纠正信息。
  • 一种术语翻译方法、装置、电子设备及存储介质-202211664335.4
  • 王鹏 - 广州视嵘信息技术有限公司;广州视源电子科技股份有限公司
  • 2022-12-23 - 2023-04-07 - G06F40/45
  • 本公开公开了一种术语翻译方法、装置、电子设备及存储介质。术语翻译方法,包括:从翻译库中匹配对应待翻译文本的平行语料;将匹配得到的平行语料所对应的术语对,确定为对应所述待翻译文本的术语对,所述待翻译文本对应的术语对包括源语言的第一术语和目标语言的第二术语,所述第一术语和所述第二术语对应同一语义;在术语对中第一术语包含在所述待翻译文本内时,将所述待翻译文本内第一术语替换为所述术语对中第二术语,得到伪翻译文本;将所述伪翻译文本输入至翻译模型,得到所述待翻译文本的翻译结果。实现了对待翻译文本中术语的翻译。然后将伪翻译文本输入至翻译模型,得到包含翻译文本的翻译结果,提高了包含术语的文本的翻译精准度。
  • 一种双语平行数据一致性检测与纠正方法-201911324133.3
  • 杜权;李自荐 - 沈阳雅译网络技术有限公司
  • 2019-12-20 - 2023-03-14 - G06F40/45
  • 本发明公开一种双语平行数据一致性检测与纠正方法,步骤为:对在基础数据集中的源语言以及目标语言单语数据集执行单词切分操作,并组成双语平行数据集;对双语平行数据集执行词对齐信息获取操作,得到数据集中句子的词汇对应关系并进行辅助判断,得出实体对应表;如果句对间序号不一致,则进行纠正;在分词后双语平行数据集的基础上对句对中的括号内容一致性进行检测;对检测到的存在括号内容不一致性进行评估,并给出修正或删除操作;获取数据中出现的单词粘连情况并进行拆分修正;得到最终经过数据处理后的双语平行数据集。本发明对句子中出现的不一致性、单词黏连等情况进行精确的识别与纠正,改善了双语数据质量,提升神经机器翻译性能。
  • 一种人名翻译方法、系统、设备及计算机可读存储介质-202210949527.3
  • 苑聪虎 - 中译语通科技股份有限公司
  • 2022-08-09 - 2022-11-08 - G06F40/45
  • 本发明公开了一种人名翻译方法、系统、设备及计算机可读存储介质,所述方法包括以下步骤:根据越南姓氏的越南字母获取对应的英文字母,并将越南人名单词的越南字母转为英文字母形式;根据收集的越南姓氏以及越南人名对应的英文字母,将越南姓氏以及越南人名,转为英文字母形式的男性名字对照数据和英文字母形式的女性名字对照数据;利用收集的男性名字对照数据和女性名字对照数据训练一个性别识别分类器;通过正则表达式找中文中以大写字母开头连续两个单词以上的姓名。本发明能正确转换成中文人名,极大的提高越南人名翻译的准确度,提高越南语的机器翻译水平。
  • 一种数据的处理方法、系统、设备及计算机可读存储介质-202210949534.3
  • 苑聪虎 - 中译语通科技股份有限公司
  • 2022-08-09 - 2022-11-04 - G06F40/45
  • 本发明公开了一种数据的处理方法、系统、设备及计算机可读存储介质,所述方法包括以下步骤:抽取待翻译句子中的数字;将抽取的数字转成无单位数字,具体包括:定义表示数字范围的符号;将所述抽取的数字与定义的数字范围的符号进行对比;根据对比结果,将所述抽取的数字转换成无单位数字;将所述无单位数字输入至神经网络机器翻译模型进行训练。本发明不会导致后续翻译对这类数字翻译出错,可以提高机器翻译的质量。
  • 多语言翻译系统的持续学习方法、装置、终端及存储介质-202210865989.7
  • 蒋芳清;余跃;王晖;刘欣;李文龙;张叶红;张艳;李革;陶恒韬 - 鹏城实验室
  • 2022-07-22 - 2022-11-01 - G06F40/45
  • 本发明公开了一种多语言翻译系统的持续学习方法、装置、终端及存储介质,方法包括:根据处理策略对翻译请求进行预处理;根据处理后的翻译请求分发对应的翻译模型,并通过翻译模型对处理后的翻译请求进行翻译推理;根据翻译结果进行置信度评估,并根据置信度评估结果触发请你翻译模式,将处理后的翻译请求调度至在线专家或其他用户侧;接收在线专家或其他用户侧反馈的翻译参考答案,激励翻译模型对反馈的翻译参考答案进行答案融合;接收其他用户侧反馈的翻译结果评分,并根据翻译结果评分及反馈的翻译参考答案对翻译模型进行持续学习,以扩充翻译模型的翻译分析数据和持续学习数据。本发明通过反馈打分和请你翻译的人机协作提高系统翻译性能。
  • 基于端到端技术的古代汉语转现代汉语方法、系统及设备-202210179514.2
  • 黄羿衡;倪勇 - 江苏苏云信息科技有限公司
  • 2022-02-25 - 2022-06-28 - G06F40/45
  • 本发明提供基于端到端技术的古代汉语转现代汉语方法,包括:步骤S1.获取标准语料输入Encoder‑Decoder神经网络结构进行语言模型训练,得到第一模型;步骤S2.基于所述第一模型,解码待翻译古代汉语文本为现代汉语文本;其中所述标准语料是指已标定转换关系的古代汉语文本和现代汉语文本。利用Encoder‑Decoder神经网络结构预训练语言模型,并结合大量现代汉语语料优化搜索路径,大幅提高了翻译效率且翻译准确,提升了机器翻译的可靠性。本发明还提供的基于端到端技术的古代汉语转现代汉语系统便于用户建模,能够准确地将古代汉语文本转换为现代汉语文本,用户体验好。本发明的电子设备因能实施本发明的古代汉语转现代汉语方法而具有相应优势。
  • 语料生成方法、装置、电子设备及存储介质-202111527246.0
  • 余勇宏 - 上海流利说信息技术有限公司
  • 2021-12-14 - 2022-03-25 - G06F40/45
  • 语料生成方法、装置、电子设备及存储介质,其中,所述语料生成方法包括:获取目标语言类型的第一语料;将所述第一语料输入已训练好的翻译模型阵列进行翻译,得到多个翻译结果;其中,所述翻译模型阵列包括将所述第一语料翻译为其他语言类型语料的翻译模型,以及将所述其他语言类型语料翻译为所述目标语言类型的翻译模型,且所述翻译模型阵列中各翻译模型按照预设顺序设置;计算所述多个翻译结果与所述第一语料的编辑距离,得到所述第一语料相对应的目标语料。采用上述方案,能够提高获取平行语料的效率。
  • 对译语料库制作方法、装置、记录介质以及机器翻译系统-201611197994.6
  • 藤原菜菜美;山内真树 - 松下知识产权经营株式会社
  • 2016-12-22 - 2021-12-03 - G06F40/45
  • 本发明提供得到进一步改善的对译语料库制作方法、装置及程序和使用了该方法、装置和/或程序的机器翻译系统。该对译语料库制作方法、装置、程序和机器翻译系统,通过同义转换候选文生成部(2)将第1语言的第1原文所包含的多个片段中的一个或多个片段同义转换成第1语言的其他表达,由此生成对第1原文的多个同义转换候选文;通过同义转换文识别部(3a)从这些多个同义转换候选文中,识别意思与第1原文的意思相同的一个或多个同义转换候选文来作为一个或多个同义转换文;通过对译语料库制作部(4)将该识别出的一个或多个同义转换文和对第1原文进行翻译而得到的第2原文设为成对文,由此生成新成对文,用该生成的新成对文制作对译语料库。
  • 翻译辅助方法、翻译辅助装置、翻译装置以及记录介质-201611195288.8
  • 山内真树;藤原菜菜美 - 松下知识产权经营株式会社
  • 2016-12-22 - 2021-11-05 - G06F40/45
  • 提供一种翻译辅助方法、翻译辅助装置、翻译装置以及翻译辅助程序。翻译辅助方法是对机器翻译进行辅助的方法,所述机器翻译使用保存有作为第1语言的短语与第2语言的短语的对的短语对的短语表(7),将第1语言的原文翻译成第2语言的翻译文,所述方法包括如下的存储步骤:存储组合信息(例如,数据构造(30)以及路径(31)),所述组合信息是针对成为翻译文的候选的多个翻译候选文的各翻译候选文,确定短语表(7)所保存的短语对中为了生成翻译候选文而使用的短语对的组合的信息。
  • 图片文字翻译方法、应用及计算机设备-201711449311.6
  • 王晓辉;张蕾;奚佳芸 - 北京百度网讯科技有限公司
  • 2017-12-27 - 2021-11-02 - G06F40/45
  • 本发明提出一种图片文字翻译方法、应用及计算机设备,其中,该方法包括:获取图片翻译请求,所述翻译请求中包括待翻译的图片,及目标语言类型;若确定当前的翻译方式为片段式翻译,则在显示界面显示待翻译的图片及涂抹功能编辑区;根据用户在所述涂抹功能编辑区及所述待翻译的图片中的操作,确定当前待翻译的目标片段;对所述目标片段进行文字识别,确定待翻译的原始文本;对所述原始文本进行翻译,生成与所述目标语言类型对应的目标文本。实现了根据用户的操作,对图片中的部分片段进行翻译,翻译方式灵活,满足了用户自由选择待翻译片段的需求,改善了用户体验。
  • 基于翻译的专业垂直领域文本同义改写方法-202011449188.X
  • 王征;罗学优 - 杭州艾耕科技有限公司
  • 2020-12-09 - 2021-03-26 - G06F40/45
  • 本发明公开了一种基于翻译的专业垂直领域文本同义改写方法,包括以下步骤:输入待改写文本;确定垂直领域专有名词,并选择规避词汇;将待改写文本的中文翻译成英文,并加入专有名词;将英文翻译成中文,使翻译结果中不出现规避词汇;输出改写结果。本发明在输入端提供垂直领域的专有名词信息,优化了文本改写过程中专有名词的保持能力,使得垂直领域的相关文本改写结果质量更佳。在生成文本时,采取特定的解码策略,使得本发明能提供不同改写幅度的结果,满足了不同的场景下的改写幅度需求,提高了灵活性。同时,本发明所采用的解码策略也能够提供具有随机性的多种改写结果,具备更强的多样性。
  • 一种文本生成方法、装置、计算机设备及存储介质-201910775529.3
  • 王星;涂兆鹏;王龙跃;史树明 - 腾讯科技(深圳)有限公司
  • 2019-08-21 - 2020-11-24 - G06F40/45
  • 本发明提供了一种文本生成方法、装置、计算机设备及存储介质,涉及人工智能中的自然语言处理及机器学习技术,依据树形结构源文本序列的结构,计算每个单词的位置向量;将每个单词对应的位置向量输入到机器翻译模型中;进行语义编码,得到每个单词各自对应的语义向量;依据位置向量以及语义向量,生成每个单词各自对应的源端语义向量;进行语义解码,得到每个单词各自对应的目标单词;确定目标单词的组合顺序并对目标单词进行拼接,生成目标文本。树形结构源文本序列能体现源文本的句法结构,计算得到的位置向量能够体现出源文本的句法结构,在确定单词语义的过程中考虑到了源文本的句法结构对单词语义的影响,提高翻译结果的准确性。
  • 一种多语言智能预处理实时统计机器翻译系统-201710203439.8
  • 张昱琪;唐亮 - 唐亮
  • 2017-03-30 - 2020-07-28 - G06F40/45
  • 本发明公开了一种多语言智能预处理实时统计机器翻译系统,包括:接收模块、预处理模块、机器翻译模块和后处理模块。所述接收模块包括文本语言接收模块和语音识别结果接收模块;所述预处理模块包括文本预处理模块和语音识别结果预处理模块;机器翻译模块,所述机器翻译模块用于学习短语对短语的翻译,并对经过预处理模块处理的短语找出对应的翻译短语,以及把短语连接成完整的句子;后处理模块,所述后处理模块用于对翻译结果做单词标点规范化、大小写规范化和格式规范化处理,使其更加接近目标语言的表达习惯,并作为最终结果输出。本发明能够用于对文本语言和语音语言进行翻译,且提高了对小概率词语、短语的翻译准确度。
  • 语料文件的处理方法及装置-201911324610.6
  • 陈海龙 - 北京海兰信数据科技股份有限公司
  • 2019-12-20 - 2020-06-02 - G06F40/45
  • 本发明的实施例提供一种语料文件的处理方法及装置。其中方法包括:获取语料文件;将所述语料文件进行划分,得到至少一个分段,每一个分段包括至少一个分句;对所述语料文件进行语种识别,得到至少两个语种集,所述至少两个语种集包括:第一语种语料文件集以及除第一语种外的其它语种语料文件集;对所述第一语种语料文件集进行机器翻译,得到目标语种语料文件;获取所述目标语种语料文件与所述其它语种语料文件集的相似度;根据所述相似度,将所述目标语种语料文件与所述第一语种语料文件集进行对齐。本发明的方案可以实现从双语或多语的语料文件中自动识别文档中的双语或者多语并且自动对齐。
  • 一种中医细粒度证候名分割的远程监督方法-201811186683.9
  • 王亚强;闫飞飞;王晓峰;舒红平;唐聃 - 成都信息工程大学
  • 2018-10-11 - 2020-02-21 - G06F40/45
  • 本发明是一种实现中医细粒度证候名分割的远程监督方法,其使用中医证候的命名和翻译惯例来训练基于中医细粒度证候名分割的条件随机场模型,首先利用汉英平行语料库中医证候的汉英字词关系,采用概率对准方法构建带噪声的标记训练数据,该概率对准方法可以启发式地结合正向对准和反向检查来推断出中医证候中的细粒度段,然后使用这些细粒度段训练条件随机场模型。本发明构思合理、简单,用于训练中医药领域中的基于中医细粒度证候名分割的条件随机场模型,几乎不依赖甚至不需要手工标记训练数据。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top