[发明专利]基于多模态码本的文本图像翻译模型的训练方法在审
申请号: | 202310158612.2 | 申请日: | 2023-02-23 |
公开(公告)号: | CN116168401A | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 苏劲松;蓝志彬;余嘉炜 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06V30/246 | 分类号: | G06V30/246;G06V30/19 |
代理公司: | 厦门创象知识产权代理有限公司 35232 | 代理人: | 叶秀红 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提出了一种基于多模态码本的文本图像翻译模型的训练方法,包括采用所述训练样本集中的图像对应的语言文本和目标语言文本对所述文本编码器和所述文本解码器进行训练;采用所述训练样本集中的图像对应的语言文本对所述多模态码本进行训练;采用所述图像和所述图像对应的语言文本对所述图像编码器和所述多模态码本进行训练;采用所述图像、所述图像对应的语言文本、所述光学字符识别文本和所述目标语言文本对所述文本图像翻译模型进行微调,以得到训练好的文本图像翻译模型;由此,利用输入的图像联想相关文本,从而为翻译过程提供有效的补充信息,以便得到更好的翻译效果。 | ||
搜索关键词: | 基于 多模态码 文本 图像 翻译 模型 训练 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202310158612.2/,转载请声明来源钻瓜专利网。
- 同类专利
- 一种百米标标识及基于其的百米标使用方法-202311024640.1
- 杨菁;魏子璇;安越;刘伊敏;王刚;刘骄阳;徐笑涵;张波;赵晨阳 - 成都地铁运营有限公司
- 2023-08-14 - 2023-10-24 - G06V30/246
- 一种百米标标识及基于其的百米标使用方法,百米标标识包括百米标和公里标,所述百米标包括设置有数字的第一区域和设置有符号的第二区域;所述公里标包括设置有第一字符的第三区域和设置有第二字符的第四区域。基于百米标标识的使用方法包括百米标识别方法,识别方法包括如下步骤:步骤1,接收图片信息;步骤2,筛选接收到的图片信息;步骤3,识别图片信息并记录里程值;其中,将未处理的图片及时存放于文件夹A中;还包括如下步骤:步骤4,从文件夹A中选择置信度最高的图片来识别并记录里程值数据;步骤5,从记录的里程值数据中选取输出值。改进后的百米标标识及基于其的方法能够避免系统误识别、不识别等问题,提升系统的识别准确性。
- 一种语种识别方法、装置、电子设备及存储介质-201811543890.5
- 张雪雷;沈海峰;苟巍 - 北京嘀嘀无限科技发展有限公司
- 2018-12-17 - 2023-09-19 - G06V30/246
- 本申请涉及计算机视觉技术领域,尤其涉及一种语种识别方法、装置、电子设备及存储介质,其中,该方法包括:获取目标文本图像,其中,所述目标文本图像中携带有目标文本;将所述目标文本图像划分为多个目标文本子图像;根据所述目标文本图像、所述多个目标文本子图像、以及预先训练的语种识别模型,确定与所述目标文本对应的语种。采用上述方案,利用训练出的语种识别模型直接对文本图像进行语种识别,使得识别效率和识别准确率较高,适用性较强。
- 一种对比OCR字符识别结果的方法及系统-202311021186.4
- 张宏坤;李慧;刘子禛;于龙;姜建宁;王军 - 山东履信思源防伪技术有限公司
- 2023-08-15 - 2023-09-15 - G06V30/246
- 本发明提供一种对比OCR字符识别结果的方法及系统,涉及字符识别技术领域。该方法及系统按照约定规则将原始的物品字符编号和OCR识别的字符串分别拆分,约定规则为按照字符长度单位进行拆分,或者按照字母和数字单独进行拆分,连续的字母或者数字为一段;拆分后的原始的物品字符编号存入数据表中作为比对的原始记录,拆分后的OCR识别的字符串按照对应的列进行数据表中数据的查询,对查询结果依次与OCR识别的字符串进行莱文斯坦距离计算,莱文斯坦距离计算后,找出距离最小的那条数据即为与最终结果。从而高效地判定此物品字符编号经过OCR识别的结果是否正确且存在,若识别错误则告知正确的字符编号。
- 一种基于CRNN和CTC的藏汉双语场景文字识别方法-202011614400.3
- 王维兰;李金成;郝玉胜;王铁君;蔡正琦 - 西北民族大学
- 2020-12-31 - 2023-07-18 - G06V30/246
- 本发明提供一种基于CRNN和CTC的藏汉双语场景文字识别方法,包括以下步骤:获取藏汉场景单行文字图像,得到藏汉场景文字数据集;构建卷积网络层,并根据卷积网络层对藏汉场景文字数据集进行特征提取并编码成图像特征序列;构建循环网络层,并根据循环网络层对图像特征序列进行处理,得到概率分布矩阵;构建转录层,并根据转录层对概率分布矩阵进行解码,得到图像识别结果。本发明通过使用卷积循环神经网络和连接时序分类器的端到端识别方法,实现了场景藏汉双语文字的识别,取得了良好的结果。为进一步的研究和应用开发奠定了基础。
- 文字识别方法、装置、存储介质及电子设备-202310099687.8
- 谢涛 - 支付宝(杭州)信息技术有限公司
- 2023-01-31 - 2023-07-11 - G06V30/246
- 本说明书实施例公开了一种文字识别方法、装置、存储介质及电子设备,通过识别失败的待识别文字的拆分结果,在字库中匹配对应的待确定目标文字,并在确定了待识别文字的拆分结果和待识别文字对应一致后,将待确定目标文字确定为待识别文字对应的目标文字。换而言之,本说明书通过包括多个文字以及每个文字对应至少一组文字特征的字库与每个待识别文字的拆分结果,识别待识别文字。
- 高效的小语种识别模型训练、文本识别方法、装置及设备-202310122229.1
- 黄登;李巍豪;高翔;潘新星;魏舒;许诺;杨彬彬;纪达麒;陈运文;纪传俊 - 达而观信息科技(上海)有限公司
- 2023-02-15 - 2023-06-27 - G06V30/246
- 本发明实施例公开了一种高效的小语种识别模型训练、文本识别方法、装置及设备,小语种识别模型训练方法,包括:获取目标小语种的语料样本数据;对所述语料样本数据的字符进行处理,得到所述目标小语种的字符数据集;根据所述字符数据集生成所述目标小语种的目标语种字体;根据所述语料样本数据、所述字符数据集和所述目标语种字体生成小语种识别模型的目标小语种样本数据;根据所述目标小语种样本数据训练所述小语种识别模型。本发明实施例技术方案极大地提高了文本识别效率。
- 文字识别方法、名单扫描方法和装置-202310125818.5
- 陈阳;孙清清;何茂林;邹泊滔 - 支付宝(杭州)信息技术有限公司
- 2023-01-31 - 2023-06-06 - G06V30/246
- 本说明书实施例提供了一种文字识别方法及装置、名单扫描方法及装置。在该方法中包括:确定待识别文字;根据预先设定的笔顺编码规则以及所述待识别文字的书写笔顺,得到待识别文字对应的笔顺编码;从该笔顺编码中拆分出至少一个编码片段;针对每一个编码片段均执行:根据预先设置的容差限制,在预先生成的字典中收集与当前的编码片段相对应的一组候选已知文字;其中,所述字典中包括多个已知文字;在对应各个编码片段的各组候选已知文字之间求交集,根据该交集得到所述待识别文字所对应的所述字典中的目标已知文字。本说明书实施例能够更为有效地识别出输入的文字。
- 基于多模态码本的文本图像翻译模型的训练方法-202310158612.2
- 苏劲松;蓝志彬;余嘉炜 - 厦门大学
- 2023-02-23 - 2023-05-26 - G06V30/246
- 本申请提出了一种基于多模态码本的文本图像翻译模型的训练方法,包括采用所述训练样本集中的图像对应的语言文本和目标语言文本对所述文本编码器和所述文本解码器进行训练;采用所述训练样本集中的图像对应的语言文本对所述多模态码本进行训练;采用所述图像和所述图像对应的语言文本对所述图像编码器和所述多模态码本进行训练;采用所述图像、所述图像对应的语言文本、所述光学字符识别文本和所述目标语言文本对所述文本图像翻译模型进行微调,以得到训练好的文本图像翻译模型;由此,利用输入的图像联想相关文本,从而为翻译过程提供有效的补充信息,以便得到更好的翻译效果。
- 基于连通分量和回归式字切分的彝文古籍字符检测方法-201910815873.0
- 韩旭;陈善雄;林小渝;邱小刚;李然康 - 西南大学
- 2019-08-30 - 2023-02-03 - G06V30/246
- 本发明提供一种基于连通分量和回归式字切分的彝文古籍字符检测方法,所述方法包括如下步骤:S1、用非局部均值滤波算法和二值化算法对古籍扫描图像进行预处理,使图像中的像素值只有0和255两个值;S2、采用基于连通分量的方法对图像非文本区域和未去除的噪点进行过滤,得到文本区域;S3、采用基于连通分量和回归式字切分投影的方法对图像中的单个字符进行检测。本发明能够对古籍中文本和非文本区域进行了有效的分离,并在单字检测实验中取得了较高的准确率和召回率,能有效地解决古籍文献字符识别中的字符分割及检测问题。
- 一种图像处理方法、装置、计算机设备及存储介质-202110253249.3
- 徐培;黄珊 - 腾讯科技(深圳)有限公司
- 2021-03-08 - 2022-09-13 - G06V30/246
- 本申请公开了一种图像处理方法、装置、计算机设备及存储介质,其中,该方法包括:计算机设备利用训练好的目标蒙语识别模型对角度变换后的待识别蒙语图像进行识别,以得到蒙语识别结果,其中,该目标蒙语识别模型是利用第一蒙语样本图像集和第二蒙语样本图像集训练得到的,第一蒙语样本图像集中包括的第一蒙语样本图像是根据蒙语字符串和背景图像构建得到的,第二蒙语样本图像集中包括的第二蒙语样本图像是针对蒙语文本对象进行图像截取得到的,通过该方法可以提高对蒙语图像识别的精确度。
- 专利分类
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序