[发明专利]基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质在审
申请号: | 202310520147.2 | 申请日: | 2023-05-09 |
公开(公告)号: | CN116543404A | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 吴至友;高桓;乔岩;段旭祥 | 申请(专利权)人: | 重庆师范大学 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/414;G06V30/413;G06V30/14;G06V30/19;G06V10/82;G06F40/30;G06F16/35;G06N3/0455 |
代理公司: | 重庆华科专利事务所 50123 | 代理人: | 康海燕 |
地址: | 401331 重庆市沙坪坝*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开一种基于单元格坐标优化的表格语义信息抽取方法,对包含多种类型表单的数据集进行OCR识别,得到包含文字、单元格、标签的表格信息文件;同时,将相同的数据集输入多模态预训练模型预测单元格,计算预测单元格坐标,使用预测单元格坐标修正OCR识别获得的表格信息得到修正的表格信息;将修正后的表格信息输入多模态预训练模型,训练完成获得语义实体识别模型,语义实体识别模型进行语义识别,抽取获得表格语义信息,得到修正后的语义识别预测结果,对预测结果进行分类。解决了语义识别准确率较低,表格抽取难度较大,表格抽取精确度不高等问题。 | ||
搜索关键词: | 基于 单元格 坐标 优化 表格 语义 信息 抽取 方法 系统 设备 介质 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆师范大学,未经重庆师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202310520147.2/,转载请声明来源钻瓜专利网。