[发明专利]图像中数学公式的自动识别方法无效

专利信息
申请号: 200810053443.1 申请日: 2008-06-06
公开(公告)号: CN101329731A 公开(公告)日: 2008-12-24
发明(设计)人: 史广顺;肖萃 申请(专利权)人: 南开大学
主分类号: G06K9/20 分类号: G06K9/20;G06K9/46;G06K9/62
代理公司: 天津佳盟知识产权代理有限公司 代理人: 侯力
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种图像中数学公式的自动识别方法。包括:建立数学公式句法结构模型,建立数学公式底层知识库;图像中数学公式的定位;数学符号的识别;数学公式结构的分析与理解,数学公式结构的表示与格式化输出。本发明针对脱机数学公式图像的识别与理解难题,设计了一整套方法模型,形成了全流程、自动化处理数学公式图像的方法。该方法可实现对文档图像中独立行/嵌入式数学公式的自动判定和提取,从而满足数学公式图像自动录入、数学公式结构理解与格式重现的应用需求。该方法可与现有的普通文字OCR系统相互融合,形成功能更为完整的文档图像处理系统。也可支撑其他领域的表达式处理方法研究,如针对化学方程式的自动处理等。
搜索关键词: 图像 数学公式 自动识别 方法
【主权项】:
1、一种图像中数学公式的自动识别方法,其特征在于包括以下步骤:第1、建立数学公式句法结构模型,采用四元组G=(V,S,P,T)形式描述,即为:数学公式句法结构=(版面关系,字符集,句法规则,语法规则),其中,版面关系:指数学公式的版面结构,包括构成公式的所有符号的内容、字体、字号,以及符号之间的空间位置关系;字符集:组成一个数学公式的所有符号,包括所有操作符与操作数;根据符号内容调用相应的语法规则,确定符号之间的组合关系,检查符号出现的合法性;语法规则:主要定义了符号所具有的语法信息,包括符号自身的语法属性和符号之间的约束关系和组合关系,包括操作属性、语法属性、判定规则、特殊组合规则、子表达式组合规则等信息,同时用于对定位及识别结果的校验和修正错误!未找到引用源。;句法规则:句法规则是为以后扩展语义所服务的,它定义了所有类型操作符之间的优先级别、操作符的目类型,即操作符所拥有的子表达式的个数,和各种类型子表达式的组合结构和约束关系;主要用于分析不同运算符之间的优先级顺序,消除数学符号的多义性,并指导数学公式转换为其他的结构描述形式;第2、建立数学公式底层知识库,包括:符号信息:符号图像和符号内容;语法信息:符号的操作属性、符号的语法属性或称符号的类别、符号语法属性的判定规则、符号具有的组合关系;句法信息:符号的目类型、子表达式的组合关系和判定规则、操作符的优先级别;第3、图像中数学公式的定位,数学公式的定位方法为:将输入的图像进行区域和行切分,得到版面元素集合;然后,对不同的版面元素进行特征分类,从而定位出全部数学公式的独立图像,包括独立行公式和内嵌公式两类;版面元素的特征分类由特征向量决定,特征向量x=(HT,AS,BS,LI,RI,LD,TD,MS,SC),其中,(1)行高:                HT=h/h0                   (1-1)(2)上行间距:            AS=as/h0                  (1-2)(3)下行间距:            BS=bs/h0                  (1-3)(4)行左缩进:            LI=li/l                   (1-4)(5)行右缩进:            RI=ri/l                   (1-5)(6)公式编号和公式的距离:LD=ld/h0                  (1-6)(7)有无二维结构:        TD={1|if存在二维结构}     (1-7)(8)有无特殊数学符号:    MS={1|if存在特殊数学符号} (1-8)(9)区域中的最大连通体尺寸:SC=Max(Max(HCCXi,WCCXi))i=0..n,HCCXi,WCCXi分别代表区域中的第i个连通体的高度和宽度,n是区域中连通体的数目,公式中的h是行的实际高度,l是行的实际长度,h0是行内所有字符的平均高度;第3.1、独立行公式的定位方法,独立行公式是文档图像中的一个特殊独立行,定位过程为:第3.1.1、对文档图像进行区域划分,我们应用在X-Y方向反复投影的方法,通过寻找版面中的较大投影空白,将文档切分为较小的独立区域,得到多个版面区域元素;第3.1.2、对不同版面区域元素的特征向量进行判定,过滤掉图、表元素;第3.1.3、将每个独立区域投影到Y轴,对区域进行行切分,得到行元素;第3.1.4、将行元素的特征向量带入分类器,得到最终分类结果;在系统的实现中我们使用parzen window的方法对文本行和公式行的先验概率分布进行估计;使用已知类别的样本对未知的类条件概率密度p(x|ωj)进行估计,这实际上是分类器的训练过程,Parzen分类器的训练方法是:设任一类别ωk有Nk个训练样本那么Parzen分类器就由核函数以及窗宽度hk决定,公式(3-1)是最常使用的核函数,其中是p(x|ωk)的估计量,是类别的训练样本的协方差矩阵;p^(x|ωk)=1NkΣj=1Nk[1(2π)n/2hkn|Σ^k|1/2exp{-12hk2(x-xjk)TΣ^k-1(x-xjk)}]---(3-1)]]>得到估计以后,根据最小错误率的Bayes分类准则分类了,即:p(x|ωi)P(ωi)=maxmaxj=1,2,...,k{p(x|ωj)P(ωj)}x=ωi;]]>第3.2、内嵌公式的定位方法,内嵌数学公式是和普通文字混合在一起的,为了实现公式与文本的分离,需要采用自底向上的方法,先将文字行打碎,然后在打碎的文字行中通过二维特征或识别特征的提取,挑出内嵌数学公式;通过下面两个步骤,对打碎的单词进行特征分类,以实现内嵌公式的定位:第3.2.1、第一步是应用单词的二维特征,除标点符号外,一个正常单词的所有符号的主要部分都集中在baseline和meanline之间,由于数学公式内部存在二维空间结构,符号的位置不在同一水平线上,在一个单词中,当处于meanline和baseline区域之外的连通体数量nab满足公式nabn>Tab,]]>那么这个单词就被认定具有二维结构,是一个内嵌公式,其中n是单词内的总符号数目,nab是单词内异常符号数目,Tab是判决为内嵌数学公式的阈值;第3.2.2、第二步是判断单词中是否具有特殊的数学符号,对于不存在二维结构的隐式内嵌公式,需要使用识别特征寻找单词中的数学符号,当存在数学符号就可以认定这个单词是内嵌公式,或内嵌公式的一个组成部分,然后将已定位部分向两端扩展,定位出完整的内嵌公式;第4、数学符号的识别数学符号识别的主要作用是:识别公式中的数学字符,保存字符版面信息,为结构分析模块提供必要信息,识别方法如下:第4.1、字符切割在字符识别前,需要从定位出的公式图像中,得到独立的字符图像;我们采用寻找连通体的方法,完成公式图像中字符的切割;另外,在得到所有连通体后,对以下三种字符结构情况,还需要进行连通体合并,得到完整的字符图像,(1)字符在垂直方向可分为多个连通体,(2)字符在水平方向可分为多个连通体,(3)大连通体包含小连通体;第4.2、普通数学字符的识别对普通数学字符的识别基于两类特征:字符结构特征与字符统计特征;1)字符统计特征的抽取:令待识别符号ω图像为Iw,ω的外接矩形坐标是(0,0,w,h),把ω均分成4×4个小块,每个小块上计算3个特征:块黑像素密度、块重心水平、竖直坐标,定义:δ(x,y)=10<x1,0<y10else---(8-1)]]>M(x,y)=Σi=0wΣj=0hδ(x-i,y-j)Iw(i,j)---(8-2)]]>黑象素密度,块重心水平坐标,块重心竖直坐标则根据下列公式计算:f1=0h0wM(x,y)dxdyh×w---(8-3)]]>f2=0h0wM(x,y)xdxdy0h0wM(x,y)dxdy---(8-4)]]>f3=0h0wM(x,y)ydydx0h0wM(x,y)dxdy---(8-5)]]>把f1,f2,f3映射到[0,255],得到最终使用的特征计算每个小块的得f1,f2,...,f48;计算整个符号的得到f49,f50和f51;计算整个符号的宽高比r并映射到[0,255],用f52表示;r=wh---(8-9)]]>这样,字符ω可以用识别特征向量feat表示,feat=(f1,f2,...,f52);其中,符号h表示字符实际高度;符号w表示字符实际宽度;2)字符结构特征的抽取:如果待识别字符ω的所有训练字样ωi在点(x,y)处的取值都相同,那么点(x,y)就是一个稳定点;否则点(x,y)就是一个非稳定点;根据式(8-11)和式(8-12),得到ω的稳定黑点图B及稳定白点图W;Bω=iIωi---(8-11)]]>wω=iIωi---(8-12)]]>然后分别对B和W进行黑特征点抽取和白特征点抽取,得到待识别字符结构ω的识别结构特征;第4.2.1、首先应用字符统计特征进行粗分类,计算待识别字符与样本字符的统计特征向量距离,并选择距离较小的样本作为候选识别结果;定义向量距离函数如下:DIS(feat1,feat2)=Σi=152(feat1·fi-feat2·fi)252---(8-13)]]>那么满足式(8-14)的符号ωk就是待识别符号ω的候选识别结果。DIS(featω,featωk)=minωiΩDIS(featω,featωi)---(8-14)]]>其中,符号DIS表示特征向量间的距离;feat表示特征向量;fi表示特征元素;第4.2.2、应用字符的结构特征对上步确认的候选字进行验证,通过待识别字符与候选样本字符间黑点图与白点图的匹配,选择失配点最少的样本作为最终识别结果;第4.3、特殊数学字符的识别特殊符号指的是宽高比例r不固定的符号,包括:水平直线,竖直直线,水平方向箭头,竖直方向箭头,根号;特殊字符的识别需要针对不同符号的特殊结构特征,设计符号专用的识别分析方法:第4.3.1、方向箭头识别,利用投影的方法,将方向箭头符号分成三个部分:符号头部、符号尾部和符号中部,符号中部是一条或两条直线,很容易识别,而符号头部和符号尾部的形状比较复杂,采用了特征点匹配的识别方法;在符号识别阶段,对宽高比例异常的符号利用投影的方法被切割成三部分分别识别,如果三个部分的识别结果能够组合成合法的方向箭头符号,那么这个方向箭头符号就是识别结果;第4.3.2、根号识别,根据根号的结构和语法特征,我们定义以下条件,如果一个待识别字符ω满足这些条件,我们就认为它是一个根号:(1)ω外接矩形面积大于一般符号的外接矩形面积;(2)ω所在区域包含其他符号;(3)从ω左侧向右或下侧向上,沿扫描线深入ω所在区域超过一半,不会遇到黑像素阻挡;(4)ω最上部存在一条水平直线;(5)ω最下部存在一个拐点;第4.3.3、竖直直线识别,如果待识别符号ω的宽高比r<TVLR,并且ω不是竖直箭头符号,那么就认为ω就是竖直直线;其中TVLR是竖直直线宽高比例的最大阈值;竖直直线除了可以作为一个符号单独存在以外,还有可能是符号“||”的一部分,所以,如果存在两条竖直直线相邻,并且高度相同,距离接近,那么就合并这两条竖直直线为“||”;第4.3.4、水平直线识别,如果待识别符号ω的宽高比r>THLR,并且ω不是水平箭头符号,那么就认为ω就是水平直线;其中THLR是水平直线宽高比例的最小阈值;水平直线的含义很多,我们可以根据其上方和下方存在的符号的数量,以及这些符号和水平直线的位置关系,来对水平直线具体内容进行判断;第4.4、基于熵与熵降的专用识别分类器设计字符识别分类器用于快速找到与待识别字符特征匹配的样本字符,从而得到准确的识别结果;该识别分类器选用决策树作为本识别的模型,在分类树的建立过程中使用基于熵降的聚类算法;决策树的建立过程如下,[决策树建立算法]初始状态:输入对象为数学符号集中所有字符,建立空的决策树根节点,步骤1:初始化当前节点类别信息;步骤2:设计数参数N值为1;步骤3:使用K-means聚类算法,对节点字符集中的字符进行聚类,K取值为当前N值;步骤4:记录增益最大的聚类结果;步骤5:令N值加1,若N值小于阈值,重复步骤3;步骤6:将聚类结果保存到当前决策树节点中;步骤7:若当前节点没有达到叶节点,建立新节点,重复步骤1;在决策树的每一层聚类过程中,根据样本符号的特征向量反复使用K-means聚类算法聚类,并选取具有最大增益的分类作为当前节点的聚类结果;这样的策略能够保证每一次的聚类都是增益最大,保证了熵降比较大和覆盖比较小之间的一个最优平衡;第5、数学公式结构的分析与理解基于数学公式结构描述规则库,采用“自顶向下”的处理流程对数学公式的结构进行迭代式的分析;首先通过版面信息找到公式的核心骨干层次,然后利用语法和句法规则将该层次转换为一棵能反映公式正确计算顺序和结构的句法树;当该层次全部分析完成,再从公式中找到次级核心骨干层次,对句法树进行扩充;不断重复这一过程,直到公式结构分析全部完成;本文采用树型结构描述数学公式,每一个操作符的树型结构都是与其对应的句法规则的一个实例;处理流程描述如下:[数学公式结构分析算法]初始状态:处理对象为公式中所有符号,创建空的根结点,步骤1:进行版面结构分析,提取第一层次的所有字符;步骤2:应用语法规则,确定核心操作符集;步骤3:应用句法规则,判断操作符优先级,按优先级顺序将核心操作符的子表达式结构填充到结构树中;步骤4:选择公式中次高级别的骨干层次作为下一个处理对象,跳至第一步,循环重复,直至结构分析完成;采用以上算法,数学公式图像的识别结果可以最终被组织成遵循计算顺序的树型结构;第6、数学公式结构的表示与格式化输出第6.1、针对数学公式的版面结构,其表示和格式化输出体现在以下几个方面:第6.1.1、自动转化为LATEX、或MathML格式,实现版式重现;第6.1.2、兼容各种数学公式编辑器,将识别和分析结果自动输入到公式编辑器中,为下一步的手工修改和编辑奠定基础;第6.2、针对数学公式的语义结构,其表示和格式化输出体现在以下几个方面:第6.2.1、以运算符和定界符为线索,将数学公式依据优先级和运算关系转化为语义结构树,清晰表达数学公式含义;第6.2.2、将数学公式语义结构自动转化为Matlab计算工具的程序代码,实现自动化编程;或自动转化为MathML脚本语言,满足数学公式的网络化传播。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200810053443.1/,转载请声明来源钻瓜专利网。

同类专利
  • 一种银行卡识别方法、装置、计算机设备及存储介质-202111156533.5
  • 何小臻 - 中国平安人寿保险股份有限公司
  • 2021-09-30 - 2021-12-31 - G06K9/20
  • 本申请实施例属于人工智能中的图像处理技术领域,涉及一种应用于移动终端的银行卡识别方法、装置、计算机设备及存储介质。此外,本申请还涉及区块链技术,用户的目标银行卡号可存储于区块链中。本申请通过将待部署的CRNN模型转换为TFLite模型,并将TFLite模型移植至移动终端的ap中,当需要进行银行卡识别时,即可通过移动终端直接调用该TFLite模型进行图像识别,从而能很好的将银行卡识别功能应用于对模型大小有限制的移动终端前端部署方案中。
  • 一种终端设备及其自动控制方法-202010611667.0
  • 朱泽春;李志鹏;乔中义 - 杭州九阳小家电有限公司
  • 2020-06-30 - 2021-12-31 - G06K9/20
  • 本申请实施例公开了一种终端设备及其自动控制方法,所述终端设备包括用于采集目标信息的信息采集装置;所述方法包括:获取所述目标信息的识别结果;确定所述识别结果的置信度;根据所述置信度确定相应的执行模式。通过该实施例方案,实现了准确地获取用户的确认意图,提升了图像识别算法等的准确率,提高了信息确认准确率,减少用户介入的次数,减少了误操作,减少用户误纠错的几率,提高了用户体验感。
  • 一种扫描打印方法、装置、设备及存储介质-202111170416.4
  • 徐良福 - 深圳市京华信息技术有限公司
  • 2021-10-08 - 2021-12-31 - G06K9/20
  • 本发明公开了一种扫描打印方法、装置、设备及存储介质。一种扫描打印方法包括:扫描目标文档的预设区域,获取目标图像;将目标图像经过OCR文字识别处理,获取识别的目标文字;将目标文字在词典笔的显示屏上进行显示;对目标文字进行排版并生成目标位图,并将目标位图发送至与词典笔连接的打印机进行打印。解决查询到的词典内容只能通过显示屏查显示或朗读,造成的不符合长期积累和不便于笔记记录的问题,实现集精准扫描识别、内容查询及打印于一体,并且有利于用户进行长期积累和笔记记录的效果。
  • 一种线阵扫描成像装置-202111112665.8
  • 杨伟华;黄志鑫 - 佛山市三力智能设备科技有限公司
  • 2021-09-18 - 2021-12-31 - G06K9/20
  • 本发明涉及线阵扫描成像领域,尤其涉及一种线阵扫描成像装置。包括支撑箱,支撑箱上有光源发射器、工业相机、玻璃空瓶,光源发射器内部有固定板、LED光源、散热片、冷却风机、透镜、镜片、保护罩、固定槽、折射槽,工业相机与支撑箱之间有调节组件,调节组件包括限位槽、万向节、调节杆,支撑箱内部有旋转组件,旋转组件包括连接柱、齿轮、电机A、转动杆,支撑箱内部有稳固调节组件,稳固调节组件包括夹紧杆、滑动杆、导向筒A、直角杆、连接板、气缸、主连杆、导向筒B、连接杆A、连接杆B、电机B,所述电机B的输出端与气缸固定连接。本发明的目的在于提出了一种调试直观、操作方便、多角度识别的线阵扫描成像装置。
  • 一种对象检测方法、装置、介质和电子设备-202111115532.6
  • 王法争;蔡苗苗;刘华平;曹偲 - 杭州网易云音乐科技有限公司
  • 2021-09-23 - 2021-12-31 - G06K9/20
  • 本公开的实施方式提供了一种对象检测方法。该方法可以包括:对输入图像进行特征提取,得到用于检测第一对象的第一特征图与用于检测第二对象的第二特征图。其中,所述第一对象的区域小于所述第二对象的区域。针对所述第一特征图包含的至少部分像素生成第一数量的第一先验框,并基于生成的所述第一先验框,检测所述第一对象。针对所述第二特征图包含的至少部分像素生成第二数量的第二先验框,并基于生成的所述第二先验框,检测所述第二对象。其中,所述第一数量小于所述第二数量,以根据第一对象的区域较小的特点,生成数量较少的先验框,达到轻量化对象检测的目的。此外,本公开的实施方式提供了一种对象检测装置,介质与电子设备。
  • 一种带屏便携式人工视觉智能阅读器-202121605381.8
  • 宋林林;柏鹤;程韦兵;施佳鹏 - 上海翎腾智能科技有限公司
  • 2021-07-15 - 2021-12-31 - G06K9/20
  • 本实用新型公开了一种带屏便携式人工视觉智能阅读器,包括用于采集信息的上部件,用于显示的中部件,用于支撑的下部件,以及转轴,所述上部件包括摄像头,所述中部件包括屏幕,所述上部件和所述中部件、所述中部件和所述下部件均通过转轴连接。其优势在于摄像头可以智能获取信息,屏幕可以即时显示内容,使用时可将其打开,使用完毕后可以折叠,操作简单,折叠后体积较小,便于携带,并且外观上既小巧又美观。
  • 基于OCR技术的文本纠正方法、装置、设备以及存储介质-202111089125.2
  • 徐波 - 多益网络有限公司;广州多益网络股份有限公司;广东利为网络科技有限公司
  • 2021-09-16 - 2021-12-28 - G06K9/20
  • 本发明涉及文本纠正技术领域,特别涉及一种基于OCR技术的文本纠正方法、装置、设备以及存储介质,所述方法包括:获取基于OCR技术识别图片得到的第一文本数据、所述第一文本数据中每个字符的置信度以及第一文本数据中每个字符的前十个字符组成的候选字符集,根据所述第一文本数据以及预设的文本预纠正深度学习模型,获取第二文本数据;对所述预纠正后的字符串序列中置信度高于预设的置信度阈值的字符进行剔除,根据剔除后的所述预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据;利用预设的语言模型对所述第一文本数据和所述第三文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出,获取纠正文本数据。
  • 货架巡检方法及货架巡检设备-202110969700.1
  • 汤旭涛;徐金杰;应高选;陈瑞祥;冯余剑;蒋佳忆 - 阿里巴巴(中国)有限公司
  • 2021-08-23 - 2021-12-28 - G06K9/20
  • 本申请实施例公开了货架巡检方法及货架巡检设备,所述货架巡检设备包括数据处理单元,以及多个图像采集单元;所述多个图像采集单元,用于在所述货架巡检设备在目标货架的长度方向上移动的过程中,同步进行多帧图像采集,其中,所述多个图像采集单元分别对所述目标货架在高度方向上的部分区域进行图像采集;所述数据处理单元,用于对所述多个图像采集单元在同一时刻采集到的图像在所述目标货架的高度方向上进行拼接,并通过对不同时刻的图像拼接结果进行拍摄对象重合度分析,提取多幅关键图像,所述多幅关键图像用于实现对所述目标货架的高度方向以及长度方向上的货品陈列情况的还原,以获得对所述目标货架的巡检结果。能够以更低成本实现对货架上商品陈列情况的数字化巡检。
  • 一种基于深度学习的隧道裂缝快速识别方法-201810038939.5
  • 刘学增;刘新根;朱爱玺;刘海波 - 上海同岩土木工程科技股份有限公司
  • 2018-01-16 - 2021-12-28 - G06K9/20
  • 本发明是一种基于深度学习的隧道裂缝快速识别方法,主要解决目前基于深度学习的裂缝检测方法无法直接获取裂缝的长度和宽度信息的问题,本发明包括步骤:S1、创建深度学习图像训练集;S2、训练深度卷积神经网络模型;S3、使用训练好的卷积神经网络模型对待检测图像进行检测并输出预测标签图像;S4、根据预测标签图像输出检测结果,包括图像类别、裂缝的坐标信息以及裂缝的像素级宽度值和长度值;S5、根据检测结果输出病害记录结果,若待检测图像中存在裂缝,则记录图像名称、裂缝的坐标信息以及裂缝的实际宽度值和长度值;若待检测图像中没有裂缝,则不记录。
  • 一种用于线阵相机的数据采集与标注装置及其标注方法-202111110332.1
  • 张治;史艺恒 - 上海启迪睿视智能科技有限公司
  • 2021-09-23 - 2021-12-28 - G06K9/20
  • 本发明提供了一种用于线阵相机的数据采集与标注装置及其标注方法,采集与标注装置包括执行模块、PLC和主控电脑,执行模块和PLC均连接到主控电脑,传送带为循环式结构并转动安装有与传送带一同移动的承托盘,样本置于承托盘中令同一样本能够连续重复经过设有线阵相机和光源的采集区域多次采集图像数据,主控电脑用于在每次采集图像数据前设置和修改各个执行模块的配置参数,并依据前一次的标注框的位置信息和修改后的配置参数对标注框进行位置信息的重新计算,求取标注框新的位置信息实现对图像数据中样本位置的自动标注。本发明能实现多个朝向和方向位置的自动姿态改变,获得训练集效率搞,并能对实现自动标注。
  • 自动三维扫描设备-202121473378.5
  • 王江峰;康健 - 杭州思看科技有限公司
  • 2021-06-30 - 2021-12-28 - G06K9/20
  • 本实用新型提供一种自动三维扫描设备,包括:多个标记点,标记点设于工件所在的空间内,且标记点的位置坐标已知;扫描组件,包括扫描机构以及追踪机构;追踪机构安装于扫描机构上,用于追踪标记点以获取扫描机构的空间位置信息;其中,追踪机构包括采集镜头和传感器,采集镜头安装于扫描机构上,且采集镜头能够相对于扫描机构转动;传感器用于监测采集镜头的位姿信息。本申请提供的自动三维扫描设备,根据传感器检测到的采集镜头的位姿信息,能够快速的调整采集镜头的空间位置和与扫描机构之间的相对角度,直至采集镜头能够重新扫描到标记点,自动三维扫描设备得以恢复正常作业,解决标记点丢失导致扫描精度低或无法正常进行扫描作业的问题。
  • 文本数据处理方法、装置、计算机设备及存储介质-202111149225.X
  • 周忠梅 - 平安科技(深圳)有限公司
  • 2021-09-29 - 2021-12-24 - G06K9/20
  • 本发明涉及人工智能技术领域,揭露了一种文本数据处理方法、装置、计算机设备及存储介质,该方法通过获取目标文本图像,对目标文本图像进行文本识别得到目标识别文本;对目标识别文本进行实体识别得到目标特征信息;自目标文本图像中提取与特征实体标签对应的证明文本图像,并自预设凭证数据库中获取与特征实体标签对应的需求凭证图像;将证明文本图像与需求凭证图像进行比较,并在证明文本图像与需求凭证图像相同时,将目标特征信息输入至预设文本校验模型中,得到与目标纸质文本对应的文本校验结果。本发明提高了文本数据处理的准确率,还提高了文本校验的准确性以及效率。
  • 车辆保险理赔申请的自动审核处理方法、装置及设备-202111154172.0
  • 王津;赵亚峰 - 平安科技(深圳)有限公司
  • 2021-09-29 - 2021-12-24 - G06K9/20
  • 本发明涉及一种车辆保险理赔申请的自动审核处理方法、装置及设备。该方法包括:从来自用户终端的车辆保险理赔请求中获取理赔证明信息;根据保险单数据和证件照片对用户进行身份验证;基于车辆受损图片进行车辆定损,得到定损结果;将定损结果发送至用户终端,接收来自用户终端的反馈信息,以完成车辆保险理赔申请的自动审核处理。该车辆保险理赔申请的自动审核处理方法能够实现车辆保险理赔申请的自动审核处理,不需要人工操作,节约了人工成本,能够实现对所有审核资料的标准化审核,避免了人为非主观渗漏风险,且审核处理结果准确,审核速度快,大大提高了车辆保险理赔申请的审核处理工作效率。
  • 一种基于深度学习的指针式仪表自动读数方法-202110958619.3
  • 黄志清;孙峻礁 - 北京工业大学
  • 2021-08-20 - 2021-12-24 - G06K9/20
  • 本发明公开了一种基于深度学习的指针式仪表自动读数方法,训练基于Yolov4的目标检测模型,对表盘进行检测。选用网络层次较深的卷积神经网络,以获取更深层次的特征,使得定位更加准确。训练基于Unet的语义分割模型,分割指针。回顾前人对指针表自动读数的研究,发现其中大多数都是使用传统的计算机视觉方法来定位指针,获取指针的角度。本发明应用四种深度学习模型,以提高自然条件下的指针表读数精度。在对收集的5000张自然条件下拍摄的指针表图像进行读数后,本方法的错误率仅为1.57%,能够胜任在自然场景如燃气站、油田等场地等自动读数工作。
  • 一种文本图像识别方法、装置、设备及存储介质-202111012920.1
  • 高大帅;李健;武卫东;陈明 - 北京捷通华声科技股份有限公司
  • 2021-08-31 - 2021-12-24 - G06K9/20
  • 本申请实施例涉及数据处理技术领域,具体涉及一种文本图像识别方法、装置、设备及存储介质,旨在缩短多语种识别任务的开发周期以及提升多语种识别性能。所述方法包括:通过共享主干网络对待识别文本图像进行特征提取,得到共享特征图;通过文字行检测分支对所述共享特征图进行文字行检测,得到文字行的位置信息;通过所述共享主干网络,根据所述文字行的位置信息对所述共享特征图进行特征提取,得到文本特征;通过语种分类分支对所述文本特征进行语种分类,得到所述文本特征对应的语种类别信息;根据所述语种类别信息,通过对应的文字行识别分支对所述文本特征进行识别,得到文字识别结果。
  • 一种图像文本检测与OCR识别方法、装置及存储介质-202111118174.4
  • 陈坤龙;吴梁斌;章瑶;吕建进 - 易联众智鼎(厦门)科技有限公司
  • 2021-09-22 - 2021-12-24 - G06K9/20
  • 本发明涉及数据识别技术领域,特别涉及一种图像文本检测与OCR识别方法、装置及存储介质,其中方法包括以下步骤:对图片进行预处理获得训练数据;提取训练数据的初步特征得到返回结果并根据返回结果搭建训练网络;训练模型调用训练网络对训练数据进行训练以获得若干文本分割实例;通过分水岭分割方法对若干文本分割实例进行处理完成检测识别;通过上述步骤,且通过分水岭分割方法对若干文本分割实例进行后处理,有效将算法时间复杂度降低到O(N),解决了采用PSENet算法流程中的广度优先算法,对各文本分割实例进行逐像素的四邻域搜索与合并,会导致在该检测阶段的算法时间复杂度达到O(N2),检测速度慢、效率低的问题,从而提高了图像处理速度、加快了效率。
  • 三维成像模组-202121279156.X
  • 陈驰;李安;张莉萍 - 深圳市安思疆科技有限公司
  • 2021-06-08 - 2021-12-24 - G06K9/20
  • 本申请提供一种三维成像模组,包括:投射模组,包括光源和扩散片;光源用于发射带偏振方向的结构光;扩散片设于光源的出光侧,并能够切换为透明状态和/或供结构光散射成均匀红外光的散射状态;接收模组,包括红外芯片和第一偏振片;红外芯片与光源间隔分布;第一偏振片设于红外芯片的入光侧,且第一偏振片的偏振方向与光源发射的结构光的偏振方向一致。通过采用上述技术方案,节省了投射模组的制作成本,同时也减小了投射模组的体积。并且,第一偏振片过滤掉大部分环境光,以降低环境光对红外芯片的影响,保证红外芯片能够准确地识别目标物体,从而提高三维成像模组的成像效果。
  • 基于喷涂字符和图像识别的群猪个体识别系统和猪生长舍-202121642205.1
  • 侯俊伟;王海林;吴伟斌;齐龙;吴伟创 - 华南农业大学
  • 2021-07-20 - 2021-12-24 - G06K9/20
  • 本实用新型公开了基于喷涂字符和图像识别的群猪个体识别系统和猪生长舍,包括中央处理系统、第一喷涂识别控制机构和第二图像采集设备;第一喷涂识别控制机构设置在猪生长舍入口处可封闭的入口通道上,包括第一字符喷涂装置和第一图像采集设备;第二图像采集设备设置在猪生长舍内群猪活动区域上方;第一图像采集设备、第一字符喷涂装置和第二图像采集设备分别连接中央处理系统,由中央处理系统控制进行工作。本实用新型使得群猪个体识别在无接触的情况下即可完成,能够减少人工干预导致的生猪应激反应和降低生猪感染疾病的风险。
  • 一种数字图像实时增强处理装置-202121664889.5
  • 何秀;陈锦煌;丁丰 - 广州新华学院
  • 2021-07-21 - 2021-12-24 - G06K9/20
  • 本实用新型提供一种数字图像实时增强处理装置,涉及数字图像处理技术领域,包括图像采集装置和处理装置,所述处理装置设置在图像采集装置的前端,所述图像采集装置包括摄像头和固定杆,所述处理装置包括光伏板和控制组件。本实用新型通过增加光伏板和蓄电池,光伏板吸收太阳能并将其转换为电能储存在蓄电池内,蓄电池为控制件提供电能,节约资源,同时增强该处理装置的实用性,通过竖杆和处理杆的设置,控制件控制其顶部两端的竖杆,竖杆可以控制顶部滑动块在竖杆外壁上下移动,带动处理板在摄像头的前端表面进行定期滑动,将摄像头外表面的灰尘和雨水擦除掉,使得玻璃变得清晰,从而提高拍摄出图片的清晰度,对数字图像的清晰度进行增强处理。
  • 一种基于数据信息采集的电子信息识别设备及识别方法-202111125024.6
  • 辜玉丽 - 辜玉丽
  • 2021-09-25 - 2021-12-21 - G06K9/20
  • 本发明公开了一种基于数据信息采集的电子信息识别设备及识别方法,包括装置底板,所述装置底板上方的左右两侧均安装有支撑立柱,且支撑立柱的上方固定有装置顶板;识别器壳体,其通过旋转套筒套设在其中一组所述支撑立柱靠近装置底板竖直中心线的一侧,所述旋转套筒固定在识别器壳体上。该基于数据信息采集的电子信息识别设备及识别方法,与现有的装置相比,识别板可通过设置的角度调节机构和升降机构的同时作用下,能够同时完成识别板的旋转与升降工作,不仅能够调整产品的高度,并且可全方位的调整产品的方向,无需进行手动调整,释放人力,在实际使用过程中,可在识别板上连接传送装置,完成自动扫描工作,工作效率得到有效提升。
  • 一种基于深度学习的X光安检图像中非金属打火机检测方法-202110958470.9
  • 黄志清;张煜森 - 北京工业大学
  • 2021-08-20 - 2021-12-21 - G06K9/20
  • 本发明公开了一种基于深度学习的X光安检图像中非金属打火机检测方法,该方法的数据增强与多尺度训练使用3种不同的数据增强方法并以mix‑up的方式融合数据增强数据,提升对于非金属打火机的定位能力。应用X光安检图像非金属打火机识别模型,将真实场景下的X光安检图像输入的模型,模型的直接输出非金属打火机检出结果。三种数据增强方式以及多尺度训练提升了模型对于真实场景下X光安检图像非金属打火机检出的泛化能力。在特征提取网络种引入改进型通道注意力,提升模型对于非金属打火机有效特征的提取,在特征融合阶段设计了DO‑PAN网络结构,加强浅层特征与深层特征的融合,提高模型对于非金属打火机的识别能力,使用Focalloss损失函数代替交叉熵损失函数。
  • 图像标注方法、装置、计算机设备及存储介质-202110679659.4
  • 宁慕楠;卢东焕;魏东;余双;马锴;郑冶枫 - 腾讯科技(深圳)有限公司
  • 2021-06-18 - 2021-12-21 - G06K9/20
  • 本申请实施例公开了一种图像标注方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:获取源域的第一样本图像、第一样本图像的第一标注图像及目标域的多个第二样本图像,从多个第二样本图像中选取目标样本图像,获取目标样本图像的第二标注图像,调用图像标注模型,分别对第一样本图像及目标样本图像进行标注,得到第一样本图像的第一预测标注图像以及目标样本图像的第二预测标注图像,基于第一标注图像与第一预测标注图像之间的差异、第二标注图像与第二预测标注图像之间的差异,对图像标注模型进行训练,从目标域选取与源域最不相似的图像来训练图像标注模型,提升了图像标注模型在目标域上的模型表现。
  • 一种文本识别方法、装置、计算机设备和存储介质-202110712851.9
  • 王斌;包志敏;曹浩宇;姜德强;薛莫白 - 腾讯科技(深圳)有限公司
  • 2021-06-25 - 2021-12-21 - G06K9/20
  • 本申请实施例公开了一种文本识别方法、装置、计算机设备和存储介质,涉及通信技术领域,通过获取待识别文本图像,待识别文本图像包括至少两个的图像区域;对待识别文本图像进行特征提取得到每个图像区域的特征信息;针对每个图像区域,根据图像区域的特征信息以及关联图像区域的特征信息,计算图像区域与关联图像区域之间的内容相似度;根据内容相似度对图像区域和关联图像区域的特征信息进行融合处理得到关注上下文信息的注意力特征信息;基于注意力特征信息对待识别图像进行文本内容识别得到识别结果。该方案根据关注上下文信息的注意力特征信息进行文本识别,可以实现对待识别图像中的图像区域进行并行识别,提高对待识别图像的识别速度。
  • 一种用于题号自动识别的扫描识别方法及装置-202111076066.5
  • 杨有科;柯维海;陈超鸿;冯国梁;熊志伟;龙明炜;王丽鹃 - 广东德诚科教有限公司
  • 2021-09-14 - 2021-12-21 - G06K9/20
  • 本申请提供了用于题号自动识别的扫描识别方法和装置,涉及自动化阅卷领域。该制造方法和装置包括:建立数字字符0‑9的识别模板库,保存每个数字字符的模板特征分量;扫描空白作答的考生答题卡得到考生答题卡图像,并存储上述该考生答题卡图像;将上述考生答题卡图像进行灰度处理,转化为灰度图,再对灰度图进行二值化处理;在上述考生答题卡图像中用矩形方框框选出连读的客观题信息;裁切上述矩形方框内的图像,并识别上述矩形方框内的图像中的各个元素的类别和位置,识别出所有题号元素的数值;根据上述识别出的题号元素的数值,确定题号的排列方向。该扫描识别方法和装置无须大量的人工干预,而且能大大提高工作效率和准确率。
  • 一种基于权重分布的扫描填涂点识别方法及系统-202111076092.8
  • 柯维海;陈超鸿;冯国梁;陈杰永;喻志翀;赵汝源;邓清兰 - 广东德诚科教有限公司
  • 2021-09-14 - 2021-12-21 - G06K9/20
  • 本发明涉及图像扫描识别技术领域,具体为一种基于权重分布的扫描填涂点识别方法及系统。该方法包括获取空白答题卡扫描图像,并根据空白答题卡扫描图像建立答题卡扫描模板;获取考生答题卡扫描图像;根据答题卡扫描模板,获取考生答题卡扫描图像中的矩形填涂框;获取每个矩形填涂框的面积,并对矩形填涂框进行等面积分割,得到若干个分割模块;按照预设像素值赋值策略对矩形填涂框内的像素点进行赋值;统计分割模块的像素值;根据预设的分割模块权重系数计算矩形填涂框的识别系数,当识别系数小于预设阈值时,将矩形填涂框判定为被填涂。本发明通过填涂点的权重分布及图像多值化处理,能更快速的识别客观题的填涂点信息,且准确率较高。
  • 一种基于计算机视觉的文档质量检测方法-201810101325.7
  • 郭文忠;张融;柯逍;陈羽中 - 福州大学
  • 2018-02-01 - 2021-12-21 - G06K9/20
  • 本发明涉及一种基于计算机视觉的文档质量检测方法。针对传统的人工肉眼检测困难,效率低,可靠性差,受到主观性影响较大的问题提出了基于计算机视觉的文档质量检测方法。为精确检测文档质量,该方法首先得通过合理的方法对高速文档打印视频进行静止帧提取;其次,基于计算机视觉的预处理方法对文档图像进行合适的图像预处理;再次,对预处理好得文档图像进行精确的轮廓检测和提取;紧接着,对提取到的文档轮廓图像进行倾斜矫正,使得畸形图像变为正常平铺的文档待检测图像;最后,对待检测图像进行PSNR和MSE质量评估,与模板进行比对,得出文档质量的检测结果。该方法拥有高效性、可靠性、连续性、灵活性等等特点,具有较强的实际应用性。
  • 基于空间变换网络端到端印刷体蒙古文识别翻译的方法-202011290754.7
  • 苏依拉;崔少东;程永坤;仁庆道尔吉;李雷孝;石宝 - 内蒙古工业大学
  • 2020-11-17 - 2021-12-21 - G06K9/20
  • 本发明一种基于空间变换网络端到端印刷体蒙古文识别翻译的方法,从蒙古文字的特点出发,使用四阶段的文字识别网络对蒙古文进行识别,空间变换阶段使用空间变换网络对蒙古文字图片进行标准化,其次,综合上下文信息使用CBAM‑GRCNN提取文字特征,以及使用Mogrifier LSTM进行序列建模。在预测阶段,使用聚焦注意力机制解决注意力漂移问题,并结合GRU网络进行预测;在翻译过程中,采用Reformer模型,Reformer模型通过将传统的多头注意力机制改为基于局部敏感哈希的注意力机制,以及将传统残差网络替换为可逆残差网络,并对前馈网络进行分块,从而降低模型的时间与空间复杂度,缓解训练长序列数据内存不足、速度慢的问题。
  • 一种图像处理方法、设备及计算机可读存储介质-202011576880.9
  • 袁康;付康林;刘浩;汪二虎 - 合肥联宝信息技术有限公司
  • 2020-12-28 - 2021-12-21 - G06K9/20
  • 本发明实施例公开了一种图像处理方法、设备及计算机可读存储介质,所述方法包括:获得指定参数,根据所述指定参数对连接有目标标签的目标产品进行图像采集,获得指定图像;对所述指定图像进行标签定位,获得与所述目标标签对应的目标标签图像;根据所述指定参数,对所述目标标签图像进行区域定位,获得不反光区域;基于所述不反光区域对所述目标标签图像进行检测识别,获得检测信息,所述检测信息用于确定所述目标标签的种类。本发明实施例提供了一种图像处理方法、设备及计算机可读存储介质,具有能对包含反光区域的标签图像进行检测识别,以确定标签的具体种类的特点。
  • 一种相机角度的调整方法、系统、存储介质、电子设备-202111223060.6
  • 燕志强;彭积祥;杨涛 - 成都宜泊信息科技有限公司
  • 2021-10-20 - 2021-12-21 - G06K9/20
  • 本发明适用于车牌识别技术领域,提供了一种相机角度的调整方法、系统、存储介质、电子设备,其中一种相机角度的调整方法,包括如下步骤:获取多张车牌照片;根据每张车牌照片,生成多张偏转照片;识别所有偏转照片,选取车牌识别成功的偏转照片,将每一张车牌识别成功的偏转照片中的偏转角度的合集记为Aj;计算;将相机根据Bt中的偏转角度αt依次进行调整,并获得每次根据偏转角度αt调整后对应的车牌识别率Ct,将对应的偏转角度作为车牌识别相机的目标调整角度。通过本发明的相机角度调整方法,减少了相机角度的调整次数,节省了调整时间,且提高了车牌识别成功的识别率。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top