本发明公开了一种基于机器阅读理解的桥梁检测领域文本实体识别方法,包括:S1、获取问题文本及目标文本;S2、从问题文本及目标文本中提取字符嵌入、二元字嵌入和加权词嵌入;S3、将字符嵌入、二元字嵌入和加权词嵌入拼接得到联合特征表达;S4、将联合特征表达输入神经网络,完成实体识别。由于字符嵌入仅提取的是上下文字符级别的特征,为了能提取到语义更加丰富的特征,本发明有针对性的引入了外部辞典信息以增强模型输入的特征表达,即引入由大规模语料训练的二元字嵌入(Bigram Embedding)单元和加权词嵌入(Weighted Word Embedding)单元,从而使得实体识别的效果更好。
1.一种基于机器阅读理解的桥梁检测领域文本实体识别方法,其特征在于,包括:S1、获取问题文本及目标文本;S2、从问题文本及目标文本中提取字符嵌入、二元字嵌入和加权词嵌入;其中,提取字符嵌入的方法包括:将问题文本序列化表示为Q=[q1,q2,...,qm],qi表示问题文本中的第i个字符,将目标文本序列化表示为C=[c1,c2,...,cn],ci表示目标文本中的第i个字符;将Q和C串联为X=[x1,x2,...,xl],xi∈Q∪C且l=m+n;进行查找字符嵌入表操作得到输入BERT模型的向量矩阵E的第i个元素wc(xi)表示字符xi在字符嵌入表wc中的向量表示;d表示字符嵌入表中的每个字符向量的维度;将向量矩阵E得到字符嵌入,字符嵌入中的第i个字符为wbert表示BERT模型的字符嵌入表;提取加权词嵌入的方法包括:按下式构造B,M,E,S四个集合式中,表示外部辞典,wi,k表示输入序列X中的一个子序列[xi,xi+1,...,xk],B(xi)表示在外部辞典匹配出的子序列wi,k中字符xi是wi,k的开始字符;M(xi)表示在外部辞典匹配出的子序列wi,k中字符xi是wi,k的中间字符;E(xi)表示在外部辞典匹配出的子序列wi,k中字符xi是wi,k的结束字符;S(xi)表示在外部辞典中匹配到的当前字符,若四个集合中存在匹配为空的情况,使用单词NONE进行填充;按下式构造加权词嵌入式中,表示加权词嵌入中的第i个字符,vs(B)、vs(M)、vs(E)、vs(S)分别表示B、M、E、S对应的加权表示;按下式计算得到词集合L的加权表示vs(L)式中,z(w)表示词汇w在外部辞典中出现的频率,ωword(w)表示在词嵌入表中找到的词汇w的词嵌入表示,Z表示词频的集合,Z=∑w∈B∪M∪E∪Sz(w);S3、将字符嵌入、二元字嵌入和加权词嵌入拼接得到联合特征表达;S4、将联合特征表达输入神经网络,完成实体识别。
本文链接:http://www.vipzhuanli.com/tech/sell/s_2311421.html,转载请声明来源钻瓜专利网。