[发明专利]基于隐马尔可夫模型的英文简历关键字段抽取方法有效

专利信息
申请号: 201610189293.1 申请日: 2016-03-29
公开(公告)号: CN105912570B 公开(公告)日: 2019-11-15
发明(设计)人: 李玉鑑;彭蔚 申请(专利权)人: 北京工业大学
主分类号: G06F16/332 分类号: G06F16/332;G06F16/36;G06F16/35
代理公司: 11203 北京思海天达知识产权代理有限公司 代理人: 沈波<国际申请>=<国际公布>=<进入国
地址: 100124*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了基于隐马尔可夫模型的英文简历关键字段抽取方法,包括:收集英文简历,将收集的英文简历分为训练样本和测试样本;预处理训练样本,并对简历文本序列做隐含状态标记;获取字符字典;计算出隐马尔可夫模型参数初值;使用Baum‑Welch算法对隐马尔可夫模型参数重估,得到一个训练过的隐马尔可夫模型;预处理测试样本;根根据训练过的隐马尔可夫模型,使用维特比算法将测试样本简历标记出最大概率的隐含状态序列。本发明使用隐马尔可夫模型的维特比算法,不仅适应性好、抽取精度较高,而且不需大规模的词典集与规则集,具有很强的实用性。
搜索关键词: 基于 隐马尔可夫 模型 英文简历 关键 字段 抽取 方法
【主权项】:
1.一种基于隐马尔可夫模型的英文简历关键字段抽取方法,其特征在于:该方法包括以下步骤,/n步骤一,收集英文简历,将收集的英文简历分为训练样本和测试样本;/n步骤二,预处理训练样本,并对简历文本序列做隐含状态标记,方法如下:/n首先,将无结构的训练样本进行编号处理,并统一转换成html格式;其次,统一编码格式为UTF-8以解决中文符号乱码问题;再次,使用正则表达式将无结构的样本处理成结构化的文本,在此过程中删除训练样本中乱码、用单个空格替换回车符、多个空格,并在每个英文单词后标记非关键字隐含状态符号:N,在标点符号后标记标点隐含状态符号T;最后,手动修改简历中关键字后的隐含状态符号,修改为Y;因此,所有样本的都已经格式化,每个单词后都有隐含状态符号,并以单个空格隔开;/n步骤三,从训练样本中获取字符字典,方法如下:/n对于步骤二得到的训练样本,将单个样本按空格切分后存入到字符数组中,其中数组下标为奇数的存放的是简历的字符,下标为偶数的存放的是隐含状态符号;在此获取字符数组下标为奇数的简历字符,存入Hashmap中;递归处理所有训练样本,得到一个字符字典;/n步骤四,计算出隐马尔可夫模型参数初值;/n通过训练样本计算隐马尔可夫模型参数初值λ=(N,M,A,B,Π),隐马尔可夫模型包括N个不同的隐含状态,在系统中对应的是简历字符的隐含状态,隐含状态共有3种,Y:关键字,N:非关键字,T:标点符号;M个不同的观察符号,在系统中对应的是简历中所有的字符集合,通过将训练样本经过步骤三的处理,得到所有简历中出现的字符,并形成一个字符字典;因为N和M已知,所以隐马尔可夫模型可记为一个三元组λ=(A,B,Π),各参数在系统中的详细解释及计算方法如下:/nΠ={πi}是初始状态概率分布,指简历中第一个字符的隐含状态分别是关键字、非关键字、标点符号的概率,通过遍历所有训练样本第一个字符的隐含状态,将隐含状态出现的次数存放到一个长度为3的一维数组中,最后分别将数组各位值除以数组总和可求得初始状态概率分布;/nA={aij}是状态转移概率矩阵,指简历中当前字符的隐含状态是i,下一个字符的隐含状态为j的概率;因为本方法只有三种隐含状态,所以A是一个三阶矩阵,可以用一个3×3的数组来存储,其中数组下标0、1、2分别表示字符的隐含状态是关键字、非关键字、标点符号,所以经过遍历所有训练样本,将隐含状态转移数量统计存入3×3的数组后,分别将数组的每个值除以当前值所处行的值的总和,得到状态转移概率矩阵;/nB={bj(ot)}是观察值概率分布,指简历中每个字符的隐含状态分别是关键字、非关键字、标点符号的概率;遍历所有训练样本,分别统计出字符的隐含状态是关键字、非关键字、标点符号的总数,再将每个字符隐含状态是关键字、非关键字、标点符号的数量存入Hashmap统计出来,再将每个字符的隐含状态出现次数除以该隐含状态在训练样本出现的总数得到观察值概率分布;/n步骤五,使用Baum-Welch算法对隐马尔可夫模型参数重估,得到一个训练过的隐马尔可夫模型;/n参数重估过程是已知观察序列并不断修正模型参数λ={π,A,B}使得模型λ产生观察序列O的概率p(O|λ)最大;将所有训练简历以及测试简历中的原始文字看作观察序列集合,Baum-Welch算法对模型参数进行重估,得到一个新的Baum-Welch算法在理论上可以保证概率/n步骤六,预处理测试样本;/n将测试样本统一转换成html格式、统一编码格式为UTF-8以解决中文符号乱码问题;再次,使用正则表达式将无结构化的样本删除乱码、用单个空格替换回车符、多个空格;/n步骤七,根据训练过的隐马尔可夫模型,使用维特比算法将测试样本简历标记出最大概率的隐含状态序列;/n维特比变量δt(j)指简历隐含状态序列的最大概率值,递推公式:/n /n辅助变量ψt(j)用来记录简历中第t-1个字符的最佳隐含状态:/n /n其中N表示单词的隐含状态总数,N=3;t表示当前处于简历中第t个字符,j表示第t个字符的隐含状态,i表示第t-1个字符的隐含状态,aij为条件转移概率,即简历中当前字符的隐含状态是i、下一个字符的隐含状态为j的概率,bj(ot)为观察值概率分布,即指简历中每个字符的隐含状态分别是关键字、非关键字、标点符号的概率,辅助变量记录了到达此点的最佳上一个时刻的状态点路径,用于最后回溯路径得到最终结果。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610189293.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top