[发明专利]一种藏医药文献核心概念挖掘方法在审
申请号: | 202010305332.6 | 申请日: | 2020-04-17 |
公开(公告)号: | CN111522964A | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 刘勇国;蔡茁;杨尚明;李巧勤 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30;G06N3/04 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 陈选中 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 藏医 文献 核心 概念 挖掘 方法 | ||
1.一种藏医药文献核心概念挖掘方法,其特征在于,包括以下步骤:
S1、对藏医药文献进行预处理,得到藏医药数据源;
S2、在藏医药数据源中提取藏医药概念;
S3、在藏医药数据源中提取藏医药概念关系;
S4、根据藏医药概念和藏医药概念关系,构建藏医药概念网络,并根据藏医药概念网络,得到藏医药核心概念。
2.根据权利要求1所述的藏医药文献核心概念挖掘方法,其特征在于,所述步骤S1包括以下步骤:
S11、通过UTF-8可变长度字符编码方式对藏医药文献进行编码,得到藏医药文献TXT文本文档;
S12、遍历并删除藏医药文献TXT文本文档中的空格及停用词,得到藏医药数据源。
3.根据权利要求1所述的藏医药文献核心概念挖掘方法,其特征在于,所述步骤S2包括以下步骤:
S21、以句号及感叹号为分隔符对藏医药数据源进行句子分割,得到分句数据源,所述分句数据源包含C个分割后的句子;
S22、通过Word2Vec词向量转换模型对分句数据源进行向量转换,得到字向量句数据源,所述字向量句数据源包含C个字向量句子,且所述C个字向量句子与所述C个分割后的句子一一对应;
S23、根据字向量句数据源,通过藏医药概念提取模型提取藏医药概念;所述藏医药概念提取模型包括双向长短期记忆网络层、注意力层和条件随机场层。
4.根据权利要求3所述的藏医药文献核心概念挖掘方法,其特征在于,所述双向长短期记忆网络层包括N个输入门、N1个遗忘门、N2个输出门、N3个当前单元和N4个候选单元,且所述各门各单元的状态遵循如下等式:
it=σ(wixxt+wihht-1+bi)(2)
ft=σ(wfxxt+wfhht-1+bf)(3)
ot=σ(woxxt+wohht-1+bo)(5)ht=ot⊙tanh(ct)(6)
其中,为第t个候选单元的状态,tanh()为双曲正切函数,wcx为候选单元输入权重矩阵,xt为字向量句数据源中的当前输入藏医药概念提取模型的字向量句X=(x1,…,xt-1,xt,…,xN)的第t个字向量,wch为候选单元输出权重矩阵,bc为候选单元偏置向量,it为第t个输入门的状态,σ()为S型函数,wix为输入门输入权重矩阵,wih为输入门输出权重矩阵,bi为输入门偏置向量,ft为第t个遗忘门的状态,wfx为遗忘门输入权重矩阵,wfh为遗忘门输出权重矩阵,bf为遗忘门偏置向量,ct与ct-1分别为第t个及第t-1个当前单元的状态,⊙为点乘运算符,ot为第t个输出门的状态,wox为输出门输入权重向量,woh为输出门输出权重向量,bo为输出门偏置向量,ht与ht-1分别为双向长短期记忆网络层的第t个及第t-1个输出量,双向长短期记忆网络层共有N2个输出量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010305332.6/1.html,转载请声明来源钻瓜专利网。