[发明专利]一种藏医药文献核心概念挖掘方法在审

申请号：	202010305332.6	申请日：	2020-04-17
公开（公告）号：	CN111522964A	公开（公告）日：	2020-08-11
发明（设计）人：	刘勇国;蔡茁;杨尚明;李巧勤	申请（专利权）人：	电子科技大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F40/30;G06N3/04
代理公司：	成都正华专利代理事务所(普通合伙) 51229	代理人：	陈选中
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种藏医文献核心概念挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种藏医药文献核心概念挖掘方法，其特征在于，包括以下步骤：

S1、对藏医药文献进行预处理，得到藏医药数据源；

S2、在藏医药数据源中提取藏医药概念；

S3、在藏医药数据源中提取藏医药概念关系；

S4、根据藏医药概念和藏医药概念关系，构建藏医药概念网络，并根据藏医药概念网络，得到藏医药核心概念。

2.根据权利要求1所述的藏医药文献核心概念挖掘方法，其特征在于，所述步骤S1包括以下步骤：

S11、通过UTF-8可变长度字符编码方式对藏医药文献进行编码，得到藏医药文献TXT文本文档；

S12、遍历并删除藏医药文献TXT文本文档中的空格及停用词，得到藏医药数据源。

3.根据权利要求1所述的藏医药文献核心概念挖掘方法，其特征在于，所述步骤S2包括以下步骤：

S21、以句号及感叹号为分隔符对藏医药数据源进行句子分割，得到分句数据源，所述分句数据源包含C个分割后的句子；

S22、通过Word2Vec词向量转换模型对分句数据源进行向量转换，得到字向量句数据源，所述字向量句数据源包含C个字向量句子，且所述C个字向量句子与所述C个分割后的句子一一对应；

S23、根据字向量句数据源，通过藏医药概念提取模型提取藏医药概念；所述藏医药概念提取模型包括双向长短期记忆网络层、注意力层和条件随机场层。

4.根据权利要求3所述的藏医药文献核心概念挖掘方法，其特征在于，所述双向长短期记忆网络层包括N个输入门、N₁个遗忘门、N₂个输出门、N₃个当前单元和N₄个候选单元，且所述各门各单元的状态遵循如下等式：

i_t＝σ(w_ixx_t+w_ihh_t-₁+b_i)(2)

f_t＝σ(w_fxx_t+w_fhh_t-1+b_f)(3)

o_t＝σ(w_oxx_t+w_ohh_t-1+b_o)(5)h_t＝o_t⊙tanh(c_t)(6)

其中，为第t个候选单元的状态，tanh()为双曲正切函数，w_cx为候选单元输入权重矩阵，x_t为字向量句数据源中的当前输入藏医药概念提取模型的字向量句X＝(x₁，…，x_t-1，x_t，…，x_N)的第t个字向量，w_ch为候选单元输出权重矩阵，b_c为候选单元偏置向量，i_t为第t个输入门的状态，σ()为S型函数，w_ix为输入门输入权重矩阵，w_ih为输入门输出权重矩阵，b_i为输入门偏置向量，f_t为第t个遗忘门的状态，w_fx为遗忘门输入权重矩阵，w_fh为遗忘门输出权重矩阵，b_f为遗忘门偏置向量，c_t与c_t-1分别为第t个及第t-1个当前单元的状态，⊙为点乘运算符，o_t为第t个输出门的状态，w_ox为输出门输入权重向量，w_oh为输出门输出权重向量，b_o为输出门偏置向量，h_t与h_t-1分别为双向长短期记忆网络层的第t个及第t-1个输出量，双向长短期记忆网络层共有N₂个输出量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010305332.6/1.html，转载请声明来源钻瓜专利网。

上一篇：非晶硅膜层的蚀刻方法，阵列基板及显示面板
下一篇：一种方便调节的饮料灌装用定量灌装机构

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种藏医药文献核心概念挖掘方法在审

专利文献下载