[发明专利]一种藏医药文献核心概念挖掘方法在审

专利信息
申请号: 202010305332.6 申请日: 2020-04-17
公开(公告)号: CN111522964A 公开(公告)日: 2020-08-11
发明(设计)人: 刘勇国;蔡茁;杨尚明;李巧勤 申请(专利权)人: 电子科技大学
主分类号: G06F16/36 分类号: G06F16/36;G06F40/30;G06N3/04
代理公司: 成都正华专利代理事务所(普通合伙) 51229 代理人: 陈选中
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 藏医 文献 核心 概念 挖掘 方法
【权利要求书】:

1.一种藏医药文献核心概念挖掘方法,其特征在于,包括以下步骤:

S1、对藏医药文献进行预处理,得到藏医药数据源;

S2、在藏医药数据源中提取藏医药概念;

S3、在藏医药数据源中提取藏医药概念关系;

S4、根据藏医药概念和藏医药概念关系,构建藏医药概念网络,并根据藏医药概念网络,得到藏医药核心概念。

2.根据权利要求1所述的藏医药文献核心概念挖掘方法,其特征在于,所述步骤S1包括以下步骤:

S11、通过UTF-8可变长度字符编码方式对藏医药文献进行编码,得到藏医药文献TXT文本文档;

S12、遍历并删除藏医药文献TXT文本文档中的空格及停用词,得到藏医药数据源。

3.根据权利要求1所述的藏医药文献核心概念挖掘方法,其特征在于,所述步骤S2包括以下步骤:

S21、以句号及感叹号为分隔符对藏医药数据源进行句子分割,得到分句数据源,所述分句数据源包含C个分割后的句子;

S22、通过Word2Vec词向量转换模型对分句数据源进行向量转换,得到字向量句数据源,所述字向量句数据源包含C个字向量句子,且所述C个字向量句子与所述C个分割后的句子一一对应;

S23、根据字向量句数据源,通过藏医药概念提取模型提取藏医药概念;所述藏医药概念提取模型包括双向长短期记忆网络层、注意力层和条件随机场层。

4.根据权利要求3所述的藏医药文献核心概念挖掘方法,其特征在于,所述双向长短期记忆网络层包括N个输入门、N1个遗忘门、N2个输出门、N3个当前单元和N4个候选单元,且所述各门各单元的状态遵循如下等式:

it=σ(wixxt+wihht-1+bi)(2)

ft=σ(wfxxt+wfhht-1+bf)(3)

ot=σ(woxxt+wohht-1+bo)(5)ht=ot⊙tanh(ct)(6)

其中,为第t个候选单元的状态,tanh()为双曲正切函数,wcx为候选单元输入权重矩阵,xt为字向量句数据源中的当前输入藏医药概念提取模型的字向量句X=(x1,…,xt-1,xt,…,xN)的第t个字向量,wch为候选单元输出权重矩阵,bc为候选单元偏置向量,it为第t个输入门的状态,σ()为S型函数,wix为输入门输入权重矩阵,wih为输入门输出权重矩阵,bi为输入门偏置向量,ft为第t个遗忘门的状态,wfx为遗忘门输入权重矩阵,wfh为遗忘门输出权重矩阵,bf为遗忘门偏置向量,ct与ct-1分别为第t个及第t-1个当前单元的状态,⊙为点乘运算符,ot为第t个输出门的状态,wox为输出门输入权重向量,woh为输出门输出权重向量,bo为输出门偏置向量,ht与ht-1分别为双向长短期记忆网络层的第t个及第t-1个输出量,双向长短期记忆网络层共有N2个输出量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010305332.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top