[发明专利]基于文本关系相似性的蛋白质交互关系识别方法有效
申请号: | 201510020404.1 | 申请日: | 2015-01-15 |
公开(公告)号: | CN104537280B | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 牛耘;王宇伟;吴红梅;魏欧 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 南京钟山专利代理有限公司32252 | 代理人: | 戴朝荣 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于文本关系相似性的蛋白质交互关系识别方法,包括如下步骤步骤1获取文本集中的蛋白质对关键词的句子,对所有句子进行集合得到签名档S;每个蛋白质对为(p1,p2),每个目标蛋白质对都会有签名档与其相对应;步骤2用特征向量来表示p1和p2之间的关系;步骤3关系相似性计算;把表示目标蛋白质对间关系的向量与已知交互关系的蛋白质对的特征向量进行相似性计算比较;找到最相近的特征向量并把其标签作为目标蛋白质对的标签;步骤4计算单词相似性矩阵。步骤5基本关系相似性模型中引入单词相似性模型形成新的混合模型。本发明依据文本中丰富的上下文信息,更全面地获取交互关系特征,提高识别的精度。 | ||
搜索关键词: | 基于 文本 关系 相似性 蛋白质 交互 识别 方法 | ||
【主权项】:
一种基于文本关系相似性的蛋白质交互关系识别方法,其特征在于,包括如下步骤:步骤1:获取文本集中的蛋白质对关键词的句子,对所有句子进行集合得到签名档S;每个蛋白质对为(p1,p2),每个目标蛋白质对都会有签名档与之相对应;步骤2:用特征向量来表示p1和p2之间的关系;将对应于目标蛋白质对的签名档中的单词进行预处理,去除停止词;向量的维度对应这一关系的特征,这些特征从多个蛋白质对的签名档中抽取,计算特征的权重;步骤3:关系相似性计算;将目标蛋白质对特征向量与已知交互关系的蛋白质对特征向量进行相似性计算比较;找到最相近的特征向量并把其标签作为目标蛋白质对的标签;步骤4:计算单词相似性矩阵;将文本集中蛋白质对签名档中所有的单词作为初始的目标词;这些单词按照它们的词性标注情况进行分组,分组为名词,动词,形容词和副词;将对应于名词,动词,形容词,副词的四个相似性矩阵计算出来;对于每个目标词,构建其分布特征;每个目标词被表示成一个共现向量,使用向量空间模型表示分布特征;计算同一词性组中每一对目标词之间的相似性;步骤5:步骤1,2,3建立得到基本关系相似性模型,步骤4建立得到单词相似性模型,将单词相似性模型引入基本关系相似性模型中,形成新的混合模型;在新的混合模型中首先采用1近邻分类器和k近邻分类器对蛋白质对做初始判断,其中k>1;当两者判断的结果一致时为最终结果;当结果不一致时,将根据单词相似性矩阵对蛋白质对特征向量的权值作调整;然后再用1近邻分类器对调整后的蛋白质对向量做分类判断得到最终结果;在步骤5中,对于某个特征向量V,当特征向量V中的一维度的目标词w1的权值为0时,则对这个权值进行调整,为1保持不变,当目标词w1的权值为0时,则对这个权值进行调整,具体如下:当两者判断的结果一致时为最终结果;当结果不一致时,将根据单词相似性矩阵对蛋白质对特征向量的权值作调整;然后再用1近邻分类器对调整后的蛋白质对向量做分类判断得到最终结果;子步骤1:先找出特征向量V中权值为1的那些维所代表的单词的集合F,再从w1所属的词性组对应的相似性矩阵B中找出目标词w1对应的行,该行是目标词w1与其它单词的相似度所在的行,找出其中相似度的最大值s;当相似度的最大值s所在的列代表的单词不在F集合中时,忽略这个相似度的最大值s值,继续寻找下一个相似度的最大值s且它所在的列代表的单词在F集合中;子步骤2:当目标词w1有多个词性时,则从多个词性组中分别找到各自的相似度的最大值,进行比较后,得到相似度的最大值s;子步骤3:设定阈值为θ,当相似度的最大值s大于阈值θ时,则把它作为目标词w1调整后的权值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510020404.1/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用