[发明专利]基于时序数据的表型本体构建方法在审

专利信息
申请号: 201910610392.6 申请日: 2019-07-08
公开(公告)号: CN110310707A 公开(公告)日: 2019-10-08
发明(设计)人: 彭佳杰;卢俊雅;王晓昱;尚学群 申请(专利权)人: 西北工业大学
主分类号: G16B45/00 分类号: G16B45/00;G16B50/10;G16B40/00;G16B20/50
代理公司: 西北工业大学专利中心 61204 代理人: 王鲜凯
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于时序数据的表型本体构建方法,用于解决现有表型本体构建方法实用性差的技术问题。技术方案是通过基因之间的相互作用关系自动识别并捕获瞬时表型,通过捕捉瞬时表型之间的关系,构建一个有向无环图,最终得到表型本体。本发明绕植物表型本体展开,通过基因、表型和环境之间的关系,构建出植物的时序表型本体。该方法基于图论挖掘植物时序表型数据中的潜在模式,算法易于实现,时间复杂度低,能够在有限的时间复杂度和空间复杂度内完成本体构建。其构建出来的表型本体拥有完善的拓扑结构,是一个注释了生物信息的有向无环图。节点之间的关系被很好的保留,节点的生物信息和生物意义也被很好的注释,实用性好。
搜索关键词: 表型 构建 时间复杂度 有向无环图 生物信息 时序数据 时序表 空间复杂度 生物意义 拓扑结构 植物表型 自动识别 基因 算法 图论 捕获 捕捉 挖掘 保留
【主权项】:
1.一种基于时序数据的表型本体构建方法,其特征在于包括以下步骤:步骤一、获取实验数据;动态环境光合成像集成多个组件的实验平台,在动态环境条件下连续监测植物的生长和光合作用;实验中每个突变体为敲除特定基因的拟南芥植株,在动态环境下对其光合作用的参数和叶片的生长情况进行数天的监测,最终得到拟南芥的光合作用时序表型数据;基于DEPI技术测量得到初始表型数据,使用记录的倍数变化将每个基因的表型值与参考值进行比较,得到相对表型值;参考值是野生型突变体实验,重组近交系实验中的亲本系,或者是群体实验中所有个体的平均值;步骤二、表型相关性的计算;给定时序表型数据M(P,T),Ti是一个时间窗口,Ti∈T;P是一个基因集合,集合中的每个基因Pj代表敲除该基因的一个突变体;首先将时间序列T切割为m个长度为n的时间窗口;一个表型术语的最小注释时间长度为一个时间窗口的大小,时间窗口内的时间点是连续的;然后针对每一个时间窗口Ti,构造一个无向图Gi(S,Ei),S是基因集合,Ei为无向图中的边,表示在时间窗口Ti内两个基因具有相似的表型值;对于每一个时间窗口Ti均使用NPM聚类方法进行多次聚类,通过统计任意两个基因被聚在同一类的频数,计算出这两个基因的表型相关性;对于基因gi和基因gj,在n次试验中,被聚在同一类的次数为k,则表型相关性为:计算出来的值越大,表示该基因对拥有更为相似的表型值;步骤三、动态表型网络构建;初始化各个时刻下的表型网络是散点图;根据计算得到的基因的表型相关性,将表型相关性值满足给定阈值的基因对进行连接操作;当两个基因的表型相关性大于给定的阈值时,将在无向图内增加一条边连接这两个基因;通过不断的连接,构造每一个时间窗口下的无向图;由步骤二计算得到的基因表型相关性初步得到T={T1,T2,T3},P={A,B,C,D,E,F,G};初始化各个基因结点为孤立的节点;当表型相关性阈值设定为0.8时,在时间窗口T1下,满足阈值要求的基因对有:(A,B),(A,C)(A,D),(B,C),(B,D),(C,D),(D,E),(D,F),(D,G),(E,F),(F,G),因此分别对这些基因之间进行连边操作,生成时间窗口T1下的无向图G1;在时间窗口T2下,满足阈值要求的有9组基因对:(A,B),(A,C),(A,E),(B,C),(B,E),(C,E),(C,F),(E,F),(F,G),分别对这些基因之间进行连边操作,生成时间窗口T2下的无向图G2;在时间窗口T3下,表型相关性满足给定阈值要求的一共有8组基因对,这8组基因对分别为:(A,C),(A,G),(C,E),(C,F),(C,G),(E,F),(E,G),(F,G),分别对这些基因对之间进行连边操作,生成时间窗口T3下对应的无向图G3;对每一个无向图,使用改进版本的Bron‑Kerbosch算法查找出对应的极大团;对无向图G1,通过极大团算法搜寻得到三个极大团,这三个极大团分别为C1,1={A,B,C,D},C1,2={D,E,F},C1,3={D,F,G};对无向图G2,得到四个极大团,分别为C21={C,E,F},C2,2={A,B,C,E},C2,3={G,F},C2,4={D};对无向图G3,得到四个极大团,分别为C3,1={C,E,F,G},C3,2={A,C,G},C3,3={B},C3,4={D};定义C为网络G(S,E,T)的所有极大团集合,C(Sj,Ti)定义了一个表型术语,其注释基因是Sj,时间窗口是Ti,C(Sj,Ti)∈C;表型本体有一个抽象的根节点,根节点没有任何信息,是一个为了优化结构的空节点,所有无向图生成的极大团都与根节点直接相连,对应边由根节点指向极大团节点;步骤四、极大团的信息融合;当查找到当前时间窗口下的极大团后,将其与相邻的其他时间窗口下的极大团进行信息融合;融合的操作是不断的取基因的交集集合,同时扩充时间;融合后根据表型本体的准则判断其是否满足表型术语的定义,如果不满足则舍弃,如果满足,则加入到表型本体结构中;在表型本体构建过程中,第一层的表型术语P1,P2,P3,其注释时间均为T1;P1=C({A,B,C,D},{T1}),P2=C({D,E,F},{T1}),P3=C({D,F,G},{T1}),时间窗口T2下,P4=C({C,E,F},{T2}),P5=C({A,B,C,E},{T2}),P6=C({F,G},{T2});将P1与P4,P5,P6分别相交,得到P7=C({C},{T1,2}),P8=C({A,B,C},{T1,2});P2与P4,P5,P6分别相交得到P9,P10,P11;P3与P4,P5,P6分别相交得到P12,P13;根据定义1,P7,P10,P11由于注释基因过少,低于给定的阈值,所以被舍弃;P8,P9,P13满足给定的表型本体的要求,因此留在表型本体中;将注释时间为T1,2的每一个表型本体与注释时间T3窗口下的每一个表型本体进行取交集操作;T3时间窗口下的表型本体有P14,P15;P8=C({A,B,C},{T1,2})与P14=(C({D,E,F,G},{T3}))取交集生成P16=(C({C},{T1,2,3}));P8=C({A,B,C},{T1,2})与P15=(C({A,C,G},{T3}))取交集生成P17=(C({A,C},{T1,2,3}));P9=C({E,F},{T1,2})与P14=(C({D,E,F,G},{T3}))取交集生成P18=(C({E,F},{T1,2,3}));P9=C({E,F},{T1,2})与P15=(C({A,C,G},{T3}))取交集生成P19=(C({F,G},{T1,2,3}));根据定义1,由于P16不满足注释基因个数的最低要求,P16被舍弃;在表型本体信息融合过程中,所有不满足定义要求的节点都被舍弃;由于P18和P9是父子关系,拥有同样的注释基因,但是P18的注释时间更长,为了避免冗余,用P18代替P9节点;步骤五、时序表型本体的构建;已知某时间点下动态网络的极大团,即种子术语,将种子术语与相邻时间点下的极大团进行集合取交集操作,融合极大团信息;交集结果临时存储在内存中,并不断让交集结果与下一个时间点的极大团进行集合操作,如此循环直至最后一个时间点;为了能够将所有的表型术语间复杂的关系合理的表示出来,构建一个空节点的有向无环图Proot,该节点是一个抽象的节点,不具备任何意义;首先将所有时间窗口下生成的有向无环图与Proot直接相连,接下来,对任意两个不同时间窗口下的表型本体进行判断是否有关联,如果有关联,则加边;判断规则如下:对于两个表型术语C(Pj,Ti)和C(Ph,Tk),如果两者在网络中没有父子关系则进行判断,当表型术语C(Pj,Ti)的注释基因是另一个表型术语C(Ph,Tk)注释基因的父集,即且C(Pj,Ti)的注释时间是C(Ph,Tk)的子集,即则在有向无环图中增加一条从C(Pj,Ti)指向C(Ph,Tk)的有向边;在时间窗口T1,T2,T3下分别得到三个有向无环图;这三个有向无环图首先直接到空节点Proot上;接着进行表型术语之间的关系判断,决定是否加入新的边;对P5=C({A,B,C,,E},{T2})和P8=C({A,B,C},{T1,2})来说,由于P5的注释基因集合{A,B,C,E}是P8的注释基因集合{A,B,C}的父集,而P5的注释时间集合{T2}是P8的注释基因集合{T1,2}的子集,因此增加一条从P5指向P8的有向边;对于P21=C({C,E,F},{T1,2})和P18=C({E,F},{T1,2,3})来说,由于P21的注释基因集合{C,E,F}是P18的注释基因集合{E,F}的父集,而P21的注释时间集合{T1,2}是P18的注释基因集合{T1,2,3}的子集,因此增加一条从P21指向P18的有向边;增加P15到P23,P14到P19的有向边;增加P14到P19、P14到P21、P15到P23的有向边,完成本体结构图的合并与构建;步骤六、时序表型本体的优化;对于每个生成的表型术语,根据术语的注释基因和注释时间,对应得到若干个连续时间下测得的表型值集合;假设注释基因个数为a,注释时间长度为b,涉及的表型数据有c种,则得到a*b*c个表型值;对这些表型值的值分布进行判断,有n个值处于给定的有意义区间内,则该表型术语的得分值为:有意义得分值的最大值为1,最小值为0,值越大,表示表型术语越有意义;为了减少表型术语的冗余,将高度相似的表型术语进行融合;高度相似定义为两个集合只相差一个基因不同,其余的基因相同;并根据给定表型值的纯度阈值,去除无意义的表型术语,优化本体的拓扑结构。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910610392.6/,转载请声明来源钻瓜专利网。

同类专利
  • 基于时序数据的表型本体构建方法-201910610392.6
  • 彭佳杰;卢俊雅;王晓昱;尚学群 - 西北工业大学
  • 2019-07-08 - 2019-10-08 - G16B45/00
  • 本发明公开了一种基于时序数据的表型本体构建方法,用于解决现有表型本体构建方法实用性差的技术问题。技术方案是通过基因之间的相互作用关系自动识别并捕获瞬时表型,通过捕捉瞬时表型之间的关系,构建一个有向无环图,最终得到表型本体。本发明绕植物表型本体展开,通过基因、表型和环境之间的关系,构建出植物的时序表型本体。该方法基于图论挖掘植物时序表型数据中的潜在模式,算法易于实现,时间复杂度低,能够在有限的时间复杂度和空间复杂度内完成本体构建。其构建出来的表型本体拥有完善的拓扑结构,是一个注释了生物信息的有向无环图。节点之间的关系被很好的保留,节点的生物信息和生物意义也被很好的注释,实用性好。
  • 一种DNA转化为图案的方法-201910513224.5
  • 孙翊鸣 - 孙翊鸣
  • 2019-06-14 - 2019-09-20 - G16B45/00
  • 本发明提供了一种DNA转化为图案的方法,包括以下步骤:步骤1:提取用户提供的能够测出DNA的样本的核DNA;步骤2:使用扩增试剂盒,扩增特定的STR基因位点;步骤3:对扩增产物进行荧光检测,得到其STR基因座的基因型或序列特征;步骤4:查询得到的STR基因座的STR核心序列,结合核心序列的重复次数,将STR基因座基因型转换成碱基序列,该序列能够保证具有个体的唯一性;步骤5:结合配色方案,为ATCG四种碱基分别决定一种配色;步骤6:任选一种计算机语言,使用绘图函数或语句,依据碱基总数,绘制出用户喜好的图形,并形成一个面。本发明提供的一种DNA转化为图案的方法,将DNA转化为独一无二的图案,图案可以应用于各种场合,满足了个性化需求。
  • 基于JavaScript的交互式网页生物大数据可视化方法-201910355068.4
  • 崔哲;崔亚;臧天仪 - 哈尔滨工业大学
  • 2019-04-29 - 2019-07-26 - G16B45/00
  • 本发明是基于JavaScript的交互式网页生物数据可视化方法。本发明BioCircos2是根据不同生物大数据的特征与展示的需要,在JavaScript中的D3与JQuery两个库的基础上,集成与开发了处理与展示各数据所需的高度可定制化模块,同时可为各模块加入了网页中鼠标的交互与动画特性。所述BioCircos2提供21种模型来展现基因组上突变、基因表达和生物分子之间的联系信息,每个模块都具有极高的可编辑性。基于本方法,研究人员不用自行处理与转换生物大数据,不需要安装和配置Perl语言,更不需要学习和处理Circos中大量,复杂的参数。
  • 基因检测报告管理方法和系统-201710613676.1
  • 盛司潼;蔡思岑 - 广州康昕瑞基因健康科技有限公司
  • 2017-07-25 - 2019-07-16 - G16B45/00
  • 本发明涉及一种基因检测报告管理方法,包括根据检测类型和用户群信息生成第一识别码,所述第一识别码包括指向第一录入界面的链接;扫描第一识别码进入第一录入界面并录入用户信息及第二识别码,所述第二识别码用于标识待检测样本;对待检测样本进行测序并生成包括第二识别码、检测类型以及用户群信息的检测报告;以及将检测报告上传微信客户端并根据用户信息发出通知。本发明还提供一种基因检测报告管理系统,本发明方法和系统的检测报告的管理和分发较为简单。
  • 基于单样本数据的个体特异性网络构建方法和装置-201510058477.X
  • 陈洛南;刘小平;合原一幸 - 中国科学院上海生命科学研究院
  • 2015-02-04 - 2019-06-18 - G16B45/00
  • 本发明公开了一种基于单样本数据的个体特异性网络构建方法和装置,能够利用单个样本的表达信息构建该样本特异性的分子网络。其技术方案为:首先建立一个多样本的参考网络,在这个参考网络的基础上,加入一个独立样本,并重新建立新网络(即扰动网络),扰动网络和参考网络的所有差别都是由独立样本引起的,对扰动网络和参考网络的边对应做减法,即可得到样本的个体特异性网络。利用单样本数据构建的单样本特异性生物分子网络,能够在单样本的水平上标识出基因间异常的调控关系和失调的蛋白相互作用,为复杂疾病对不同病人的精确性治疗提供必要的分子间调控信息,为个性化治疗发展提供了新的研究方向。
  • 用于处理分子成像数据的方法及对应的数据服务器-201580004212.X
  • 法比安·帕默拉尔;乔纳森·M·斯陶贝尔 - IMA生物科技公司
  • 2015-01-09 - 2019-01-29 - G16B45/00
  • 本发明主要涉及用于处理多个谱数据集(J1‑Jn)的方法或用于记录多个谱数据集(J1‑Jn)的方法,所述谱数据集(J1‑Jn)旨在供分子成像方法使用,每个谱数据集(J1‑Jn)由一组空间位置(Xi,Yj)定义,所述空间位置中的每一个与具有包含一组分子信息的至少两个维度的分子谱(S(Xi,Yj))相关联,其特征在于所述方法尤其包括以下步骤:对于每个数据集(J1‑Jn),将与每个位置(Xi,Yj)相关联的所述分子谱切成多个谱分段(T1‑Tm);将针对每个数据集(J1‑Jn)的每个位置(Xi,Yj)所获得的所述分段(T1‑Tm)插入到数据库(BDD)中;按照对于感兴趣的分子信息的请求在所述数据库(BDD)中选择包含所述感兴趣的分子信息的一个或多个分段(T1‑Tm);以及在每个分段(T1‑Tm)内选择所述感兴趣的分子信息。
  • 生物信息可视化装置及方法-201811009033.7
  • 袁晓辉;陈晶;李东野 - 武汉古奥基因科技有限公司
  • 2018-08-30 - 2019-01-15 - G16B45/00
  • 本发明公开了一种生物信息可视化装置及方法;其中,所述方法包括一客户端提供至少一任务界面并通过所述任务界面获取用户选择的数据组及预配置的任务项;一服务器接收所述客户端获取的数据组及任务项并根据所述任务项执行对所述数据组的分析任务,所述服务器根据所述分析任务的结果生成报告;所述客户端提供一可视化界面显示所述报告。本发明通过为用户提供简单且高效的前端界面,用于为普通用户提供快速分析大量原始数据的路径;同时,将实际对原始数据的分析流程及分析流程需匹配的计算机处理能力配置在后端的服务器,为普通用户分析原始数据提供了轻量化的操作硬件及方法,为大量原始数据由数据层到表型层的转化提供了路径。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top