[发明专利]一种基于缺陷报告摘要中词性信息的严重程度预测方法有效

申请号：	202110341218.3	申请日：	2021-03-30
公开（公告）号：	CN113011179B	公开（公告）日：	2023-10-20
发明（设计）人：	田丹;陈雪娇;林浩;陈翔;贾焱鑫;葛骅	申请（专利权）人：	南通大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/237;G06F18/27;G06F18/241;G06N3/0464
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	朱小兵
地址：	226019 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于缺陷报告摘要词性信息严重程度预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于缺陷报告摘要中词性信息的严重程度预测方法，其特征在于，包括如下步骤：

S1：从缺陷报告跟踪系统中搜集已标记严重程度且严重程度为Blocker、Critical、Major、Minor、Trivial和Enhancement的缺陷报告，将严重程度为Blocker、Critical、Major的缺陷报告对应严重程度统一设置为“严重”类型，将严重程度为Minor、Trivial、Enhancement的缺陷报告对应严重程度统一设置为“不严重”类型，针对所搜集缺陷报告的摘要进行文本预处理，具体包括：分词、停顿词移除与词形还原，得到词根形式的分词；

S2：基于OntoNotes5语料库、GloVe Common Crawl语料库和所述分词组成的大规模文本语料库，使用卷积神经网络模型进行训练，训练出Spacy模型；

S3：对各缺陷报告进行筛选提炼，得到初始数据集D_org；

S4：针对所述初始数据集D_org，进行数据集扩充，获得扩充后的训练数据集D_train；

S5：基于步骤S2训练得到的Spacy模型，将训练数据集中各缺陷报告的摘要表示并替换为对应向量；针对单个分词，使用Spacy词向量对其进行相应分词的词向量表示，累加该缺陷报告摘要所包含的所有分词的对应词向量并求平均，得到相应缺陷报告摘要的对应向量；

S6：基于所述训练数据集D_train，采用逻辑回归分类方法，构建缺陷报告严重程度预测模型M；

S7：针对项目内需要进行严重程度预测的新的缺陷报告，对其摘要进行文本预处理后，仅保留其中词性为动词和名词的分词，通过Spacy模型生成其摘要所对应的向量，并累加该缺陷报告摘要所包含的所有分词的对应词向量并求平均，输入步骤S6所构建的缺陷报告严重程度预测模型M，得到其严重程度。

2.根据权利要求1所述的基于缺陷报告摘要中词性信息的严重程度预测方法，其特征在于，所述步骤S3中对各缺陷报告进行筛选提炼，得到初始数据集D_org，具体包括如下步骤：

S301：定义一个空的数据集D_org，并从步骤S1中所述的摘要经过文本预处理，严重程度被统一设置后的缺陷报告集中取出第一份缺陷报告；

S302：对取出的缺陷报告，基于步骤S2训练得到的Spacy模型，分析得到其摘要中所含各分词的词性，并对其摘要进行筛选提炼，保留其中词性为动词和名词的分词，保留词性为动词和名词的分词；

S303：针对该取出的缺陷报告生成新的实例，该实例包括其在步骤S302中所筛选提炼后的摘要和其所对应的严重程度，将该实例加入数据集D_org；

S304：若步骤S301中所述缺陷报告集中还有未经过步骤S302、S303的缺陷报告，则取出下一份缺陷报告，并重复步骤S302、S303，否则结束循环，并返回数据集D_org。

3.根据权利要求1或2所述的基于缺陷报告摘要中词性信息的严重程度预测方法，其特征在于，所述步骤S4中，针对所述数据集D_org进行数据集扩充，获得扩充后的训练数据集D_train，具体包括如下步骤：

S401：生成一个空的训练数据集D_train，基于步骤S2的大规模文本语料库，通过Spacy模型获取所述语料库中所有分词间的相似度邻接矩阵，通过该矩阵，得到不同分词间的语义相似度；

S402：从数据集D_org中随机选择x份缺陷报告，并构成数据集D_random，x由操作人员根据实际情况指定，x为整数，且取值不超过N，其中，N为数据集D_org所含缺陷报告总数，从数据集D_random中取出第一份缺陷报告b；

S403：根据取出的缺陷报告b，生成虚拟缺陷报告b’；具体为b’的初始摘要为空，严重程度与b相同，依次取出b的摘要中所含的所有分词，对每次取出的分词w，从文本语料库中找出与其相似度最高并且词性相同的一个分词w’，如果w与w’间的语义相似度低于操作人员指定的阈值γ，则不添加w’到b’的摘要中，否则添加w’到b’的摘要中，当b的摘要所含所有分词均已取出后，将虚拟缺陷报告b’加入训练数据集D_train；

S404：从数据集D_random中取出下一份缺陷报告b，重复步骤S402直至数据集D_random中的所有缺陷报告均已执行步骤S403，随后将数据集D_org并入训练数据集D_train，返回扩充后的训练数据集D_train。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南通大学，未经南通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110341218.3/1.html，转载请声明来源钻瓜专利网。

上一篇：基于图拓扑的三维网格模型分类方法、装置和存储介质
下一篇：一种操作票智能管理系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于缺陷报告摘要中词性信息的严重程度预测方法有效

专利文献下载