[发明专利]一种样本生成方法和装置、计算机可读存储介质在审

专利信息
申请号: 201911129173.2 申请日: 2019-11-18
公开(公告)号: CN112819173A 公开(公告)日: 2021-05-18
发明(设计)人: 刘若鹏;栾琳;季春霖;陈兴龙 申请(专利权)人: 上海光启智城网络科技有限公司
主分类号: G06N20/00 分类号: G06N20/00;G06K9/62
代理公司: 北京安信方达知识产权代理有限公司 11262 代理人: 陶丽;栗若木
地址: 200001 上海市黄浦区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 样本 生成 方法 装置 计算机 可读 存储 介质
【说明书】:

本申请公开了一种样本生成方法和装置、计算机可读存储介质,包括:获取包括多个数据集合的训练数据,各数据集合包含一检测目标图像与对应的检测目标标识;对训练数据中的目标数据集合执行样本生成操作,样本生成操作包括:将目标数据集合以及包含的检测目标标识与目标数据集合的检测目标标识相同的数据集合记录为正集合列表,将包含的检测目标标识与目标数据集合的检测目标标识不同的数据集合记录为负集合列表;将正集合列表中的数据集合与负集合列表中的数据集合进行两两组合,组成目标数据集合对应的负样本。本申请通过将正/负集合列表中的数据集合进行两两组合,确保生成数量足够且不重复的负样本,进而保证测试结果的准确性。

技术领域

本申请实施例涉及但不限于计算机技术领域,尤其涉及一种样本生成方法和装置、计算机可读存储介质。

背景技术

人工智能的规模化、成熟化应用以海量的数据作为支撑,原始训练数据一般通过数据采集获得,随后的数据清洗、数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里进行调用。数据的质量在一定程度上决定了人工智能的“智能化”程度,换句话说,用于人工智能算法的原始训练数据的高质量采集、清洗、标注等对人工智能算法效果会有直接影响。

用于人工智能算法的训练样本可以划分为两类,即正样本和负样本,正负样本的划分需要根据实际想要验证的内容而定,正样本是指能够得出正确结论的样本,负样本则与之相反。相关技术中,通常通过全量匹配的方法生成负样本,但是,此方法生成的负样本数据量巨大(通常为千万或亿以上),操作不方便,且样本生成需要占用大量时间;或者通过随机匹配的方法生成负样本,但是,此方法生成的负样本数据有较大的重复概率,且数据覆盖不全面,导致测试结果不准确。

发明内容

本申请实施例提供了一种样本生成方法和装置、计算机可读存储介质,能够生成数量足够且不重复的负样本。

本申请实施例提供了一种样本生成方法,包括:

获取训练数据,所述训练数据包括多个数据集合,每个数据集合包含一个检测目标图像与对应的检测目标标识;

对所述训练数据中的目标数据集合执行样本生成操作,所述样本生成操作包括:将目标数据集合以及包含的检测目标标识与目标数据集合的检测目标标识相同的数据集合记录为正集合列表,将包含的检测目标标识与目标数据集合的检测目标标识不同的数据集合记录为负集合列表;将正集合列表中的数据集合与负集合列表中的数据集合进行两两组合,组成所述目标数据集合对应的负样本。

在本申请的一些实施例中,所述方法还包括:将所述正集合列表中的所有数据集合进行两两组合,组成所述目标数据集合对应的正样本。

在本申请的一些实施例中,在所述对所述训练数据中的目标数据集合执行样本生成操作之后,所述方法还包括:

检测所述组成的负样本的数量是否大于或等于预设的负样本数量阈值;

如果所述组成的负样本的数量大于或等于预设的负样本数量阈值,则终止执行所述样本生成操作;

如果所述组成的负样本的数量小于预设的负样本数量阈值,则将i加m得到新的i值后,循环执行所述对所述训练数据中的第i个数据集合执行样本生成操作,i为当前执行样本生成操作的目标数据集合在所述训练数据中的序号,所述训练数据中包含的检测目标标识相同的多个数据集合的序号连续排列,m为当前记录的所述正集合列表中的数据集合的数量。

在本申请的一些实施例中,所述将正集合列表中的数据集合与负集合列表中的数据集合进行两两组合,组成所述目标数据集合对应的负样本,包括:

将所述正集合列表中的每个数据集合与所述负集合列表中的各个数据集合依次进行两两组合,组成所述目标数据集合对应的负样本;或者,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海光启智城网络科技有限公司,未经上海光启智城网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911129173.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top