[发明专利]一种样本生成方法和装置、计算机可读存储介质在审
申请号: | 201911129173.2 | 申请日: | 2019-11-18 |
公开(公告)号: | CN112819173A | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 刘若鹏;栾琳;季春霖;陈兴龙 | 申请(专利权)人: | 上海光启智城网络科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 陶丽;栗若木 |
地址: | 200001 上海市黄浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 样本 生成 方法 装置 计算机 可读 存储 介质 | ||
本申请公开了一种样本生成方法和装置、计算机可读存储介质,包括:获取包括多个数据集合的训练数据,各数据集合包含一检测目标图像与对应的检测目标标识;对训练数据中的目标数据集合执行样本生成操作,样本生成操作包括:将目标数据集合以及包含的检测目标标识与目标数据集合的检测目标标识相同的数据集合记录为正集合列表,将包含的检测目标标识与目标数据集合的检测目标标识不同的数据集合记录为负集合列表;将正集合列表中的数据集合与负集合列表中的数据集合进行两两组合,组成目标数据集合对应的负样本。本申请通过将正/负集合列表中的数据集合进行两两组合,确保生成数量足够且不重复的负样本,进而保证测试结果的准确性。
技术领域
本申请实施例涉及但不限于计算机技术领域,尤其涉及一种样本生成方法和装置、计算机可读存储介质。
背景技术
人工智能的规模化、成熟化应用以海量的数据作为支撑,原始训练数据一般通过数据采集获得,随后的数据清洗、数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里进行调用。数据的质量在一定程度上决定了人工智能的“智能化”程度,换句话说,用于人工智能算法的原始训练数据的高质量采集、清洗、标注等对人工智能算法效果会有直接影响。
用于人工智能算法的训练样本可以划分为两类,即正样本和负样本,正负样本的划分需要根据实际想要验证的内容而定,正样本是指能够得出正确结论的样本,负样本则与之相反。相关技术中,通常通过全量匹配的方法生成负样本,但是,此方法生成的负样本数据量巨大(通常为千万或亿以上),操作不方便,且样本生成需要占用大量时间;或者通过随机匹配的方法生成负样本,但是,此方法生成的负样本数据有较大的重复概率,且数据覆盖不全面,导致测试结果不准确。
发明内容
本申请实施例提供了一种样本生成方法和装置、计算机可读存储介质,能够生成数量足够且不重复的负样本。
本申请实施例提供了一种样本生成方法,包括:
获取训练数据,所述训练数据包括多个数据集合,每个数据集合包含一个检测目标图像与对应的检测目标标识;
对所述训练数据中的目标数据集合执行样本生成操作,所述样本生成操作包括:将目标数据集合以及包含的检测目标标识与目标数据集合的检测目标标识相同的数据集合记录为正集合列表,将包含的检测目标标识与目标数据集合的检测目标标识不同的数据集合记录为负集合列表;将正集合列表中的数据集合与负集合列表中的数据集合进行两两组合,组成所述目标数据集合对应的负样本。
在本申请的一些实施例中,所述方法还包括:将所述正集合列表中的所有数据集合进行两两组合,组成所述目标数据集合对应的正样本。
在本申请的一些实施例中,在所述对所述训练数据中的目标数据集合执行样本生成操作之后,所述方法还包括:
检测所述组成的负样本的数量是否大于或等于预设的负样本数量阈值;
如果所述组成的负样本的数量大于或等于预设的负样本数量阈值,则终止执行所述样本生成操作;
如果所述组成的负样本的数量小于预设的负样本数量阈值,则将i加m得到新的i值后,循环执行所述对所述训练数据中的第i个数据集合执行样本生成操作,i为当前执行样本生成操作的目标数据集合在所述训练数据中的序号,所述训练数据中包含的检测目标标识相同的多个数据集合的序号连续排列,m为当前记录的所述正集合列表中的数据集合的数量。
在本申请的一些实施例中,所述将正集合列表中的数据集合与负集合列表中的数据集合进行两两组合,组成所述目标数据集合对应的负样本,包括:
将所述正集合列表中的每个数据集合与所述负集合列表中的各个数据集合依次进行两两组合,组成所述目标数据集合对应的负样本;或者,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海光启智城网络科技有限公司,未经上海光启智城网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911129173.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:异喹啉类生物碱左旋紫堇达明的制备方法
- 下一篇:一种高速贴片机的移动机构