[发明专利]计算机执行的集成模型的确定方法及装置在审

申请号：	201910368113.X	申请日：	2019-05-05
公开（公告）号：	CN110222848A	公开（公告）日：	2019-09-10
发明（设计）人：	杨新星;李龙飞;周俊	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06N20/20	分类号：	G06N20/20;G06N3/04
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	陈霁;周良玉
地址：	英属开曼群岛大开***	国省代码：	开曼群岛;KY
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	集成模型子模型性能评估结果计算机执行性能评估预定条件确定性更新
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供一种计算机执行的集成模型的确定方法，所述方法包括：首先，获取当前集成模型以及未经训练的多个候选子模型；接着，将多个候选子模型中的各个子模型分别集成到所述当前集成模型中，得到多个第一候选集成模型；然后，至少对所述多个第一候选集成模型进行训练，得到本次训练后的多个第二候选集成模型；再接着，分别对所述多个第二候选集成模型中的各个第二候选集成模型进行性能评估，得到对应的性能评估结果；再然后，基于所述性能评估结果，从所述多个第二候选集成模型中确定性能最优的最优候选集成模型；进一步地，在所述最优候选集成模型的性能满足预定条件的情况下，利用所述最优候选集成模型更新所述当前集成模型。

技术领域

本说明书一个或多个实施例涉及机器学习领域，尤其涉及利用计算机执行的集成模型的自动确定方法及装置。

背景技术

集成学习是使用一系列的个体学习器，或称为子模型，进行学习，然后把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。通常在集成学习中，会先选取一个“弱学习器”，然后通过样本集扰动、输入特征扰动、输出表示扰动、算法参数扰动等方式生成多个学习器，再进行集成后获得一个精度较好的强学习器，或称为集成模型。

然而，目前集成学习对专家经验，人工调试的依赖较大。因此，迫切需要一种改进方案，可以减少集成学习对人工的依赖性，同时，可以在集成学习中获得性能更优的集成模型。

发明内容

本说明书一个或多个实施例描述了一种计算机执行的集成模型的确定方法及装置，可以基于一些基础的候选子模型，自动实现对子模型的选择，形成一个高性能的集成模型，同时，大大减轻了对专家经验和人工干预的依赖性。

根据第一方面，提供了一种计算机执行的集成模型的确定方法，所述方法包括：获取当前集成模型以及未经训练的多个候选子模型；将所述多个候选子模型中的各个子模型分别集成到所述当前集成模型中，得到多个第一候选集成模型；至少对所述多个第一候选集成模型进行训练，得到本次训练后的多个第二候选集成模型；分别对所述多个第二候选集成模型中的各个第二候选集成模型进行性能评估，得到对应的性能评估结果；基于所述性能评估结果，从所述多个第二候选集成模型中确定性能最优的最优候选集成模型；在所述最优候选集成模型的性能满足预定条件的情况下，利用所述最优候选集成模型更新所述当前集成模型。

在一个实施例中，所述多个候选子模型中任意两个候选子模型所基于的神经网络的类型相同或者不同。

在一个实施例中，所述多个候选子模型中包括第一候选子模型和第二候选子模型，所述第一候选子模型和第二候选子模型基于相同类型的神经网络，并且，具有针对所述神经网络设定的不完全相同的超参数。

进一步地，在一个具体的实施例中，所述相同类型的神经网络为深度神经网络DNN，所述超参数包括DNN网络结构中多个隐层的层数，所述多个隐层中各个隐层所具有的神经单元数，以及，所述多个隐层中任意相邻的两个隐层之间的连接方式。

在一个实施例中，在所述当前集成模型不为空的情况下，所述至少对所述多个第一候选集成模型进行训练，还包括：对所述当前集成模型进行所述本次训练。

在一个实施例中，所述性能评估结果包括所述多个第二候选集成模型中的各个第二候选集成模型所对应损失函数的函数值；所述基于所述性能评估结果，从所述多个第二候选集成模型中确定性能最优的最优候选集成模型，包括：将所述损失函数的函数值中的最小值所对应的第二候选集成模型，确定为所述最优候选集成模型。

在一个实施例中，所述性能评估结果包括所述多个第二候选集成模型中的各个第二候选集成模型所对应接收者操作特征ROC曲线下的面积AUC值；所述基于所述性能评估结果，从所述多个第二候选集成模型中确定性能最优的最优候选集成模型，包括：将所述AUC值中的最大值所对应的第二候选集成模型，确定为所述最优候选集成模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司，未经阿里巴巴集团控股有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910368113.X/2.html，转载请声明来源钻瓜专利网。

同类专利

数据处理方法、装置和服务器-201910742800.3
发明人：高睿;周魁;廖鸿存;冯武明 -专利权人：中国工商银行股份有限公司
申请日： 2019-08-13 - 公布日： 2019-11-12 - 主分类号： G06N20/20
摘要：本申请实施例提供了一种数据处理方法、装置和服务器，其中，该方法通过在原有的特征参数的基础上，引入了相关性更低、效果更好的特征极差因子，并利用样本数据的预设特征参数和预设特征极差因子进行学习得到准确度高的预设模型；再通过上述预设模型基于预设时间段内的目标数据的预设特征参数，以及预设特征极差因子较为精准地确定出该目标数据未来的变化趋势；进而可以以该变化趋势作为指导，更加精准地处理目标数据。从而解决了现有方法中存在的对目标数据的变化趋势确定不准确、误差大，影响针对目标数据处理的技术问题。达到能够精准地预测目标数据的未来变化趋势，并根据上述变化趋势有针对性地及时、准确地对目标数据进行对应的处理。

一种基于密度聚类的非均衡数据集的均衡化方法及装置-201910496790.X
发明人：顾凌云;谢旻旗;段湾;王存伟;张涛;罗雨晨;张阳;乔韵如;黄海涛;冯杰;王震宇;周轩;潘峻 -专利权人：上海冰鉴信息科技有限公司
申请日： 2019-06-10 - 公布日： 2019-10-01 - 主分类号： G06N20/20
摘要：本发明提供了一种基于密度聚类的非均衡数据集的均衡化方法及装置，其中方法包括：获取非均衡数据集，确定少数类样本点的数据集和多数类样本点的数据集；对少数类样本的数据集进行密度聚类，根据少数类样本点的聚类情况，对少数类样本进行合成样本点的操作，得到处理后的少数类样本点；对多数类样本的数据集进行密度聚类，根据多数类样本点的聚类情况，对多数类样本进行剔除样本点的操作，得到处理后的多数类样本点；根据处理后的少数类样本点和处理后的多数类样本点得到非均衡数据集的均衡结果。

计算机执行的集成模型的确定方法及装置-201910368113.X
发明人：杨新星;李龙飞;周俊 -专利权人：阿里巴巴集团控股有限公司
申请日： 2019-05-05 - 公布日： 2019-09-10 - 主分类号： G06N20/20
摘要：本说明书实施例提供一种计算机执行的集成模型的确定方法，所述方法包括：首先，获取当前集成模型以及未经训练的多个候选子模型；接着，将多个候选子模型中的各个子模型分别集成到所述当前集成模型中，得到多个第一候选集成模型；然后，至少对所述多个第一候选集成模型进行训练，得到本次训练后的多个第二候选集成模型；再接着，分别对所述多个第二候选集成模型中的各个第二候选集成模型进行性能评估，得到对应的性能评估结果；再然后，基于所述性能评估结果，从所述多个第二候选集成模型中确定性能最优的最优候选集成模型；进一步地，在所述最优候选集成模型的性能满足预定条件的情况下，利用所述最优候选集成模型更新所述当前集成模型。

智能学习方法及装置-201910343675.9
发明人：程宏亮;强劲;张建 -专利权人：美林数据技术股份有限公司
申请日： 2019-04-26 - 公布日： 2019-08-23 - 主分类号： G06N20/20
摘要：本公开提供一种智能学习方法及装置，涉及信息技术领域，能够解决人工智能学习过程中，集成学习的数据自适应及集成方式不够灵活的问题。具体技术方案为：获取第一集成信息，第一集成信息用于指示一级算法内各个算法节点之间的逻辑关系；根据第一集成信息和至少一个基学习算法构建至少一个一级算法，一个一级算法包括至少一个基学习算法；获取第二集成信息，第二集成信息用于指示二级算法内各个算法节点之间的逻辑关系；根据至少一个一级算法构建二级算法，二级算法包括至少一个一级算法。本公开用于人工智能学习。

一种线索集成系统基础构成-201910335216.6
发明人：戴文跃 -专利权人：戴文跃
申请日： 2019-04-24 - 公布日： 2019-07-23 - 主分类号： G06N20/20
摘要：本发明公开了一种线索集成系统基础构成，目的是提供一种能够保持线索之间的激活作用关系、具有统一结构形式和运行机制的多范畴线索集成系统基本结构和基本运行方法。为实现上述目的，本发明从认知线索入手，提出虚线索、实线索、源线索、靶线索、线索元、源靶关系、线索元网络等一系列技术结构，以及线索元测控规则、线索觉察驱动机制等基本运行方法，使得不同范畴的相关线索得以集成和协作。本发明可以作为类脑智能系统的基本构建方法和基础系统。

一种模型启动方法及装置-201910163115.5
发明人：曹誉仁;梁健;宾志豪;庄灿杰;张晨斌;黄泽丰;倪晓臻;胡嘉琪;徐森圣;陈奋 -专利权人：腾讯科技（深圳）有限公司
申请日： 2019-03-05 - 公布日： 2019-07-05 - 主分类号： G06N20/20
摘要：本发明公开了一种模型启动方法及装置，所述方法包括：获取用于进行模型启动的原始数据；根据所述原始数据获取增强数据数量；根据所述增强数据数量获取所述原始数据对应的增强策略，所述增强策略包括数据增强子策略和特征增强子策略；以所述原始数据为基础，按照所述增强策略进行增强以得到增量数据；对增量数据进行数据筛选以得到目标增量数据；组合所述目标增量数据和原始数据以得到启动数据，并以所述启动数据启动所述模型。本发明在原始数据处理和特征数据处理的流程中均进行数据增强处理，并对处理结果进行筛选，从而提升处理结果的准确度，解决冷启动问题，降低了模型投入使用前期的数据量需求和时间成本。

模型训练方法、装置、电子设备及可读存储介质-201910271480.8
发明人：赵呈路;李雪 -专利权人：拉扎斯网络科技（上海）有限公司
申请日： 2019-04-04 - 公布日： 2019-07-05 - 主分类号： G06N20/20
摘要：本公开实施例公开了一种模型训练方法、装置、电子设备及可读存储介质，所述方法包括获取第一训练数据和第二训练数据，基于所述第一训练数据训练多个基模型，确定各个基模型的模型参数，基于所述第二训练数据，通过贪心算法确定组合模型中使用的基模型和所使用的基模型的相应组合系数。该技术方案能够自动确定组合模型中使用的基模型和所使用的基模型的相应组合系数，可以提高模型训练过程中的调参效率，提高模型的准确率和客观性。

基于主动学习的异常数据检测方法-201910182491.9
发明人：赵晓永;王磊;李忱;闫阳 -专利权人：北京信息科技大学
申请日： 2019-03-12 - 公布日： 2019-06-25 - 主分类号： G06N20/20
摘要：本发明涉及一种基于主动学习的异常数据检测方法，根据各种基础学习器的对比分析，选择基于统计的和基于相似性的模型、基于轴平行子空间划分的无监督模型作为基学习器；将各基学习器评判的离群分数处于离群和正常边界的数据合并后呈现给人类专家进行标注；从标注的数据集和各基学习器投票产生的数据集中抽样训练有监督二元分类模型，将该模型应用于全数据集，得出最终的挖掘结果。本发明基于主动学习的异常数据检测方法，结合主动学习和模型集成，提出一种基于主动学习的离群点集成挖掘方法OMAL，结合多个无监督基学习器的学习结果与人类专家知识，训练出有监督的二元分类模型，在减少工作量、提升扩展性的同时，达到了较高地准确率。

模型配置方法、装置、电子设备及可读取存储介质-201910105813.X
发明人：曲晓峰 -专利权人：深圳绿米联创科技有限公司
申请日： 2019-02-01 - 公布日： 2019-06-14 - 主分类号： G06N20/20
摘要：本申请公开了一种模型配置方法、装置、电子设备及可读取存储介质，该方法包括：获取第一机器学习模型；获取一个或多个第二机器学习模型，每个所述第二机器学习模型根据其对应的设备和/或平台构建；将所述第一机器学习模型的能力迁移到每个所述第二机器学习模型上，获得训练后的一个或多个第二机器学习模型；根据训练后的每个所述第二机器学习模型对与其对应的所述设备和/或平台进行配置，以使所述设备和/或平台运行训练后的所述第二机器学习模型。本方法利用模型迁移技术，将海量数据和大型机器学习模型学习到的机器学习能力嵌入到多种不同的设备中，即可将多个大机器学习模型的性能迁移到小机器学习模型，解决生活中的实际问题。

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]计算机执行的集成模型的确定方法及装置在审

专利文献下载