[发明专利]一种特征选择方法及装置在审

专利信息
申请号: 202310068572.2 申请日: 2023-02-06
公开(公告)号: CN116089808A 公开(公告)日: 2023-05-09
发明(设计)人: 梁铮;杜渂;石健文;何之栋;侯俊丞;王聚全;杨博;刘琦;鲁神恩;夏禹鹏;杨中文;郑佳;穆青;周倡弘;程铭翰;王衍海;符承鹏;赵福旺;陈浩 申请(专利权)人: 迪爱斯信息技术股份有限公司
主分类号: G06F18/2111 分类号: G06F18/2111;G06F18/214;G06N5/01;G06N3/006;G06N3/126
代理公司: 上海硕力知识产权代理事务所(普通合伙) 31251 代理人: 杨华廷
地址: 200233 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 特征 选择 方法 装置
【说明书】:

发明公开了一种特征选择方法及装置,方法包括:获取多个输入数据,统计分析各个输入数据中包含的离散型文本特征以及每个离散型文本特征对应的多个数值型特征;将每个离散型文本特征对应的数值型特征划分成若干个数值子区间;根据每个数值型特征所在的数值子区间对应的标签数值,得到每个离散型文本特征对应的文本标签数值和数值标签数值;利用文本标签数值和数值标签数值进行特征选择,并根据特征选择的结果对预测模型进行训练。本发明同时考虑了其中一个是数值型、另一个是离散型的两个相关特征,对这两个相关特征分别重新分箱,根据分箱结果进行特征选择,得到一个更优的特征。

技术领域

本发明涉及特征工程技术领域,尤其涉及一种特征选择方法及装置。

背景技术

在机器学习中一个常见的现象是:数据中的某个属性同时被一个或多个特征描述和表示。例如,在表示距离的远近时,既使用了数值化的特征(0m,23m,120m,78m,1000m等),又同时使用自然语言描述(“较近”,“较远”,“远”等),但是这种现象通常存在一个问题,这些数值型特征和离散型特征虽然同时表示了数据的同一个属性,但是由于各自表示的标准有可能存在差异或者数据来源不同,如果同时使用,容易造成相互干扰;如果只选用其中一个特征,容易丢失另外一个特征所包含的信息。

现有特征工程技术对两个相关的特征常采用下述方案,要么是通过特征筛选方法来评估,去掉相对比较不明显的特征,这种方式可能会丢失一些重要的信息;要么是都保留下来参与后续的模型训练学习,这种方式会一方面可能会引入噪音,不利于模型的稳定。现有技术对一个是数值型、另一个是离散型的两个相关特征的处理方法仍然较少。

发明内容

为了解决上述技术问题,本发明提供一种特征选择方法及装置,既能保留相关特征中有价值的信息,还可以防止模型过拟合。

具体的,本发明的技术方案如下:

一方面,本发明提供一种特征选择方法,包括:

获取不同用户输入的多个输入数据,统计分析各个输入数据中包含的离散型文本特征以及每个所述离散型文本特征对应的多个数值型特征;

将每个所述离散型文本特征对应的数值型特征划分成若干个数值子区间,且每个所述数值子区间对应一个标签数值;

根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述离散型文本特征对应的文本标签数值;

根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述数值型特征对应的数值标签数值;

利用所述文本标签数值和所述数值标签数值进行特征选择,并根据特征选择的结果对预测模型进行训练。

在一些实施方式中,所述的将每个所述离散型文本特征对应的数值型特征划分成若干个数值子区间,且每个所述数值子区间对应一个标签数值,包括:

将所述输入数据中所有的数值型特征划分成多组分箱方案;每组所述分箱方案包括若干个数值子区间,且每个所述数值子区间对应设置一个标签数值;

计算一组所述分箱方案中所有所述离散型文本特征对应的若干个所述标签数值的方差之和;

遍历所有所述分箱方案,采用启发式算法,求解所述方差之和的极小值;

将所述极小值对应的一组所述分箱方案中的若干个所述数值子区间作为所述离散型文本特征对应的数值型特征所对应的若干个数值子区间,且每个所述数值子区间对应一个所述标签数值。

在一些实施方式中,所述的根据每个所述数值型特征所在的所述数值子区间对应的标签数值,得到每个所述离散型文本特征对应的文本标签数值,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于迪爱斯信息技术股份有限公司,未经迪爱斯信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310068572.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top