[发明专利]组织机构相关人员关系的挖掘方法及装置在审
申请号: | 201910728123.X | 申请日: | 2019-08-10 |
公开(公告)号: | CN110427406A | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 吴诚诚;蔡镇 | 申请(专利权)人: | 吴诚诚;蔡镇 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200120 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 组织机构 人员关系 所属组织 分类结果 维度 挖掘 数据信息集合 关联 特征子集合 相似性特征 相似性向量 分类模型 模型预测 属性信息 数据集合 聚类 向量 聚合 直观 孤立 合并 转化 | ||
1.一种组织机构相关人员关系的挖掘方法,其特征在于,包括:
获取组织机构相关自然人及自然人所属组织机构的各维度数据信息集合;
根据自然人姓名或其他属性信息对组织机构数据集合进行聚类;
将同类中自然人所属的组织机构进行组合;
提取同类中自然人所属组织机构各维度数据特征子集合;
对比每个组合中组织机构不同维度数据特征的相似性,转化为其向量表示;
根据样本标注,采用机器学习的算法训练组织机构相关同名人的分类模型;
根据训练后的模型和输入的向量预测分类结果;
根据分类结果,将组织机构中的同名人分别归类为:同名的不同自然人亦或是同一自然人;
赋予同一自然人相同的id;
根据id合并不同组织机构自然人数据;
聚合各维度信息中提取的的自然人或组织机构的关联关系,建立组织机构相关人员关系。
2.根据权利要求1所述的方法,其特征在于,所述组织机构各维度数据信息集合包括但不限于:
组织机构的法人、股东、高管、其他任职成员等中的自然人和与前述自然人存在亲属、同事、师生、合作、侵权、诉讼、债权、担保、权属等关联关系的自然人集合;
组织机构登记注册相关的基本信息、股东信息、对外投资、分支机构、变更记录、年度报告等,经营活动相关的融资信息、投资事件、股权出质、债券信息、动产抵押、机构业务、产品信息、招聘信息、购地信息、招投标、新闻舆情、社交账号、历史沿革等,接受行政监管相关的行政奖励、行政给付、行政许可、行政处罚、严重违法、经营异常、失信人、欠税公告、进出口信用等,参与司法活动相关的裁判文书、法院公告、法庭公告、司法协助、司法拍卖等,知识产权相关的商标信息、专利信息、软件著作权、作品著作权、知识产权出质、网站备案信息等各个维度的数据信息集合。
3.根据权利要求1所述的方法,其特征在于,所述自然人姓名包括所述组织机构各个维度数据信息集合中出现的任一个自然人姓名。
4.根据权利要求1所述的方法,其特征在于,所述将根据姓名或其他属性聚类后同类中自然人所属的组织机构进行组合,包括:
将姓名或其他属性信息相同的自然人所属的组织机构进行分组组合;
分别获取相同姓名或其他属性信息的自然人所属组织机构各维度信息的特征字段,进行格式化预处理,去除重复值,获得自然人所属组织机构各维度特征子集合。
5.根据权利要求1所述的方法,其特征在于,对比每个组合中组织机构不同维度信息特征的相似性程度转化为数学向量,包括:
完全相同或不同以1或0表示;
文本相似度计算使用TF-IDF、Word2Vec或者其他文本特征提取算法将分词后的文本对象转化为特征向量,然后采用余弦相似度,Jaccard相似度或者其他相似度算法计算两个向量之间的相似度值作为相似性向量表示;
地址相似度计算两个地址坐标点之间的距离作为其向量表示。
6.根据权利要求1所述的方法,其特征在于,所述分类算法包括但不限于决策树及其相关集成学习算法、贝叶斯网络、支持向量机、神经网络或其他机器学习相关算法等。
7.根据权利要求1-5任一所述的方法,其特征在于,建立组织机构相关人员关系包括但不限于亲属、师生、同事、合作、侵权、诉讼、债权、担保、权属、投资、参股、任职等关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吴诚诚;蔡镇,未经吴诚诚;蔡镇许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910728123.X/1.html,转载请声明来源钻瓜专利网。