[发明专利]一种基于申报质量评估的海关进出口商品风险识别方法在审
申请号: | 202211412461.0 | 申请日: | 2022-11-11 |
公开(公告)号: | CN115617979A | 公开(公告)日: | 2023-01-17 |
发明(设计)人: | 蔡伊娜;包先雨;黄鹏;李俊杰;程烨;蒋涛;黄智强;黄哲学;郑文丽;程立勋;罗子鸣;邓鹤文;马乐铭;于鼎;张育铭 | 申请(专利权)人: | 深圳市检验检疫科学研究院;深圳大学;深圳前海量子云码科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F16/36;G06F40/279;G06F18/214;G06Q10/0635 |
代理公司: | 北京中仟知识产权代理事务所(普通合伙) 11825 | 代理人: | 丁瑞 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 申报 质量 评估 海关 进出口商品 风险 识别 方法 | ||
1.一种基于申报质量评估的海关进出口商品风险识别方法,其特征在于,包括以下步骤:
S1、数据预处理:包括要素提取与要素数量筛选,先通过要素提取获得报关单要素数据,再通过要素数量筛选将报关单要素数据中不规范申报的报关单筛除,得到报关单样本集;
S2、基于两阶段抽样的报关单样本集抽样:首先,对报关单样本集中的每一种要素数据取并集,得到每种要素的全量数据,并按出现频率进行排序;接着,针对每一种要素,抽取频数最高的前P%样本直接纳入训练样本,作为高频率样本集;剩余的1-P%的样本作为低频率样本集,通过等概率两阶段抽样方法,对剩余1-P%的样本进行文本聚类,形成各个簇,然后在每个簇中随机抽样Q%,得到训练样本集;然后,将训练样本集与高频率样本集合并,生成候选标记样本集Di;
S3、基于类中心的候选标记样本集删减:首先计算出每个簇Ci的簇中心;再计算每个簇Ci中各个样本点到簇中心的距离;得到候选标记样本集Di中各个样本点到簇中心的距离集合,再将其按顺序排列,取距离近的M×L个样本得到对应点集合Ei,对应点样本Ei进行删减,每M个样本取中心留下,其余删去,得到L个样本点集合Fi,海关监管人员进行专业化标记,再取并集,得到样本删减后的训练样本集D'i;
S4、短文本二分类的报关单质量评估:通过FastText模型对最终的训练样本集D'i中的短文本做分词和去停用词处理,通过词嵌入处理将剩下的词语处理成词特征向量,再将词特征向量作为模型输入层,输入到神经网络模型做线性运算;将计算结果作为隐藏层输出,再选用Softmax函数建立一个从隐藏层到输出层的映射,并对Softmax函数进行归一化处理,同时嵌入不等概率的神经元丢弃法,有目的性地丢弃神经元,求出规范申报和不规范申报的概率,计算出报关单的得分,完成报关单质量评估。
2.根据权利要求1所述的一种基于申报质量评估的海关进出口商品风险识别方法,其特征在于,所述S1步骤中要素提取的方法如下:首先,提取报关单中的“商品名称及规格型号”字段,再将字段的内容拆分成字符串,接着,再按‘|’字符对字符串进行拆分,每个报关单得到了一组要素字段,即为报关单中的要素数据
所述S1步骤中要素数量筛选的方法如下:将报关单中的要素数据的数量与要素表中的要素列表进行对比,判断要素数量是否相对应,当二者一致时,则存储到报关单样本集;当二者不一致时,将不一致的报关单直接筛除,判定为不规范申报的报关单。
3.根据权利要求1所述的一种基于申报质量评估的海关进出口商品风险识别方法,其特征在于,所述S2步骤中采用水塘抽样方法在每个簇中进行随机抽样;抽样方法包括以下步骤:
S201、定义S[N]为样本集合,R[K]为结果集合,N为S数组的大小,J为每次的随机数,K为抽取的样本数,i为迭代次数;
S202、取S集合中前K个数填入集合R,从S[K]开始遍历,生成随机数J,范围为[0,K+i-1],若JK,则替换R中的值,即R[j]=S[i];
S203、遍历结束,生成结果数组R;得到候选标记样本集Di。
4.根据权利要求1所述的一种基于申报质量评估的海关进出口商品风险识别方法,其特征在于,所示S2步骤中文本聚类的方法包括如下步骤:
S21、数据集处理:利用NLTK工具包,对数据集依次进行标记化分词、去除停用词、词性标注和词干提取;
S22、特征提取:首先,将处理后的数据集映射到向量空间,转换为TF-IDF词频矩阵Q,再计算词频矩阵Q的Laplacian矩阵L,再求L的前K个特征值对应的特征向量,组成矩阵R;
S23、图谱聚类:基于Laplacian图谱的短文本聚类算法,将输出聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市检验检疫科学研究院;深圳大学;深圳前海量子云码科技有限公司,未经深圳市检验检疫科学研究院;深圳大学;深圳前海量子云码科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211412461.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:有机肥的发酵方法及系统设备
- 下一篇:一种桥梁钢结构喷涂器及方法