本发明请求保护一种基于词频‑逆文档(TF‑IDF)与CRF的语义匹配方法,选用CRF挖掘到的属性特征和TF‑IDF的统计特征来表示文本的权重值,并将权重值赋予文本词向量。该方法解决了TF‑IDF和CRF单纯从统计角度以及需求信息上获取权重却没有考虑到词语之间语义的问题,同时也解决了Word2vec中固定词特征表述不清楚的问题。结合上述方法处理文本匹配问题可显著提高匹配的准确率。
1.一种基于词频‑逆文档与CRF的文本匹配方法,包括步骤:1:从网上搜集文本匹配语料集,包含产品描述与搜索词的句子对,关联匹配则其标签为1,否则为0,将语料集随机分为训练集语料和测试集语料,步骤2:采用中文分词算法对步骤1中处理好的语料进行分词,收集去停用词表,根据词表去除语料中的停用词;其特征在于,还包括以下步骤:步骤3:通过条件随机场CRF将步骤2中得到的语料中的训练集进行身份词、行为词及无关词的标记,对标记样本尾部加入词性作为外部特征,制作基于Bigram feature的属性特征模版,采用CRF++工具进行CRF建模,对标记好的文本进行学习,训练出属性模型,并获取文本中所有词的属性,依据相关性或相似性匹配对身份词或行为词做该词的权重增强;步骤4:采用词频‑逆文档TF‑IDF对步骤2中得到的语料进行训练,并获取每个词的TF‑IDF值作为该词TF‑IDF权重;步骤5:采用Word2vec对步骤2中处理好的的语料进行训练,得到词向量模型;步骤6:将步骤3和步骤4得到的两种权重策略进行融合得到每个词的权重,再将每个词的权重与步骤5得到的对应词向量进行相乘,得到新的文本特征向量;步骤7:将步骤6中得到的训练集语料的文本语义特征向量输入Softmax训练出文本匹配模型;步骤8:将步骤6中得到的测试集语料的文本特征向量输入Softmax,根据步骤7中已经训练好的模型进行文本匹配并计算出匹配结果的准确率。
本文链接:http://www.vipzhuanli.com/tech/sell/s_2312436.html,转载请声明来源钻瓜专利网。