新闻详情

人工智能产业中不可忽略的技术领域之知识图谱

态度讨论

2021-03-01 13:55:24

什么是知识图谱? 2020年知识图谱技术发展现状 知识图谱前路坦荡

钻瓜导读:知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。本文主要分析了何为知识图谱,知识图谱的现状及发展。

知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。本文主要分析了何为知识图谱,知识图谱的现状及发展。

2012年,Google推出了一款名叫Knowledge Graph(知识图谱)的产品,该产品从Metaweb衍生而来,主要用于提高搜索引擎质量,改善用户搜索体验。

2020年,知识图谱从一个分支产品成为建立大规模知识的杀手锏应用,在搜索、自然语言处理、智能助手、电子商务等领域发挥着重要作用。

8年时间,随着大数据时代的到来和人工智能技术的飞速进步,知识图谱越发显露出其基础性和重要性。

那么,到底什么是知识图谱呢?

知识图谱,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

知识图谱可以将互联网的信息表达成更接近人类认知世界的形式,同时提供了一种更好的组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。

文字表述看似深奥,实则我们在日常生活中经常感受到知识图谱技术带来的便利。

image.png

图1

image.png

图2

比如在百度中搜索刘德华的个人信息,会出现图1和图2两种展示形式,从内容上看,两者展示的信息差别不大,但图2看起来就更加直观。尤其是随着文本内容的增加,图2的表现形式的优势就会更加突出。放到大数据的互联网平台,图2的表达模式显然更便于处理加工,但是互联网等数据平台所搜集的信息多为如图1所示的碎片式信息,所以把图1内的文字内容转换成图2的过程,就涉及到上面提及的知识图谱技术。

image.png

图3

再比如图3,我们经常会看到针对某个人或者某件事关键词的呈现,事实上这种呈现形式也是机器利用知识图谱技术把网友的评价等碎片化的信息进行整理加工后形成的。

2020年的知识图谱技术发展现状

据《2020人工智能中国专利技术分析报告》统计,知识图谱技术专利申请量整体呈现稳中上升的趋势。自2012年起,我国知识图谱技术领域内专利申请增长速度显著加快,从图4可以看到,2019年申请量达到巅峰,全年共申请4966件相关专利。据不完全数据统计,2020起始截止到2020年10月底,该领域的专利申请量已达到1942件,知识图谱技术正成为各权利主体获取人工智能产业竞争力的有力武器。

image.png

图4:我国知识图谱领域专利申请量年度变化趋势(2020年统计数据截止至2020年10月底,受公开滞后影响,统计数据为不完全数据)

为了更好的了解知识图谱领域专利申请人(或企业)的情况,笔者通过北京市知识产权公共信息服务平台对知识图谱领域的专利申请情况进行了检索,检索结果如图5所示,通过检索发现,在知识图谱领域,腾讯科技(深圳)有限公司 、北京百度网讯科技有限公司、平安科技(深圳)有限公司、北京明略软件系统有限公司以及百度在线网络技术(北京)有限公司分别排名前五。其中,腾讯科技以550件专利量排名第一,百度网讯以346件专利量排名第二,平安科技以182件专利量排名第三,北京明略以110件专利量排名第四,百度以92件专利量排名第五。

image.png

图5  检索日期:2021年2月22日

同时,笔者也在国家知识产权局专利检索及分析网站检索了知识图谱领域的相关专利,检索结果如图6所示,与使用北京信息服务平台检索的结果相比,前五名的专利申请人的出入不大,分别为百度网讯、平安科技、腾讯科技、海南大学、北京明略。不过在专利申请量上有些区别,百度网讯以237件专利申请量排名第一,平安科技以136件专利申请量排名第二,腾讯科技以116件专利申请量排名第三,海南大学以64件专利申请量排名第四,北京明略以59件专利申请量排名第五。

image.png

图6 检索日期:2021年2月22日

从图7中可以看出,2020年知识图谱领域专利申请量国内各省市排名中,北京、广东是主要申请区域,其中,北京以占比31%的专利申请量排名第一,广东以占比24%的专利申请量排名第二,浙江则以占比11%的专利申请量排名第三。

image.png

图7:2020年知识图谱领域专利申请国内各省市的占比情况

使用工具:智慧芽专利数据库 智慧芽英策

从图8中可以看出,2020年申请的知识图谱领域的专利的IPC主要集中在G06、H04,其中G06F16以占比21%排名第一,G06K9以占比17%排名第二;G06N3以占比14%排名第三。

image.png

图8:2020年知识图谱领域专利申请IPC技术分支的占比情况

使用工具:智慧芽专利数据库,智慧芽英策

从图9中可以发现,人工智能、知识图谱、特征向量、机器学习、深度学习等关键词成为2020年知识图谱领域申请专利中的创新词云。

image.png

图9:2020年知识图谱领域专利中的创新词云

使用工具:智慧芽专利数据库,智慧芽英策

据中国软件网不完全统计,我国知识图谱产品或解决方案主流企业约有38家,在这其中,布局在金融领域的企业约占65%,公共服务与政务领域约占26%,能源与工业领域约占26%,是企业入局最高的三大领域。

image.png

图10:知识图谱企业在行业应用中的分布情况

中国软件网整理制图

从图10可以发现,许多公司利用知识图谱技术涉足金融、公共服务与政务、医疗医药、能源与工业和商业领域等多个领域,比如腾讯云利用知识图谱技术发展物联网,并将其应用于医疗仪器、运输业车辆GPS等,阿里云利用知识图谱技术支持电力领域的操作规程等工作,华为云更是利用知识图谱技术助力油气的勘探开发,明略科技利用知识图谱技术在金融、公共服务与政务、能源与工业和商业领域等均有涉足,北京海致网聚信息技术有限公司利用知识图谱技术实现在公安领域的落地实践。

那么知识图谱在实际工作中是如何在不同领域发挥其功用呢?笔者咨询了明略科技集团知识工程实验室主任张杰博士,张杰博士曾带领团队以“知识图谱自动构建及行业应用”为题获得了2020年度第十届吴文俊人工智能科学技术一等奖。张杰博士表示:

过去几年,明略科技通过自主研发的知识图谱平台和预构建的行业解决方案服务于政府、公安、银行、保险、证券、轨交、电力、制造、融媒体、食品安全等领域的200多个行业客户。

在社交媒体舆情分析场景中,基于知识图谱,可以把用户产生的评论,与后台的产品知识库相对应,便于运营人员对产品更细粒度的特性做用户舆情走势分析,随后把这些结果整合到BI系统,从而实现用户需求洞察,辅助生产创意内容,实现千人千面的个性化广告。

在线下零售场景中,首先销售人员通过佩戴明略的电子工牌,将销售过程数字化,然后通过语音识别技术将销售对话转为文字,再通过自然语言处理技术进行话题分类,计算出话题之间转移的概率,形成一个话题转移的知识图谱,最后通过与金牌销售员的话题图谱做比对,可以帮助销售人员做复盘,分析流单的主要环节,改善话术并提高成单率。我们研发的HAO图谱系统是目前国际上第一个语音实时生成图谱的企业级知识图谱开发工具包。

在金融风控场景中,个人信贷客户可以通过亲友、同事、担保等关系组成图谱,对公客户可以通过股权、担保、资金关系组成图谱,我们使用图表示学习算法将客户做向量化表示,向量中蕴含了图谱的结构信息,这个向量可以用于反欺诈模型和信用评分模型。

在工业设备维保场景中,我们可以从传感器发出的故障信号的时间序列数据中挖掘出故障的主伴生关系,可以从维修工单的非结构化文本中挖掘出因果关系,然后逐渐拼接出检修知识图谱,为维修工人提供检修最佳实践,应用这套系统后车辆故障率降低约50%,逐步从每日检修变成每8日检修,大幅度降低运营故障、减少了人工作业、提高了检修效率。

知识图谱前路坦荡,未来已来

根据统计的数据显示,目前知识图谱已经在技术上有了一定发展,并逐步在电子商务、公安、医疗等领域开始落地,那么目前知识图谱领域的发展情况究竟如何,已经具备了哪些优势?未来知识图谱技术发展又将会面对哪些技术挑战呢?针对这些问题,张杰博士回复说:

知识图谱的发展得益于技术的逐渐成熟和数字化转型的历史趋势。最近几年在大数据和人工智能技术飞速发展的背景下,很多传统行业开展了新一轮的数字化转型,2020年两会期间,数字化转型被写入政府工作报告。智能化是企业数字化转型的新方向、新阶段。在智能化的过程中,业内普遍认为可以分为三个阶段:算力智能、感知智能和认知智能。知识图谱被认为是从感知智能迈向认知智能的关键环节,因此得到了广泛关注,越来越多的企业和组织开展知识图谱的建设并结合业务场景开展应用:一种是较为通用的技术型应用,如可视化洞察、信息检索、推荐系统、任务型问答;另一种是具有行业特色的解决方案型应用,如金融反欺诈、快消品营销、工业维保等。

知识图谱的优势主要体现在以下几个方面:1)连接企业内部数据和外部的海量数据。知识图谱对数据类型的定义灵活,并能高效的支持深层次的关联查询,拓展企业数据总量的同时提升数据利用效率,释放出大数据红利;2)连接大数据技术和人工智能技术。它可以从网络结构、时间序列、行为对话等新型数据中加工出高阶特征,提供给下游的算法工程师,使其更专注在具体的业务模型上;3)连接领域知识和常识知识。它可以对已有的知识体系做融合、补全、推理,提高知识体系的完备性,为流程优化、辅助决策、预测分析等下游应用提供基础服务。

虽然知识图谱技术具有广阔的应用前景,但现阶段仍面临很多技术挑战:1)构建成本问题。对于结构化数据需要复杂的数据治理工作,对于非结构数据,信息抽取环节需要大量的标注工作;2)推理准确度问题。知识图谱可以为搜索引擎、推荐引擎带来准确度提升,但其独特的应用价值在推理问答,需要解决在领域知识不完备、且数据总量大的情况下进行快速准确的推理;3)形式化表示问题。知识图谱的价值在应用,应用的难点在于知识推理,知识推理的难点在于知识表示。已有技术成果多集中在事实知识(know-what)上,原理知识(know-why)和技能知识(know-how)的研究缺乏数学基础和最佳实践参考。

有些行业的数字化进程启动较晚,需要先解决数据在线和数据积累的问题,并且文化上重视数字化建设和数字化管理才可能使知识图谱技术得以应用。未来的改变可能会有以下几方面:1)随着5G、物联网和感知技术的逐级成熟,企业非结构化数据的占比会越来越高,从语音、图像、视频的多模态数据中联合抽取知识的需求会越来越多;2)行业know-how类知识与know-what类知识可以相结合,从而推动人机协同下的智能决策;3)知识密集型行业中的企业越来越重视知识资产,基于知识图谱技术建设知识中台,而不仅是管理文档、管理数据,并以专家经验加数据驱动的方式做因果关系发现和因果推断,辅助业务做出决策。

从蒸汽时代到电气时代,再到21世纪的信息时代,科技的发展推动着时代的进步,而人工智能正成为推动人类进入智能时代的决定性力量。我们期待知识图谱这一被认为是从感知智能迈向认知智能的关键环节的技术在未来有更大、更广阔的应用与发展空间。

(来源:IPRdaily中文网)

微信扫码关注钻瓜专利网