知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。
知识图谱的构建形式:
自顶向下:先为知识图谱定义好本体与数据模式,再将实体加入到知识库。
自底向上(常用) :从一些开放链接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。
(1)语义信息抽取; (2)多元数据集成与验证(知识融合); (3)知识图谱补全
知识库分类:
开放链接知识库:Freebase、Wikidata、DBpedia、YAGO。包含大量半结构化、非结构化数据。
垂直行业知识库(特定领域):IMDB(影视)、MusicBrainz(音乐)、ConceptNet(概念)等。
基于规则与词典的方法(为目标实体编写模板,然后进行匹配):编写大量规则或模板,覆盖领域有限,难以适应新需求
基于统计机器学习的方法(机器学习,训练模型,识别实体):监督学习算法受训练集限制,准确率和召回率不够理想
( 召回率:真阳性 / 真阳性 + 假阳性;准确率:真阳性 + 真阴性 / 真阳性 + 假阳性 + 真阴性 + 假阴性 )
面向开放域的抽取方法(面向海量的Web语料):通过少量实体实例建立特征模型,再通过它应用于新的数据集,给新实体做分类与聚类。(迭代扩展)
早期:人工构造语义规则以及模板的方式;
实体间的关系模型代替了早期的人工构造;
面向开放域的信息抽取框架(OIE):对隐含关系抽取性能低下。
( 隐含关系抽取:基于马尔科夫逻辑网、基于本体推理的深层隐含关系抽取方法 )
可以将实体属性的抽取问题转换为关系抽取问题
分布式表示 目的在于用 一个综合的向量来表示实体对象的语义信息 ,这种形式在知识图谱的计算、 补全 、推理等方面起到重要的作用:
1、语义相似度计算:实体间的语义关联程度,为自然语言处理(NLP)等提供了极大的便利
2、
消除异构数据中实体冲突、指向不明等不一致性问题。
(1)待对齐数据分区索引;
(2)利用相似度函数或相似性算法查找匹配实例;
(3)对齐算法(成对实体对齐、全局(局部)集合实体对齐)进行实例融合。
经过实体对齐后得到一系列的基本事实表达,然后事实并不等于知识,它只是知识的基本单位。
本体相当于知识库的模具,使其具有较强的层次结构和较小的冗余程度。
可分为人工构建和数据驱动自动构建。
数据驱动的本体自动构建:
①纵向概念间的并列关系计算:计算两个实体间并列关系的相似度,辨析他们在语义层面是否属于同一个概念。
②实体上下位关系抽取。
③本体生成:对各层次得到的概念进行聚类,并为每一类的实体指定1个或多个公共上位词。
通常是与实体对齐任务一起进行:对知识可信度进行量化,保留置信度较高的,舍弃置信度较低的。
主要包括模式层的更新与数据层的更新。
一阶谓词逻辑、描述逻辑以及规则等
(1)一阶谓词逻辑:以命题为基本,命题包含个体(实体)和谓词(属性或关系)。
(2)基于描述逻辑的规则推理:在(1)的基础上发展而来,目的是在知识表示能力与推理复杂度之间追求一种平衡。
(3)通过本体的概念层次推理。
一些算法主要是 利用了关系路径 中的蕴涵信息:
通过图中两个实体间的多步路径来预测它们之间的语义关系,即从源节点开始,在图上根据路径建模算法进行游走,如果能够到达目标节点,则推测源节点和目标节点间存在联系。
( 关系路径的建模研究仍处于初期阶段,需要进一步探索完成 )
参考文献:
[1]徐增林,盛泳潘,贺丽荣,王雅芳.知识图谱技术综述[J].电子科技大学学报,2016,45(04):589-606.
“图谱”的时代
知识图谱自从2012年开始发酵,愈演愈烈,行业顶端的佼佼者纷纷发布企业知识图谱应用,知识图谱能为企业实现数据价值。只能说,图技术快速发展,业务需求不论变化与否,知识图谱是不可阻挡的趋势。2020年4月20日,国家发改委明确人工智能 “新基建” 的内涵,体现“重创新、补短板”的特征:助力传统基础设施智能化改造,提高传统基础设计的运行效率。
图1 中国知识图谱效益增长规模——艾瑞咨询
当前的人工智能其实可以简单划分为感知智能(主要集中在对于图片、视频以及语音的能力的探究)和认知智能( 涉及知识推理、因果分析等)。
人工智能是新基建的重点领域,而知识图谱是认知智能的底层支撑。 知识图谱具有解释数据、推理和规划一系列人类的思考认知能力,基于大规模,关联度高的背景知识。
————《面向人工智能“新基建”的知识图谱行业白皮书》
我们每天都在用知识图谱
知识图谱应用于各个领域,例如:电商(产品推荐)、医疗(智能诊断)、金融(风控)、证券(投研)。知名企业包括:Google Knowledge Graph、美团大脑、阿里巴巴·藏经阁计划、腾讯云·知识图谱 TKG等。
知识图谱在人工智能多个领域发挥重要作用:语义搜索、智能问答、辅助语言理解、辅助大数据分析、增强机器学习的可解释性、结合图卷积辅助图像分类等。同时,这也意味着技术难度大幅度增加。
知识图谱的价值
您可能会以为知识图就是捕获和管理知识的最终目的。其实,知识图擅长以自上而下的 关系连接方式显式捕获知识 。通过关系节点联系上下游关系,清楚的梳理关系网络。如下图:
图2 普适智能知识中台
高效直观地刻画目标主体(如企业、事件等)之间地关联网络,从而全维度地对企业进行画像,立体复现主体的真实情况和错综复杂的关系。其强大的互联组织能力和可视化决策推理支持,为企业资产提供底层基础。普适智能一站式“图智能”应用, 拥有打开“百窍”的能力, 具体有以下几方面的思考:
深度链接分析 有机可寻
拿我们最熟悉的金融领域举例,知识图谱常见的实体包括公司、产品、人员、相关事件等,常见的关系包括股权关系、任职关系、供应商关系、上下游关系、竞争关系等等。
这样做的好处就是,通过知识图谱的整合,让原本复杂的数据形成直观易懂的可视化图谱, 在全球经济一体化的趋势下,分析师以及投资机构很可能先人一步观察到竞争格局的改变,为寻找 新客户、新投资机会提供线索。
图3 企业上下游关系网络
多维度属性 顺藤摸瓜
知识图谱的另一个价值是“可以简单地处理多维度数据”。 目前在普适智能帮客户分析超百亿的实体(或节点)和关系(或边缘)。
图4 某股份制商业银行基金产品关系网络截图
“对于实益拥有权,我们经常会看到拥有六,七层或更多层的拥有权阶层,尤其是在像中国这样拥有大型企业的地方。” “人们必须意识到一个拥有可以处理并查询至少六到七层(如果没有更多层)的拿手工具是解决问题的真正核心。”
每个公司、个人、新闻事件都可以是一个“点”,人工智能引擎可将这些点进行聚集,对其中的相关性、相似度以及聚集程度进行多维度分析, 还原真实场景 ,才能 “顺藤摸瓜”。
图5 反欺诈图应用
例如知识图谱在传统的风险管理流程中,多通过对目标主体简单维度的特征进行严格审核,无法判断真实的关联风险。
挑战与机会
普适智能深耕于金融领域,其细分业务场景包含但不限于:反欺诈、反洗钱、盗刷排查、失联催收、外汇异常监控、信用审核等,举个具体项目中的例子:因图构建本身流程较长,再加上每个场景的图构建相对的独立,给数据反复开发,数据不连通创造了必要条件, 绕不过去的是大量企业资产成本浪费问题。
图6 传统关系网络应用的构建模式
在工程落地方面,还存在图谱建设周期长,应用构建专业程度高,跨行业迁移成本高等难题。由此带来的挑战会体现在—— 产品是否可以开箱即用 。
普适智能中台化思路
为了解决以上问题,普适智能自主研发将知识图谱构建与应用平台升级为一站式的“图智能”中台。
图7 传统关系网络应用的构建模式
一套中台和工厂模式平台的孕育而生,确保各式的场景对图不同形态的需求和保证联合查询需求。“一窍通,百窍通”,一站式“图智能”中台就是“那一窍”,以下:
打通业务场景独立图谱构建 ,减少反复开发周期成本,为传统应用形态赋能,提升服务质量和效率,简单的图应用可以在 1~2天 内实现,复杂的图应用可以在传统做法上缩短到 三分之一 ,加速企业资产的累积;
配合着打通部门数据 ,解决跨部门合作沟通周期长、配合难的问题;
图谱交互友好程度高,可视化决策辅助业务场景,更易发现 隐藏的信息 ;
赋能专家行业专家,将领域专家的行业经验的程序化,留存在平台, 企业知识资产沉淀。
实时可扩充 ,弹性十足
知识图谱中台的价值还在于灵活可扩充,建立实时敏捷、灵活可扩展、具有弹性的数据基础。 金融知识图谱直接反馈金融行业的刚性需求,由于实际中,企业数据和业务变化灵活,数据源、数据结构、数据内容随时会发生变动,对业务的理解以及对数据的解读也随之发生变化。
图8 多维数据扩展查询
如何有效的使用这些数据,需要员工具备专业的金融知识,深刻理解某个数据变动可能引发的关联、传导,知识图谱将是最得心应手的工具。
图技术是 知识图谱应用的最强弹药
企业需要能够快速支持业务中迭代式的新模式。普适智能的“图智能”中台具有计算引擎: 图计算模型、图匹配业务数据模型等, 助力企业完成这一目标。
图规则计算: (例如:与黑名单客户共用一个电话的客户是可疑欺诈客户)
图指标计算: (例如:客户两度关系内黑名单客户的比例)
图机器学习 (以图作为先验知识让特征工程更有效)
社群识别 :标签预测(黑/潜在VIP客户预测)
图9 社区分析
最短路径 :优化加工路径,节约数据加工成本。
图10 路径查询
“工欲善其事,必先利其器” 。普适智能一站式“图智能”应用,为描绘物理世界生产生活行为提供 有效的方法和工具 。Gartner:“图时代已经到来”,让我们一起“图”起来!
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。
知识图谱又称为科学知识图谱,其本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。知识图谱通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合。
构建方式
知识图谱有自顶向下和自底向上两种构建方式。所谓自顶向下构建是借助百科类网站等结构化数据源,从高质量数据中提取本体和模式信息,加入到知识库中;所谓自底向上构建,则是借助一定的技术手段,从公开采集的数据中提取出资源模式,选择其中置信度较高的新模式,经人工审核之后,加入到知识库中。
以上内容参考:百度百科-知识图谱
知识图谱的概念是:知识图谱是自顶向下(top-down)的构建方式。自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。
该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如 Freebase 项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。
然而目前,大多数知识图谱都采用自底向上(bottom-up)的构建方式。自底向上指的是从一些开放连接数据(也就是 “信息”)中提取出实体,选择其中置信度较高的加入到知识库,再构建实体与实体之间的联系。
知识图谱的体系架构是:
知识图谱的架构主要包括自身的逻辑结构以及体系架构。
知识图谱在逻辑结构上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。
如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库作为存储介质,例如开源的 Neo4j、Twitter 的 FlockDB、JanusGraph 等。
模式层构建在数据层之上,主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,通过本体库而形成的知识库不仅层次结构较强,并且冗余程度较小。
大规模知识库的构建与应用需要多种智能信息处理技术的支持。通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。分布式的知识表示形成的综合向量对知识库的构建、推理、融合以及应用均具有重要的意义。
下一篇:返回列表