知识图谱:方法、实践与应用笔记-第5章 知识图谱融合

2024-05-19 21:51

1. 知识图谱:方法、实践与应用笔记-第5章 知识图谱融合

知识图谱包含描述抽象知识的本体层和描述具体事实的实例层。本体层用于描述特定领域中的抽象概念、属性、公理;实例层用于描述具体实体对象、实体间关系,包含大量的事实和数据。
  
 知识融合是解决知识图谱异构问题的有效途径。知识融合建立异构本体或异构实例之间的联系,从而使异构的知识图谱能相互沟通,实现它们之间的互操作。
  
 
  
  
 
  
  
 
  
  
  (1)语法不匹配 
  
 方法:尽量将不同的语言转化为同样的语法格式
  
  (2)逻辑表示不匹配 
  
 方法:例如,通过定义从语言L1逻辑表示到语言L2的逻辑表示的转换规则
  
  (3)原语的语义不匹配 
  
 注意:采用不同语言的本体交互时,需要注意它们的原语表达意义的差异
  
  (4)语言表达能力不匹配 
  
 方法:需要将表达能力弱的语言向表达能力强的语言转换;但是如果表达能力强的语言并不完全兼容表达能力弱的语言,这样的转换可能会造成信息的损失。
  
 
  
  
  (1)概念化不匹配 
  
  由于对同样的建模领域进行抽象的方式不同造成的。每个人对schema的理解不同,抽象出来的Schema不同。 
  
 a. 概念范围的不匹配
  
 概念差异以及人的主观差异。
  
 b. 模型覆盖的不匹配
  
  模型的广度(领域范围)、模型的粒度(详细程度)、本体建模的观点(从什么角度来描述领域内的知识) 
  
  (2)解释不匹配 
  
  对概念化说明方式不同造成的。 
  
 a. 模型风格的不匹配
  
 i. 范例不匹配。相同的概念会有不同的表示;使用不同的上层本体
  
 ii. 概念描述不匹配。??本体的构建不同
  
 b. 建模术语上的不匹配
  
 i. 同义术语(自然语言)。car&automobile
  
 ii. 同形异义术语。conductor(指挥家;半导体)
  
 iii. 编码格式。eg:日期(dd/mm/yyyy;mm-dd-yy)
  
 
  
  
   语言层的不匹配可以进行语言之间的转换;模型层的不匹配,可以根据匹配类型的不同选择正确的算法。  
  
 
  
                                          
 
  
  
  (1)基于单本体的集成 
  
 不同本体集成一个大本体,但是这种方法对于其中的每个本体来说时过于庞大的,且推理和查询的时候效率低。
  
  (2)基于全局本体-局部本体的集成 
  
 抽取共同知识构建全局本体,同时各个系统可以拥有自己的本体,称为局部本体(是剔除了共有知识吗??不是)。需要建立局部本体和全局本体之间的映射。局部本体侧重于特定的知识,全局本体保证不同系统间异构的部分能进行交互。
  
  (1)映射的对象角度 
  
 明确映射应该建立在异构本体的哪些成分之间。
  
 从映射对象来看,可将本体映射分为概念之间的映射和关系之间的映射,其中概念之间的映射是最基本的映射。
  
  (2)映射的功能角度 
  
 明确建立具有何种功能的本体映射。11种
  
  (3)映射的复杂角度 
  
 明确什么形式的映射是简单的,什么是复杂的。
  
   如何发现异构本体间的映射?  
  
 本体映射过程:
  
 (1)导入待映射的本体
  
 (2)发现映射。
  
 (3)表示映射。
  
 发现映射方法:
  
 (1)  基于术语和结构的本体映射
  
 (2) 基于实例的本体映射
  
 (3) 综合方法

知识图谱:方法、实践与应用笔记-第5章 知识图谱融合

2. 知识图谱基础(一)-什么是知识图谱

笔者是一只已经离职的AI产品经理,主要擅长的方向是知识图谱与自然语言处理,写这些文章是为了总结归纳目前已经搭建的知识体系,也在于科普。如有不对,请指正。
  
 知识图谱在国内属于一个比较新兴的概念,国内目前paper都比较少,应用方主要集中在BAT这类手握海量数据的企业,这个概念是google在2012年提出的,当时主要是为了将传统的keyword-base搜索模型向基于语义的搜索升级。知识图谱可以用来更好的查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。
  
 个人认为,知识图谱最大的优势是在于对数据的描述能力非常强大,各种机器学习算法虽然在预测能力上很不错,但是在描述能力上非常弱,知识图谱刚好填补了这部分空缺。
  
 知识图谱的定义非常多,我这里提供一部分我自己的理解:
  
 1.知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的强关系,我们用关系去描述两个实体之间的关联,例如姚明和火箭队之间的关系,他们的属性,我们就用“属性--值对“来刻画它的内在特性,比如说我们的人物,他有年龄、身高、体重属性。
  
 2.知识图谱可以通过人为构建与定义,去描述各种概念之间的弱关系,例如:“忘了订单号”和“找回订单号”之间的关系
  
 知识库目前可以分为两种类型:Curated KBs 和 Extracted KBs
  
   Curated KBs  :以yago2和freebase为代表,他们从维基百科和WordNet等知识库抽取了大量的实体及实体关系,可以把它理解城一种结构化的维基百科。
  
  
   Extracted KBs  :主要是以Open Information Extraction (Open IE),  Never-Ending Language Learning (NELL)为代表,他们直接从上亿个网页中抽取实体关系三元组。与freebase相比,这样得到的实体知识更具有多样性,而它们的实体关系和实体更多的则是自然语言的形式,如“姚明出生于上海。” 可以被表示为(“Yao Ming”, “was also born in”, “Shanghai”)。直接从网页中抽取出来的知识,也会存在一定的噪声,其精确度低于Curated KBs。
  
  
 a)“姚明出生于上海”
  
  
 b)“姚明是篮球运动员”
  
 c)“姚明是现任中国篮协主席”
  
 以上就是一条条知识,把大量的知识汇聚起来就成为了知识库(Knowledge Base)。我们可以从wikipedia,百度百科等百科全书获取到大量的知识。但是,这些百科全书的知识是由非结构化的自然语言组建而成的,这样的组织方式很适合人们阅读但并不适合计算机处理。
  
 
  
                                          
 
  
  
 为了方便计算机的处理和理解,我们需要更加形式化、简洁化的方式去表示知识,那就是三元组(triple)。
  
  
 “姚明出生于中国上海” 可以用三元组表示为(Yao Ming, PlaceOfBirth, Shanghai)[1]。这里我们可以简单的把三元组理解为(实体entity,实体关系relation,实体entity)。如果我们把实体看作是结点,把实体关系(包括属性,类别等等)看作是一条边,那么包含了大量三元组的知识库就成为了一个庞大的知识图。
  
 有些时候会将实体称为topic,如Justin Bieber。实体关系也可分为两种,一种是属性property,一种是关系relation。如下图所示,属性和关系的最大区别在于,属性所在的三元组对应的两个实体,常常是一个topic和一个字符串,如属性Type/Gender,对应的三元组(Justin Bieber, Type, Person),而关系所在的三元组所对应的两个实体,常常是两个topic。如关系PlaceOfBrith,对应的三元组(Justin Bieber, PlaceOfBrith, London)。
  
 
  
                                          
 (图中蓝色方块表示topic,橙色椭圆包括属性值,它们都属于知识库的实体;蓝色直线表示关系,橙色直线表示属性,它们都统称为知识库的实体关系,都可以用三元组刻画实体和实体关系)
  
  
 这里只是简单介绍一下数据结构,知识表达这一块会在《知识图谱基础(二)-知识图谱的知识表达系统》中详细讲解。
  
 读者只要记住,freebase的基础知识表达形式:(实体)-[关系]-(实体),(实体)-[关系]-(值)即可,参考图3,姚明和叶莉的关系。
  
 
  
                                          
 通过知识图谱,不仅可以将互联网的信息表达成更接近人类认知世界的形式,而且提供了一种更好的组织、管理和利用海量信息的方式。下图是笔者整理的知识图谱有关的应用,接下来的一些文章笔者会对下面的应用进行剖析。
  
  
 
  
                                          
 
  
  
 从图4上看,知识图谱的应用主要集中在搜索与推荐领域,robot(客服机器人,私人助理)是问答系统,本质上也是搜索与推荐的延伸。可能是因为知识图谱这项技术(特指freebase)诞生之初就是为了解决搜索问题的。知识存储这一块可能是企查查和启信宝这些企业发现使用图结构的数据比较好清洗加工。
  
 在语义搜索这一块,知识图谱的搜索不同于常规的搜索,常规的搜索是根据keyword找到对应的网页集合,然后通过page rank等算法去给网页集合内的网页进行排名,然后展示给用户;基于知识图谱的搜索是在已有的图谱知识库中遍历知识,然后将查询到的知识返回给用户,通常如果路径正确,查询出来的知识只有1个或几个,相当精准。
  
 问答系统这一块,系统同样会首先在知识图谱的帮助下对用户使用自然语言提出的问题进行语义分析和语法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。

3. 图计算和知识图谱有什么关系?求解

图计算经常用于构建网页链接关系、社交网络、商品推荐。比如某信的社交网络,是由节点(个人、公众号)和边(关注、点赞)构成的图;淘宝的交易网络,是由节点(个人、商品)和边(购买、收藏)构成的图。如此一来,抽象出来的图数据构成了研究和商用的基础。阿里巴巴GraphScope 就是图计算系统,已经证明在多个关键互联网领域实现价值,其代码当前已在githubgraphscope 上开源。

知识图谱是知识计算的一部分,并在知识建模中起到了非常重要的作用。知识计算是华为在2020年全联接大会上发布的全生命周期知识计算解决方案。知识计算可以将行业知识与AI相结合,是AI深入行业核心生产系统,通往第三代人工智能的必经之路,知识计算包含知识获取,知识建模,知识管理,知识应用四个标准步骤,为机理模型与AI的融合提供了一条全新的路径。

图计算和知识图谱有什么关系?求解

4. 知识图谱表达的是哪些对象之间的关系

你好,很高兴为你解答。
截至2015年1月,谷歌搜索上显示的托马斯·杰斐逊的知识图谱数据。
知识图谱是谷歌及其服务使用的知识库,通过从各种来源收集的信息来增强其搜索引擎的结果。信息显示在搜索结果旁边的信息框中。知识图谱信息框于2012年5月被添加到谷歌的搜索引擎中,从美国开始,年底在国际上扩展[1]。知识图谱涵盖的信息在发布后大幅增长,在7个月内增长了两倍(涵盖5.7亿实体和180亿事实数据[2])回答了谷歌在2016年5月处理的1000亿次月度搜索中的“大约三分之一”。知识图谱因提供的答案没有来源归属或引用而受到批评。【摘要】
知识图谱表达的是哪些对象之间的关系【提问】
您好,我这边正在为您查询,请稍等下哈~
【回答】
你好,很高兴为你解答。
截至2015年1月,谷歌搜索上显示的托马斯·杰斐逊的知识图谱数据。
知识图谱是谷歌及其服务使用的知识库,通过从各种来源收集的信息来增强其搜索引擎的结果。信息显示在搜索结果旁边的信息框中。知识图谱信息框于2012年5月被添加到谷歌的搜索引擎中,从美国开始,年底在国际上扩展[1]。知识图谱涵盖的信息在发布后大幅增长,在7个月内增长了两倍(涵盖5.7亿实体和180亿事实数据[2])回答了谷歌在2016年5月处理的1000亿次月度搜索中的“大约三分之一”。知识图谱因提供的答案没有来源归属或引用而受到批评。【回答】
希望以上回答对您有所帮助~ 如果您对我的回答满意的话,麻烦给个赞哦【回答】

5. 知识图谱可以看作是一种什么表示方法

知识图谱可以看作是一种结构化的知识表示方法,相比于文本更易于被机器查询和处理,因而在搜索引擎、智能问答、大数据分析等领域被广泛应用。
将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。

主要特点
1、用户搜索次数越多,范围越广,搜索引擎就能获取越多信息和内容。
2、赋予字串新的意义,而不只是单纯的字串。
3、融合了所有的学科,以便于用户搜索时的连贯性。
4、为用户找出更加准确的信息,作出更全面的总结并提供更有深度相关的信息。
5、把与关键词相关的知识体系系统化地展示给用户。
6、从整个互联网汲取有用的信息让用户能够获得更多相关的公共资源。

知识图谱可以看作是一种什么表示方法

6. 知识图谱的介绍

知识图谱,也称为科学知识图谱,它通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。为学科研究提供切实的、有价值的参考。

7. 知识图谱的重要特点。


知识图谱的重要特点。

8. 知识图谱的简介

知识图谱(Mapping Knowledge Domain)也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。具体来说,知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考。迄今为止,其实际应用在发达国家已经逐步拓展并取得了较好的效果,但它在我国仍属研究的起步阶段。