bravejcc 2018-08-10
知识图谱(Knowledge Graph),其主要作用是用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。自2012年谷歌首次在其搜索引擎中引入知识图谱、2013年百度发布首个中文知识图谱之后,知识图谱就受到了越来越广泛的关注。北明智通作为行业知识图谱领域的领先者和践行者致力于帮助客户实现基于知识图谱的智能化应用。
关于知识图谱的主要技术你了解吗?小编带你一块了解知识图谱主要的7大技术
一、知识建模知识建模,即为知识和数据进行抽象建模,主要包括以下5个步骤:
二、 知识获取从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱,这一过程我们称为知识获取。针对不同种类的数据,我们会利用不同的技术进行提取。
从结构化数据库中获取知识:D2R。
难点:复杂表数据的处理。
从链接数据中获取知识:图映射。
难点:数据对齐。
从半结构化(网站)数据中获取知识:使用包装器。
难点:方便的包装器定义方法,包装器自动生成、更新与维护。
从文本中获取知识:信息抽取。
难点:结果的准确率与覆盖率。
三、 知识融合如果知识图谱的数据源来自不同数据结构的数据源,在系统已经从不同的数据源把不同结构的数据提取知识之后,接下来要做的是把它们融合成一个统一的知识图谱,这时候需要用到知识融合的技术(如果知识图谱的数据结构均为结构化数据,或某种单一模式的数据结构,则无需用到知识融合技术)。
知识融合主要分为数据模式层融合和数据层融合,分别用的技术如下:
由于行业知识图谱的数据模式通常采用自顶向下(由专家创建)和自底向上(从现有的行业标准转化,从现有高质量数据源(如百科)转化)结合的方式,在模式层基本都经过人工的校验,保证了可靠性,因此,知识融合的关键任务在数据层的融合。
四、知识存储图谱的数据存储既需要完成基本的数据存储,同时也要能支持上层的知识推理、知识快速查询、图实时计算等应用,因此需要存储以下信息:三元组(由开始节点、关系、结束节点三个元素组成)知识的存储、事件信息的存储、时态信息的存储、使用知识图谱组织的数据的存储。
其关键技术和难点就在于:
五、知识计算知识计算主要是在知识图谱中知识和数据的基础上,通过各种算法,发现其中显式的或隐含的知识、模式或规则等,知识计算的范畴非常大,这里主要讲三个方面:
六、图挖掘和图计算知识图谱之上的图挖掘和计算主要分以下6类:
1、图遍历,知识图谱构建完之后可以理解为是一张很大的图,怎么去查询遍历这个图,要根据图的特点和应用的场景进行遍历;
2、图里面经典的算法,如最短路径;
3、路径的探寻,即给定两个实体或多个实体去发现他们之间的关系;
4、权威节点的分析,这在社交网络分析中用的比较多;
5、族群分析;
6、相似节点的发现。
七、 可视化技术目前两个比较常见的可视化工具是:D3.js和ECharts。
D3.js:全称Data-Driven Documents,是一个用动态图形显示数据的Java库,一个数据可视化工具,它提供了各种简单易用的函数,大大方便了数据可视化的工作。
ECharts:是一款由百度前端技术部开发的,同样基于Java的数据可视化图标库。它提供大量常用的数据可视化图表,底层基于ZRender(一个全新的轻量级canvas类库),创建了坐标系、图例、提示、工具箱等基础组件,并在此上构建出折线图(区域图)、柱状图(条状图)、散点图(气泡图)、饼图(环形图)、K线图、地图、力导向布局图以及和弦图,同时支持任意维度的堆积和多图表混合展现。