Abs
这篇论文提出了一种基于知识图谱的新方法,用于提供结构化信息,以促进技术情报的生成并改进网络物理系统的规划。框架包括文本挖掘过程,如信息检索、关键词提取、语义网络创建和主题图可视化。通过一个电子与创新本体支持的知识图谱构建管道,该方法旨在解决网络物理系统中的多目标决策问题。实验结果表明,该方法在类识别、关系构建以及“子类化”分类方面优于GraphGPT和REBEL等模型。
1. Introduction
论文的引言部分着重讨论了在网络物理系统(Cyber-Physical Systems,CPS)规划中,如何通过技术情报(Technology Intelligence)实现更高效的决策。随着数字化时代的到来,CPS的规划和设计需要应对复杂的技术挑战,决策过程也愈加依赖海量的、及时的信息。这些信息可以帮助预测技术趋势、制定任务分配、设计路线图等,甚至可以用于自组织系统。
传统的技术情报获取方式依赖特定的语料库,并使用预先定义的本体更新特定属性,数据源通常是从有限的文献、如特定期刊文章或维基百科条目中获取。然而,这种方法的局限性在于,知识图谱通常不能涵盖广泛的信息源,导致其简洁性和完整性不足,难以满足网络物理系统规划的复杂需求。
为了解决这一问题,本文提出了一种通过知识图谱(Knowledge Graph, KG)构建的新方法,旨在通过对异构信息源的预分类,爬取相关的、规模广泛的信息,来构建更加全面、准确的知识图谱。这种方法不再局限于爬取互联网中的所有信息,而是通过过滤和聚焦特定领域的相关数据,提高了信息的相关性,并通过推理技术增强了语义的准确性。
1.1. Why?
引言中指出,网络物理系统的复杂性和快速发展使得依赖传统、手动构建的知识库方法难以满足实际需求。为了应对这一挑战,需要一种能够快速、自动化处理海量数据,并根据特定领域进行筛选的技术情报构建方法。因此,使用知识图谱构建可以提供如下好处:
- 提高决策效率:通过自动化的知识图谱构建,技术情报的获取变得更快捷,有助于快速响应技术变革。
- 信息相关性更高:通过预分类和过滤,系统能够聚焦在与CPS相关的领域信息,从而生成更有价值的知识图谱。
- 语义准确性增强:结合推理技术确保构建的知识图谱在语义上的一致性,使其在复杂决策中更加可靠。
1.2. 优点
- 信息覆盖广泛:通过爬取多种异构数据源,避免了传统方法依赖单一或少量数据源的问题,构建的知识图谱具有更高的广度和深度。
- 增强语义准确性:引入推理技术(如基于本体的推理),确保知识图谱的语义关系准确,有助于更好地理解复杂系统之间的相互作用。
- 支持自动化和可扩展性:利用大型语言模型(LLM)和本体,系统具备自动化处理大规模数据的能力,且可以扩展到其他领域。
1.3. 缺点
- 初期配置复杂:虽然知识图谱能够自动构建,但需要根据领域定义特定的本体和关键词,初期设置复杂。
- 推理效率问题:知识图谱的推理过程可能在大规模数据下较为耗时,尤其是复杂关系和多层次语义推理时,推理时间可能成为瓶颈。
- 依赖数据质量:尽管爬取了大量数据源,如果数据源的质量参差不齐,可能导致知识图谱中信息不一致或噪音增加,需要额外的过滤和验证步骤。
2. Method
详细介绍了用于技术情报和网络物理系统(CPS)规划的知识图谱构建框架及其具体实现方法。该方法结合了文本挖掘、语义网络、主题图可视化以及基于本体的推理技术,确保知识图谱在语义和结构上的一致性。
2.1. 整体框架
论文提出了一个多步骤的知识图谱构建流程,用于生成与技术情报相关的定制化信息图谱。框架的核心步骤如下:
-
信息检索与关键词提取:从技术情报数据库中提取相关文档,并从文献中识别出关键短语。
-
语义网络与主题图创建:通过语义网络构建出术语之间的关系,并生成可视化的主题图,方便用户进行领域探索。
-
知识图谱生成与推理:利用大型语言模型(如ChatGPT)和本体推理工具,将文档转换为知识图谱,并验证图谱的语义一致性。
2.2. 信息检索与关键词提取
首先,框架会查询一个技术情报数据库,提取如研究文章、专利和新闻等相关文档。为了增强搜索结果的多样性和覆盖度,系统会对这些文档进行关键词提取。这一步通常采用共现分析来识别与目标领域最相关的术语。具体来说,每个领域的术语通过归一化点互信息(nPMI)来计算术语的关联性:
其中,P(x) 和 P(y) 分别表示术语 x 和 y 的独立概率,P(x, y) 表示它们的联合概率。系统会保留那些在不同文献类型中均表现出较高nPMI值的术语,以确保术语在各领域的相关性。
2.3. 语义网络与主题图创建
从提取的关键词中,系统接下来构建出一个语义网络,其节点由最相关的术语组成,节点之间的边则表示术语之间的语义相似度。文本表示的嵌入采用余弦相似度来衡量术语之间的相似度:
其中,A 和 B 分别是两个术语的向量表示,\|A\| 和 \|B\| 分别是向量的模。
作者测试了两种语义网络构建方法:
- 简单阈值法:连接余弦相似度超过某一阈值(如0.5)的术语。
- 语义共现法:通过计算术语与文档之间的余弦距离,来定义术语的模糊归属关系,并基于这些归属关系生成相似度矩阵。
最后,语义网络通过主题图可视化,用户可以通过图表交互式地探索技术情报领域的结构和趋势。
2.4. 知识图谱生成与推理
在知识图谱构建阶段,文献首先被转换为文本文件(.txt),并通过工具(如Owlready2)转换为OWL格式的本体文件。框架使用基于Transformer的REBEL模型和大型语言模型(如ChatGPT)进行知识图谱生成。这些模型通过对文本的上下文理解,将提取的信息转化为图谱中的三元组(实体-关系-实体)。
为了确保图谱的一致性,框架引入了推理过程,通过将生成的知识图谱与预定义的本体(GENIAL! Basic Ontology)进行对比,确保各类术语的正确归类及关系的准确性。这一推理过程不仅验证了图谱的结构,还提高了机器学习模型的准确性。
2.5. 框架的扩展性
该方法具备良好的扩展性,可以适用于任何领域,只需要:
- 添加与新领域相关的文档;
- 定义领域的关键词和相关术语。
不过,当前仍需要领域专家在最后阶段监督生成内容的质量,确保分类和关系的准确性。
3. Experiment
论文的Evaluation部分详细介绍了作者提出的方法在汽车电子系统(Automotive Electrical Systems)领域中的实验与评估。通过该实验,作者验证了知识图谱构建过程在处理复杂系统中的有效性和准确性。以下是实验过程的详细讲解:
3.1. 实验动机
作者讨论了汽车电子系统的复杂性以及为什么这一领域是使用知识图谱方法的理想用例。汽车电子系统包括多个重要的组成部分,如电子控制模块(ECMs)、传感器、数据传输系统等。这些系统不仅负责电力分配、数据传输和控制,还整合了诸如高级驾驶辅助系统(ADAS)、以太网通信以及空中升级(OTA)等先进技术。
由于汽车电子系统的复杂性,不同组件之间的依赖关系非常多且复杂。知识图谱能够有效地映射这些复杂的依赖关系和交互作用,帮助决策者对整个系统有一个全面的理解。在引入新组件时,知识图谱可以展示该组件与现有系统之间的相互作用,预测潜在的冲突或协同效应。
因此,知识图谱为汽车电子系统规划提供了一个有力的工具,能够帮助设计人员和决策者更好地理解系统内复杂的关系,并进行有效的规划与优化。
3.2. 数据处理与语义网络构建
作者讨论了如何使用大型语言模型(Large Language Models, LLMs)来创建语义网络以用于数据分析,并对几种不同的嵌入方法进行了比较。具体来说,作者比较了不同的嵌入技术在构建语义网络时的性能与准确性,旨在找到适合处理大规模技术数据的最优方法。
作者提到了传统的文本表示方法(如tf-idf和fastText),以及近年来流行的语言模型(如BGE和MiniLM-L6)。通过一系列分类任务的对比实验,作者发现MiniLM-L6模型在运行效率与准确度之间取得了最佳的平衡。
具体内容包括:
- 模型比较:实验比较了不同嵌入模型在处理数据时的性能,主要通过分类任务来评估各模型的表现。实验结果显示,MiniLM-L6在准确性上接近更大模型(如BGE),但在计算速度和资源使用方面具有明显优势。
- 分类任务表现:对于给定的分类任务,作者对比了基于标题和摘要的数据处理方式。结果显示,MiniLM-L6模型在这些任务中的表现优于传统的fastText和tf-idf方法,在分类精度方面具有较大的优势。
- 语义网络构建:通过使用LLMs,作者能够有效生成关键词之间的语义网络,并在下游的任务中应用这些语义网络以提升数据分析的效果。
通过这些比较,作者最终选择MiniLM-L6模型用于生成语义网络,因其在运行性能和准确度上表现良好,特别适合用于大规模数据集的处理和分析。
3.3. 主题图可视化
1. 语料库提取与关键词提取
为了从Innovation Graph数据库中提取相关文献,作者使用了特定的搜索策略(见Listing 1)。系统会自动将搜索词进行词干化,并将文献的发布时间范围限制在2018年10月13日至2023年10月12日之间。通过此策略,系统从文献中提取出许多与领域专家初始搜索策略相关的关键词,同时还自动检测到了一些未包含在原搜索策略中的新术语。
表3列出了系统新检测出的前10个关键词,这些关键词通过归一化点互信息(nPMI)评分来确定其相关性。
2. 语义网络构建与聚类
系统为“汽车电子系统”生成了一个包含708个节点和2836条边的语义网络,使用Cytoscape软件进行绘制和布局。接着,采用了马尔可夫聚类算法(MCL)对网络进行聚类分析。最终结果生成了120个聚类,其中60个聚类包含两个以上的节点。文中展示了一个聚类示例,描述了汽车电子系统中不同模块及其关系。
3. ChatGPT 生成的语义网络对比
作为对比,作者使用ChatGPT生成了一个与“汽车电子系统”相关的语义网络。该网络基于ChatGPT生成的边列表(edge list),展示了相关术语之间的连接。然而,作者指出,ChatGPT生成的网络在结构和质量上不如通过领域知识生成的网络精确。
3.4. 主题图可视化
为了更直观地展示汽车电子系统的语义网络,作者使用Cytoscape软件进行了语义网络的可视化,并通过马尔可夫聚类算法(MCL)对网络进行了聚类分析。该语义网络包含708个节点和2836条边,最终生成了120个聚类,其中60个聚类包含超过两个节点。一个示例聚类如下图所示,展示了汽车电子系统的不同模块及其相互关系。
3.5. 知识图谱构建
-
文本挖掘结果作为输入:在前一部分通过文本挖掘确定了与汽车电子系统相关的文献,这些文献被输入到知识图谱构建流程中。通过这些文献,系统可以更详细地描述汽车电子系统的各个组件,并生成一个可供机器读取的知识图谱。
-
与以往方法的对比:作者之前使用基于双向LSTM(bi-LSTM)与Transformer模型的系统进行标注(称为REBEL),该过程需要大量人工参与,每周耗费20小时,持续3个月,且训练非本体和非领域专家困难重重。在此基础上,使用ChatGPT模型替代传统模型带来了显著改进。
- 类的识别与标签数量增加:ChatGPT生成的类数量增加了200%以上,并提供了更具描述性的标签,显著提高了识别类的数量和构建的关系。
- 准确率的提高:ChatGPT的分类准确性通过优化提示语设计得到了提升,这些提示语涵盖了上下文、角色、任务、格式、示例和语气等多个方面。
-
实验数据集:为了展示方法的有效性,作者选择了三篇高相关度的研究文章,包括:
- 汽车电子系统与光伏发电和三级电池管理方案的最优操作
- 针对汽车控制区域网络总线(CAN Bus)和电子控制单元的攻击设计
- 针对汽车控制区域网络总线的模糊测试方法(CAN-FT)
这些文献涉及广泛的主题,涵盖了从模糊测试、信息处理到网络安全分析等内容。
-
知识图谱生成与优化:
- 构建的知识图谱包含3100个公理(axioms)、650个类和16个对象属性。对象属性较少的设计意在提高可重用性并简化复杂性。
- 图谱的可视化展示了类之间的关系,如“CAN-Bus”类及其功能、直接组成部分等。实验表明,三个研究文章的内容都成功映射到了“CAN-Bus”类的知识图谱中。
- 在生成的知识图谱中,作者发现多种类和节点,涉及从网络攻击到新技术组合的广泛话题,展现了汽车电子系统的多样性。
-
简化与复用:知识图谱构建中的对象属性数量较少,这有助于图谱的复用和简化。系统还为自然语言空间和同义词识别进行了标签注释,符合语义网的最佳实践。
总结来说,使用ChatGPT构建的知识图谱显著提高了类识别的准确性和数量,同时简化了以往基于双向LSTM方法的手动标注过程,展示了在汽车电子系统领域应用该技术的巨大潜力。
3.6. 推理应用与一致性检查
作者讨论了在构建知识图谱后如何应用推理过程来验证图谱的正确性,并确保它与引用的本体(GENIAL! Basic Ontology, GBO)的定义保持一致。
1. 推理过程的挑战
在构建知识图谱之后,系统会根据GBO的定义对其进行推理检查。然而,这一过程具有一定挑战性,主要体现在:
- 推理时间长:由于数据量大和表达复杂性高,推理过程可能耗费大量时间。
- 数据监督复杂:需要对大量数据进行监督和检查,以确保图谱的结构和语义的一致性。
2. 示例:充电系统的推理验证
图6展示了推理过程中的一个示例——充电系统(Charging System)。该类被正确分类为一个“系统(System)”。推理还显示出充电系统的关系属性(存在性限制),具体表现为:
- **汽车发电机(Automotive Alternator)和电池(Battery)**被分类为硬件组件(Hardware Components)。
- 这些电气组件(Electrical Components)被分类为组件(Components)。与硬件组件不同,组件可以包含软件。
硬件组件是组件的一个子类,代表由硬件部分构成的对象。由于这些组件处于下一个层级的正确位置,推理测试通过。
此外,充电功能(Charging)被分类为一个功能(Function),并且满足了“implements(实现)”关系的范围公理,因此该充电系统被认为是一个有效的知识条目,未被移除。
3.7. 与Wikidata的比较
在这一部分,作者将其基于知识图谱的构建方法与Wikidata进行了比较。Wikidata是全球最大的结构化知识库之一,涵盖几乎所有领域的类和关系。作者针对汽车电子系统领域对Wikidata进行了查询,结果表明该领域在Wikidata中的知识覆盖范围有限,特别是在处理像处理器、传感器、执行器、总线、通信网络和放大器等更抽象或具体的技术时,内容较少,且只是具有示范性,而非全面覆盖。
1. GBO 与 Wikidata 的关系建模差异
Wikidata的关系结构通常采用多重继承(multiple inheritance),这与作者的GENIAL! Basic Ontology (GBO) 有些不同。GBO为特定的推理操作而设计,例如“has part directly”关系是“has part”关系的非传递子属性,专门用于区分直接组成部分,而Wikidata仅使用“has part”关系。
这些区别帮助GBO在保持一致性和推理功能上更具针对性,而Wikidata的设计则更为通用。
2. 知识覆盖范围对比
作者通过对三篇研究文章构建的知识图谱已经在汽车电子系统领域大幅超过了Wikidata的覆盖范围。这表明,尽管Wikidata在广泛领域中表现优异,但在特定、细分领域(如汽车电子系统)的知识内容却相对匮乏。
3. 结论
作者的方法在领域知识的深度和关系表示的丰富性上显著优于Wikidata,尤其是在汽车电子系统这种复杂且较少代表的领域。此外,作者的方法具有良好的扩展性,并且通过推理过程能够轻松验证和保持图谱的一致性。
4. Conclusion
本文提出了一种创新的知识图谱构建方法,专注于生成定制化信息,而不局限于预定义的语料库或特定的知识源。通过三篇文章的示例,展示了该方法的可扩展性,推理时间不再成为瓶颈,从而可以自动构建大型知识图谱。
相比其他方法,本文的框架产出具有高度灵活性,既适合人类解读,也适合机器处理,使其成为技术规划者的有价值资源。该方法能够创建高质量的主题图和知识图谱,涵盖如汽车电子等技术创新领域,并为网络物理系统的复杂决策提供支持。
未来工作中,作者将进一步提升知识图谱构建过程中的质量保证,特别是在确保关系和分类的准确性方面,解决相关类的正确子类化问题以及确保生成知识的完整性。
论文的创新点总结
- 定制化的知识图谱构建方法:提出了一种基于大规模异构数据源的知识图谱构建方法,不依赖于特定语料库或知识源,能够动态地从多种信息来源中提取相关信息。这种方法提升了信息的覆盖面和相关性。
- 集成大型语言模型(LLM)的管道:通过结合大型语言模型(如ChatGPT)和REBEL Transformer,自动构建语义精确的知识图谱。与传统模型相比,该方法显著提高了类识别和关系构建的效率和准确性。
- 推理过程的优化与验证:提出了结合GENIAL! Basic Ontology的推理验证过程,确保知识图谱中类和关系的一致性和语义准确性。该推理过程避免了推理时间过长的问题,使得大规模知识图谱的构建成为可能。
- 领域知识覆盖的增强:在特定领域(如汽车电子系统)中,本文的方法显著超越了Wikidata等现有知识库的覆盖范围和深度,提供了更详细和专门化的领域知识,特别是在复杂技术系统中的应用。
- 可扩展性和通用性:方法具有高度的可扩展性,能够适应不同领域,只需调整关键词和本体定义,便可应用于其他技术领域,同时也适合复杂网络物理系统的规划和决策。
评论区