摘要
知识图谱是实现开放领域问答的关键技术之一,开放领域问答任务往往需要足够多的知识信息,而知识图谱的不完备性成为制约问答系统性能的重要因素。利用外部非结构化的文本与基于知识图谱的结构化知识相结合填补缺失信息时,检索外部文本的准确性和效率尤为关键,选取与问题相关度较高的文本可提升系统性能。相反,选取与问题相关性较弱的文本将引入知识噪声,降低问答任务的准确性。因此,设计了一种融合文本与知识图谱的问答系统模型,其中的文本检索器可充分挖掘问题和文本的语义信息,提高检索质量和查询子图的准确性;知识融合器将文本和知识库中的知识结合构建知识的融合表征。实验结果表明,相较对比模型,该模型在性能上存在一定优势。
开放领域问

图1 1个来自WebquestionsSP数据集的问题示例
Fig. 1 An example of a question from the WebquestionsSP dataset
国内外有一些研究者设计了结合外部文本知识的知识图谱开放领域问答系统,虽然取得一些效果,但仍存在问题,导致效果未达预期。其中包括:1)检索文本的方法未曾涉及句子的语义信息,导致检索到的文本相关性被限制,无法充分挖掘文本中所蕴含与问句有关的信息,影响最终答案的准确性。例如Sun和Xiong
针对上述现有问答系统存在的2个问题,本文提出了新的融合文本与知识图谱的问答系统模型。针对问题1),模型设计基于语义信息进行精确检索的文本检索器,从问句的语义信息角度出发,在大型文本语料库中准确检索所有与问题相关的文本,为不完整的知识图谱提供推理依据和实体背景信息。针对问题2),本模型采用图注意力网络(graph attention network,GAT
开放领域问答任务基于自然语言问句,其中,表示问句中token的数量值,利用1个基于三元组的知识库,其中,和分别表示头尾实体,表示头尾实体之间的关系,以及1个包含丰富外部信息的文本库作为知识源,其中,表示文本库中文本的数量值,根据问句中的中心实体集合,利用个性化PageRan
本模型核心部分主要由2个模块构成,分别为基于语义信息进行精确检索的文本检索器、结合文本信息与知识库信息的知识融合器,总体框架如

图2 模型总体框架图
Fig. 2 Framework of the model
该模型从问句出发,围绕问句的中心实体构建查询子图,利用图注意力网络对查询子图G中的实体进行嵌入表征。同时,利用文本的语义信息检索,结合文本所链接的实体信息对文本进行表征。最后,将问句信息、文本信息、知识图谱的实体信息进行融合,得到最终知识表征,计算某实体为正确答案的概率。
将自然语言问句和维基百科文本编码为向量形式,为文本检索打好基础。为充分挖掘问句和文本中蕴含的语义信息,采用DistilBer
(1) |
设编码后问句表征为。
利用问句和文本句子级别的嵌入表示进行相关性匹配,采用高效且运算简单的点积作为计算问句与文本语料库中文本之间的匹配得分函数。如
(2) |
式中:为利用DistilBert得到的问句表征;为利用DistilBert得到的某一文本语句表征。
由于传统SQL查询的方式在相关性检索方面效率低下,因此,选择Facebook公司开发的FAISS,它是为稠密向量提供高效相似度搜索和聚类的框架。利用FAISS框架对文本语料库中的所有文本做索引。依据得分函数的计算结果筛选前20个句子作为最相关的文本,成为后续知识融合的重要组成部分。
该部分需要将某个问题的3部分分别进行表征并融合,包括问句、相关文本和查询子图中的实体。
不同于传统构建查询子图的方法,本文并非固定多跳范围,选择采用个性化PageRank算法动态构建查询子图,确保查询子图中的实体仅包括问句的中心实体及相关实体,不涉及其他实体。初始化时,从问句的中心实体及邻接实体出发,定义PageRank得分,并为其赋得分初始值。若该实体为中心实体c,则其得分初始值为中心实体个数的倒数,表示为(其中,表示中心实体的个数),否则为0,初始化如
(3) |
式中,表示问句的中心实体集合。
(4) |
在更新过程中,与问句相关性较强的关系所连接的实体具有较高权重,实体PageRank得分函数的更新过程如
(5) |
该得分函数由2部分组成,前项为某实体上1轮更新所得的PageRank得分,后项为某实体邻接实体上1轮更新所得的PageRank得分的加权之和。2者通过1个取值范围为0~1的平衡因子相结合。表示当前实体的邻接实体集合。当实体的PageRank得分收敛后,选取其值大于0.005的实体用以构建查询子图。
为构建节点的融合表征,需将自然语言问句信息与三元组信息相融合。利用

图3 问句的句子树
Fig. 3 Sentence tree of a question
(6) |
知识图谱信息的实体表达是问答系统的知识源之一。由于知识图谱可被看作异构网络图,因此,图神经网
(7) |
实体表征的更新过程如
(8) |
式中:表示当前实体的邻接实体集合;符号表示向量拼接操作;为激活函数。
(9) |
文本同样是问答系统的知识源之一,需要将知识图谱的实体信息与文本语义信息相融合,为后续知识融合提供便利。将利用
。 | (10) |
式中的表示与文本相链接的实体表征,可通过实体表征
(11) |
该式表示将所有实体的表征求和,并求平均值作为文本链接实体的表征。其中:表示文本链接的实体集合;表示集合中实体的个数。
(12) |
对于与问句相关的所有文本表征,取对应位置元素的均值作为最终的。
本实验使用WikiMovies-10K和WebQuestionsSP作为数据
该数据集由Miller
WebQuestionsSP是WebQuestions包含SPARQL标注的升级版本,包含4 737个基于Freebas
数据集名称 | 数据规模 train / dev / test | 实体个数 | 关系类型数 | 文本数 |
---|---|---|---|---|
WikiMovies-10K | 10 000 / 9 999 / 9 951 | 43 235 | 9 | 79 728 |
WebquestionsSP | 2 848 /250 /1 639 | 528 617 | 513 | 235 567 |
为验证本文提出模型的有效性,实验在Python3.6、CUDA11.1环境下进行,基于PyTorch框架编写代码。所使用计算机配置环境的硬件参数为:处理器AMD R5-2600X、内存16 G、显卡NVIDIA GeForce GTX 1080Ti(显卡芯片内存容量为11 G)。学习率=0.001,epoch=100,PageRank的平衡因子P设置为0.6。
实验采用Hit@1和F1分数来评估不同模型的性能效果,其中,Hit@1表示模型预测最佳答案的准确性。F1分数同时考虑精确率和召回率,2者同时达到最高,取得平衡。F1分数的计算方法如
(16) |
式中:为精度,表示被分为正确答案的示例中实际为正确答案的比例;为召回率,是覆盖面的度量,表示系统预测答案覆盖正确答案的程度。
本实验将提出的模型与对比模型分别在WikiMovies-10K数据集和WebQuestionsSP数据集上进行对比。为验证本模型中检索器对问答效果的提升,分别进行了仅采用知识图谱作为数据源和同时采用文本加知识图谱作为数据源的实验,实验结果如
模型 | 10% | 30% | 50% | |||
---|---|---|---|---|---|---|
KB | KB+Text | KB | KB+Text | KB | KB+Text | |
KV-EF | 15.8 / 9.8 | 53.6 / 44.0 | 44.7 / 30.4 | 60.6 / 48.1 | 63.8 / 46.4 | 75.3 / 59.1 |
SG-KA | 19.1 / 13.4 | 49.4 / 37.8 | 47.5 / 37.4 | 71.7 / 53.4 | 66.5 / 53.9 | 80.6 / 66.7 |
GN-LF | 19.7 / 17.3 | 74.5 / 65.4 | 48.4 / 37.1 | 78.7 / 68.5 | 67.7 / 58.1 | 83.3 / 74.2 |
GN-EF | 19.7 / 17.3 | 75.4 / 66.3 | 48.4 / 37.1 | 82.6 / 71.3 | 67.7 / 58.1 | 87.6 / 76.2 |
PullNet | — | — | — | — | 65.1 / — | 92.4 / — |
Ours | 20.3 / 17.5 | 77.6 / 65.8 | 48.1 / 37.2 | 83.3 / 74.8 | 68.4 / 60.2 | 93.1 /78.6 |
注: 加黑数据表示特定条件下,所有模型中的最佳实验值。
模型 | 10% | 30% | 50% | |||
---|---|---|---|---|---|---|
KB | KB+Text | KB | KB+Text | KB | KB+Text | |
KV-EF | 12.5 / 4.3 | 24.6 / 14.4 | 25.8 / 13.8 | 27.0 / 17.7 | 33.3 / 21.3 | 32.5 / 23.6 |
GN-LF | 15.5 / 6.5 | 29.8 / 17.0 | 34.9 / 20.4 | 39.1 / 25.9 | 47.7 / 34.3 | 46.2 / 35.6 |
GN-EF | 15.5 / 6.5 | 31.5 / 17.7 | 34.9 / 20.4 | 40.7 / 25.2 | 47.7 / 34.3 | 49.9 / 34.7 |
SG-KA | 17.1 / 7.0 | 33.6 / 18.9 | 35.9 / 20.2 | 42.6 / 27.1 | 49.2 / 33.5 | 52.7 / 36.1 |
PullNet | — | — | — | — | 50.3 / — | 51.9 / — |
Ours | 17.0 / 8.6 | 35.1 / 20.4 | 36.1 / 20.6 | 43.2 / 27.8 | 49.6 / 35.2 | 53.9 / 37.6 |
注: 加黑数据表示特定条件下,所有模型中的最佳实验值。

图4 模型与对比模型在WikiMovies-10K数据集下实验结果
Fig. 4 Experimental results of the proposed model and comparison models under the WikiMovies-10K dataset

图5 模型与对比模型在WebQuestionsSP数据集下实验结果
Fig. 5 Experimental results of the proposed model and comparison models under the WebQuestionsSP dataset
为验证本模型检索的相关文本知识对补充不完整知识图谱的作用,以及本模型与其他问答系统模型对不同完整性程度知识图谱是否能保持相对稳定的性能表现,本实验在上述2个数据中分别构造完整度不同的3个数据集,将知识图谱三元组的数量降至原始数据的10%、30%和50%,模拟知识图谱中存在不同程度完整性的情况。
KVMemNet是Miller
在WikiMovies-10K数据集中知识图谱完整性为30%的条件下,且仅采用知识图谱作为数据源时,本模型的表现没有达到最佳,但与取得最佳表现的模型在指标数值上差距极小,在Hit@1和F1指标上分别降低0.3%和0.2%。原因是当知识图谱的完整性过低时,缺乏文本知识提供推理依据,采用图神经网络模型的推理能力受到限制。在相同条件下,本模型同时采用文本和知识图谱作为数据源时,本模型的表现比其他模型更出色,说明在知识图谱完整性较低时,文本知识为图注意力网络的推理提供了依据和背景知识,对推理的准确性有较大贡献。
在2种评价指标下,模型使用文本与知识图谱相融合的表现比仅使用知识图谱作为数据源的表现更佳,且有较大幅度提升,验证了本文所提模型中的检索器起到重要作用,扩充了模型的知识源,为图神经网络提供推理依据和实体背景知识。
当只采用知识图谱作为数据源时,本模型依然保持优异性能。KV-EF模型未采用图神经网络进行推理,而是将知识图谱中的三元组以固定格式转换为记忆单元,忽略了图神经网络对于知识推理的优势,问答效果不佳。本模型与其他模型均采用图神经网络进行知识推理,且本模型采用图注意力网络作为知识表示,在实体信息中充分融入不同邻接实体与边的信息,为不同的邻接实体赋予不同权重值,解决其他模型所采用的图卷积网络对所有邻接实体都具有相同权重的问题。因此,本模型在只采用知识图谱作为数据源时,不仅能与其他同样采用图神经网络的模型有接近性能,绝大多数情况下甚至能取得领先优势。实验不仅证明图注意力网络具有较强推理能力,同时验证了本模型为不同邻接实体赋予不同注意力得分的合理性。
此外,本文提出的方法在上海汽车集团股份有限公司和上海保隆汽车科技股份有限公司的汽车零部件维修数据集上进行了测试,有效缓解企业在工业数据领域应用知识图谱过程中知识来源受限、问答系统准确性不高等问题,实现了本方法在特定工业应用场景的有效验证。
针对知识图谱的不完整性制约问答系统性能的问题,重点研究通过检索文本对不完整知识图谱问答的作用,提出一种新模型。该模型的检索器部分充分利用问句的语义信息检索相关文本,弥补知识图谱的不完整性,为图注意力网络的推理提供依据,增强模型整体推理能力。该模型的知识融合器部分利用图注意力网络对知识图谱中的实体进行表征,分别对问句、文本进行再表征,使其包含知识图谱的实体信息,得到最终融合知识图谱、问句、文本的融合知识表征。因其完整、准确包含知识信息,对提升问答任务的效果具有显著作用。在2种公共数据集的实验中证明,该模型与前人提出的方法相比,存在一定优势。在未来工作中,团队将关注更多汽车制造企业的知识决策案例,进一步提升本模型在相关领域数据分析与处理过程中的鲁棒性和泛化能力。
参考文献
Wu P Y, Zhang X W, Feng Z Y. A survey of question answering over knowledge base[C]//China Conference on Knowledge Graph and Semantic Computing. Singapore: Springer, 2019: 86-97. [百度学术]
Savenkov D, Agichtein E. When a knowledge base is not enough: question answering over knowledge bases with external text data[C]//Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. New York: ACM, 2016: 235-244. [百度学术]
Chen D Q, Fisch A, Weston J, et al. Reading wikipedia to answer open-domain questions[C]//55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2017: 1870-1879. [百度学术]
Sun H T, Dhingra B, Zaheer M, et al. Open domain question answering using early fusion of knowledge bases and text[C]// 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2018: 4231-4242. [百度学术]
Xiong W H, Yu M, Chang S Y, et al. Improving question answering over incomplete KBs with knowledge-aware reader[C]//57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2019: 4258-4264. [百度学术]
Han J L, Cheng B, Wang X. Open domain question answering based on text enhanced knowledge graph with hyperedge infusion[C]//EMNLP 2020. Stroudsburg, PA, USA: Association for Computational Linguistics, 2020: 1475-1481. [百度学术]
Yu D H, Yang Y M, Zhang R H, et al. Knowledge embedding based graph convolutional network[C]//Proceedings of the Web Conference 2021. New York: ACM, 2021: 1619-1628. [百度学术]
Cai L, Yan B, Mai G C, et al. TransGCN: coupling transformation assumptions with graph convolutional networks for link prediction[C]//10th International Conference on Knowledge Capture. New York: ACM, 2019: 131-138. [百度学术]
Haveliwala T H. Topic-sensitive PageRank[C]//11th International Conference on World Wide Web. New York: ACM, 2002: 517-526. [百度学术]
Velikovi P, Cucurull G, Casanova A, et al. Graph attention networks[C]//6th International Conference on Learning Representations. Vancouver, BC, Canada: ICLR, 2018: 2920-2931. [百度学术]
李德栋. 基于图注意网络的文本增强知识图谱表示学习[D]. 上海: 华东师范大学, 2020. [百度学术]
Li D D. Text-enhanced knowledge graph representation learning based on graph attention network[D].Shanghai: East China Normal University, 2020. (in Chinese) [百度学术]
Mozafari J, Fatemi A, Moradi P. A method for answer selection using DistilBERT and important words[C]//2020 6th International Conference on Web Research (ICWR). Tehran, Iran: IEEE, 2020: 72-76. [百度学术]
Liu W, Zhou P, Zhao Z, et al. K-BERT: enabling language representation with knowledge graph[C]//34th AAAI Conference on Artificial Intelligence/32nd Innovative Applications of Artificial Intelligence Conference /10th AAAI Symposium on Educational Advances in Artificial Intelligence. New York: AAAI, 2020, 34: 2901-2908. [百度学术]
Fu X Y, Zhang J N, Meng Z Q, et al. MAGNN: metapath aggregated graph neural network for heterogeneous graph embedding[C]//Proceedings of The Web Conference 2020. New York:ACM, 2020: 2331-2341. [百度学术]
Yih W T, Richardson M, Meek C, et al. The value of semantic parse labeling for knowledge base question answering[C]//54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA, USA: Association for Computational Linguistics, 2016: 2:201-206. [百度学术]
Miller A, Fisch A, Dodge J, et al. Key-value memory networks for directly reading documents[C]//2016 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: Association for Computational Linguistics, 2016: 1400-1409. [百度学术]
Bollacker K, Evans C, Paritosh P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//ACM SIGMOD International Conference on Management of Data. New York: ACM, 2008: 1247-1250. [百度学术]
Sun H T, Bedrax-Weiss T, Cohen W. PullNet: open domain question answering with iterative retrieval on knowledge bases and text[C]//2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Stroudsburg, PA, USA: Association for Computational Linguistics, 2019: 2380-2390. [百度学术]