摘要
由于生物医学本体拥有规模庞大的概念和复杂概念间关系,已有本体匹配技术难以高效确定生物医学本体匹配结果。为解决这一问题,构建了生物医学本体匹配问题优化模型,提出基于进化算法的生物医学本体匹配技术来确定最优匹配结果。在求解生物医学本体匹配问题时,采用一种新的生物医学本体概念相似度度量来确保匹配结果质量,并通过基于推理的概念对剪枝技术缩小算法的搜索空间,提高算法效率。实验结果表明,基于进化算法的生物医学本体匹配技术能有效匹配生物医学本体。
生物医学本体是对生物医学领域中存在的概念、实例及它们之间关系的规范化描述,使基于生物医学知识的智能系统之间准确理解彼此数据的真实含义,在语义层面上实现系统间的交互与协
生物医学本体匹配技术可通过确定本体中异质概念间的对应关系来解决生物医学本体异质问题。AgreementMakerLigh
生物医学本体是生物医学概念及概念间关系集合,生物医学本体匹配结果是2个本体中语义相同的概念对集合。本体匹配结果的质量通常利用查全率、查准率和F度
, | (1) |
式中:;是中概念匹配对的数量;是大的正整数;,表示中第个概念对的相似度值。在此基础上,给定2个生物医学本体和,生物医学本体匹配问题的数学优化模型定义如下
, | (2) |
式中:和分别表示和中的概念数量;表示中第个概念同中第个概念形成概念对(若,则中第个概念没有匹配上任何一个概念);表示一个本体匹配结果,该模型的目标是最大化的值。
概念相似度度量技术是本体匹配技术的基础,生物医学概念的异质性高、专业性强、结构复杂,因此已有概念相似度度量技术难以有效识别语义相同的生物医学概念。在基于概念名称、背景知识库和本体概念体系关系结构这三类相似度度量技术基础上,提出混合度量技术以识别异质的生物医学概念。给定2个生物医学概念和,利用本体概念体系关系结构获取二者直接的子概念集合和,分别抽取出和中所有概念的名称和属性名称构建二者对应的信息档案和,通过其对应的信息档案和的相似度值来度量和的相似程度,相关的计算公式如下
, | (3) |
式中:和分别是和中元素的个数;和分别是和中第个和第个元素。当和在生物医学知识库Unified Medical Language System (UMLS
生物医学本体匹配问题是一个复杂的大规模优化问题,进化算法具有全局寻优能力、自动获取和指导优化搜索空间并自适应调整搜索方向,是求解该问题的有效方法。提出的用于求解生物医学本体匹配问题的进化算法框架如
t = 0; //初始化进化代数 |
---|
initialize the Population ; //初始化种群 |
evaluate(); //评价种群 |
while |
= select(); //选择操作 |
= crossover(); //交叉操作 |
= mutation(); //变异操作 |
evaluate(); |
save elite(); //保留精英个体 |
if elite is updated |
pruning mapping pairs; //概念对剪枝 |
end if |
t = t+1; |
end while |
output |
该算法初始化进化代数并随机初始化种群,对种群中每个个体的质量进行评价;在每一代的进化过程中,通过赌轮盘方法来选出新一代种群,依据交叉概率对种群中的个体执行单点交叉操作以实现个体间的信息交换,依据变异概率对种群中的个体执行位点变异操作以保证种群多样性;最后更新精英个体(历史最优解)并将精英个体取代种群中适应度值最低的个体以保证精英个体不会在进化过程中丢失,当精英个体被更新后,算法依据新的精英个体信息对概念进行剪枝以缩小算法的搜索区域,当算法进化到最大代数后终止,输出精英个体。
假设和分别是2个生物医学本体中概念集和中元素的个数,进化算法中的每个个体可表示为长度为的一维数组,其中,。当时,表示中的第个概念同中的第个概念匹配上;当时,表示中的第个概念没有匹配上中的任何一个概念。
针对大规模本体匹配问题,目前是通过本体划分算法将大规模生物医学本体划分为若干本体分块,问题转化为等价的若干个小规模的本体分块匹配问题。本体划分算法存在3个局限:1) 本体划分算法的时空复杂度同后续大规模本体匹配算法的时空复杂度一样,无法从本质上提高匹配过程的效率;2) 本体划分算法无法控制本体分块规模,使本体分块的规模不是太大就是太小,使得匹配过程效率不高; 3) 本体划分算法会导致位于分块边缘概念丢失一定程度的语义信息,使本体匹配结果质量不高。为缩小匹配过程中进化算法的搜索空间,提出一种基于推理的生物医学概念对剪枝方法,利用生物医学本体的概念体系结构减少匹配过程中所需的概念相似度值计算次数,提高生物医学本体匹配过程效率。
通过实验发现:1) 生物医学本体的概念体系结构通常是通过“is-a”和“part-of”关系来构建的,正确的匹配结果同该体系结构一致;2) 生物医学本体在某个区域内的大部分概念会同另一个生物医学本体在某个区域的概念匹配。在此基础上,假设是精英个体中确定的一个拥有高概念相似度值的生物医学概念对,则所有的直接子概念(或父概念)同所有的直接父概念(或子概念)为不相似概念,即将所有的直接父概念(或子概念)编号从所有的直接子概念(或父概念)对应基因位可行域中移除。
实验中采用国际本体匹配竞赛( ontology alignment evaluation initiative, OAEI)提供的Anatomy测试数据集和Large Bio测试数据集。
匹配技术 | 查全率(标准差) | 查准率(标准差) | F度量(标准差) | 运行时/s (标准差) |
---|---|---|---|---|
AML | 0.93 (0.0) | 0.95 (0.0) | 0.94 (0.0) | 47 (0.0) |
CroMatcher | 0.90 (0.0) | 0.94 (0.0) | 0.92 (0.0) | 573 (0.0) |
Xmap | 0.86 (0.0) | 0.92 (0.0) | 0.89 (0.0) | 45 (0.0) |
LogMapBio | 0.89 (0.0) | 0.88 (0.0) | 0.89 (0.0) | 758 (0.0) |
FCA_Map | 0.83 (0.0) | 0.93 (0.0) | 0.88 (0.0) | 117 (0.0) |
LogMap | 0.84 (0.0) | 0.91 (0.0) | 0.88 (0.0) | 24 (0.0) |
LYAM | 0.87 (0.0) | 0.86 (0.0) | 0.86 (0.0) | 799 (0.0) |
Lily | 0.79 (0.0) | 0.87 (0.0) | 0.83 (0.0) | 272 (0.0) |
LPHOM | 0.72 (0.0) | 0.70 (0.0) | 0.71 (0.0) | 1601 (0.0) |
本文的方法 | 0.94 (0.01) | 0.97 (0.01) | 0.96 (0.01) | 24 (3.0) |
Anatomy要求是将成年鼠类解剖学本体(2 744个概念)同NCI中的人类解剖学本体(3 304个概念)进行匹配。从
Large Biomed包含了3个任务,要求匹配3个大规模生物医学本体FMA(78 989个概念)、SNOMED CT(306 591个概念)和NCI(66 724个概念)。从
任务1: FMA vs NCI | ||||
---|---|---|---|---|
匹配技术 | 查全率 | 查准率(标准差) | F度量(标准差) | 运行时/s (标准差) |
Xmap | 0.85 (0.0) | 0.90 (0.0) | 0.87 (0.0) | 116 (0.0) |
AML | 0.87 (0.0) | 0.84 (0.0) | 0.85 (0.0) | 72 (0.0) |
LogMap | 0.80 (0.0) | 0.85 (0.0) | 0.83 (0.0) | 80 (0.0) |
LogMapBio | 0.84 (0.0) | 0.82 (0.0) | 0.83 (0.0) | 1,188 (0.0) |
研究方法 | 0.87 (0.01) | 0.92 (0.02) | 0.90 (0.01) | 65 (5.0) |
任务2: FMA vs SNOMED | ||||
匹配技术 | 查全率(标准差) | 查准率(标准差) | F度量(标准差) | 运行时/s (标准差) |
Xmap | 0.84 (0.0) | 0.97 (0.0) | 0.90 (0.0) | 366 (0.0) |
AML | 0.69 (0.0) | 0.88 (0.0) | 0.77 (0.0) | 166 (0.0) |
LogMap | 0.63 (0.0) | 0.84 (0.0) | 0.72 (0.0) | 433 (0.0) |
LogMapBio | 0.64 (0.0) | 0.81 (0.0) | 0.71 (0.0) | 2,156 (0.0) |
研究方法 | 0.86 (0.02) | 0.97 (0.01) | 0.92 (0.01) | 181 (25.0) |
任务3: NCI vs SNOMED | ||||
匹配技术 | 查全率(标准差) | 查准率(标准差) | F度量(标准差) | 运行时 /s (标准差) |
AML | 0.67 (0.0) | 0.90 (0.0) | 0.77 (0.0) | 376 (0.0) |
LogMapBio | 0.64 (0.0) | 0.84 (0.0) | 0.72 (0.0) | 4,322 (0.0) |
Average | 0.62 (0.0) | 0.85 (0.0) | 0.72 (0.0) | 1,353 (0.0) |
LogMap | 0.60 (0.0) | 0.87 (0.0) | 0.71 (0.0) | 699 (0.0) |
研究方法 | 0.65 (0.03) | 0.93 (0.02) | 0.81 (0.02) | 286 (23.0) |
生物医学本体匹配技术能确定不同生物医学本体中异质概念,实现基于本体的生物医学智能系统之间协作。研究提出一种基于进化算法的生物医学本体匹配技术求解该问题,并确定最优的本体匹配结果。在算法求解过程中,采用新的生物医学概念相似度度量和基于推理的概念对剪枝来提高算法性能。实验结果表明,基于进化算法的本体匹配技术能够有效匹配生物医学本体。
参考文献
邱实. 基于领域本体的生物医学本体匹配算法研究[D]. 哈尔滨: 哈尔滨工业大学2015. [百度学术]
Qiu S. Research on biomedical ontology matching algorithm based on domain ontology[D]. Harbin: Harbin Institute of Technology, 2015. (in Chinese) [百度学术]
Chatterjee N, Kaushik N, Gupta D, et al. Ontology merging: a practical perspective[C]//International Conference on Information and Communication Technology for Intelligent Systems. Cham: Springer, 2018: 136-145. [百度学术]
Yan S K, Wong K C. Elucidating high-dimensional cancer hallmark annotation via enriched ontology[J]. Journal of Biomedical Informatics, 2017, 73: 84-94. [百度学术]
Ping P P, Hermjakob H, Polson J S, et al. Biomedical informatics on the cloud: a treasure hunt for advancing cardiovascular medicine[J]. Circulation Research, 2018, 122(9): 1290-1301. [百度学术]
Strang J F, Meagher H, Kenworthy L, et al. Initial clinical guidelines for Co-occurring autism spectrum disorder and gender dysphoria or incongruence in adolescents[J]. Journal of Clinical Child & Adolescent Psychology, 2018, 47(1): 105-115. [百度学术]
Heringa M, Floor-Schreudering A, De Smet P A G M, et al. Clinical decision support and optional point of care testing of renal function for safe use of antibiotics in elderly patients: a retrospective study in community pharmacy practice[J]. Drugs & Aging, 2017, 34(11): 851-858. [百度学术]
Consortium T G O. Expansion of the gene ontology knowledgebase and resources[J]. Nucleic Acids Research, 2017, 45(D1): D331-D338. [百度学术]
Taboada M, Rodriguez H, Gudivada R C, et al. A new synonym-substitution method to enrich the human phenotype ontology[J]. BMC Bioinformatics, 2017, 18(1): 446. [百度学术]
Zheng L, Min H, Chen Y, et al. Auditing National Cancer Institute thesaurus neoplasm concepts in groups of high error concentration[J]. Applied Ontology, 2017, 12(2): 113–130. [百度学术]
Sanz X, Pareja L, Rius A, et al. Definition of a SNOMED CT pathology subset and microglossary, based on 1.17 million biological samples from the Catalan Pathology Registry[J]. Journal of Biomedical Informatics, 2018, 78: 167-176. [百度学术]
Cruz I F, Palmonari M, Caimi F, et al. Building linked ontologies with high precision using subclass mapping discovery[J]. Artificial Intelligence Review, 2013, 40(2): 127-145.. [百度学术]
Duchateau F, Bellahsene Z. YAM: A step forward for generating a dedicated schema matcher[J]. Transactions on Large-Scale Data-and Knowledge-Centered Systems XXV, 2016: 150-185. [百度学术]
Djeddi W E, Yahia S B, Nguifo E M. A novel computational approach for global alignment for multiple biological networks[J]. IEEE/ACM transactions on computational biology and bioinformatics, 2018, 15(6): 2060-2066. [百度学术]
Harrow I, Jiménez-Ruiz E, Splendiani A, et al. Matching disease and phenotype ontologies in the ontology alignment evaluation initiative[J]. Journal of biomedical semantics, 2017, 8: 1-13. [百度学术]
Rudolph G. An evolutionary algorithm for integer programming[C]//Parallel Problem Solving from Nature — PPSN III. Berlin, Heidelberg: Springer Berlin Heidelberg, 1994: 139-148. [百度学术]
Bodenreider O. The Unified Medical Language System (UMLS): integrating biomedical terminology[J]. Nucleic Acids Research, 2004, 32: D267-D270. [百度学术]
Kondrak G. N-gram similarity and distance[C]//String Processing and Information Retrieval. Berlin, Heidelberg: Springer, 2005: 115-126. [百度学术]