МЕТОД СРАВНЕНИЯ ОНТОЛОГИЙ



Куликовская Н.А., Котов Р.А. Існує кілька методів визначення подібності між об'єктами онтологій. Кожен підхід ґрунтується на обчисленнях міри схожості класів онтологій, до них можна віднести міру Ву і Палмера, міру Ради, міру Еріка, міра Рєзніка, міра Ліна. Розглянувши їх, ми прийшли до висновку, що вони засновані на повному переборі і збігу елементів онтології, або на обчисленні оцінки подібності, заснованої на концептуальному відстані між елементами онтології. Ми запропонували гібридне знаходження семантичної близькості двох класів онтології засноване на порівнянні URI - значень і лексикографічному порівнянні.

Ключові слова: онтологія, клас, схожість, порівняння, метод

There are several methods for determining the similarity between objects ontologies. Each approach is based on calculations of a certain measure of similarity classes of ontologies, they include ameasure of Wu and Palmer, measure Rada, measure Eric, measure Lina. After considering them, we came to the conclusion that they are based on exhaustive search and matching elements of the ontology or the calculation of the assessment of similarity, based on the conceptual distance between the elements of the ontology. We have proposed a hybrid finding semantic proximity of the two classes of ontology based on a comparison of URI - values and lexicographical comparison (finding semantic proximity between the same classname).

Keywords: ontology, class, similarity, comparison, method

УДК 004.021

Выделяют три способа определения семантического сходства между объектами онтологии. Первый подход определяет оценку сходства в соответствии с информационным содержанием (основанный на узлах подход). Второй подход представляет собой оценку сходства, основанную на концептуальном расстоянии (основанный на ребрах концептуального графа). Третий подход является гибридным,который сочетает в себе первые два подхода [1].

Каждый подход основывается на вычислениях некой меры сходства онтологий, к ним можно отнести меру Ву и Палмера, меру Рады, меру Эрика, мера Резника, мера Лина [2,3,4,5]. Рассмотрев их, мы приходим к выводу,что они основаны на полном переборе и совпадении элементов онтологии, либо на вычислении оценки сходства, основанной на концептуальном расстоянии между элементами онтологии.

Нами был усовершенствован метод сравнения онтологий. Близость двух онтологий предлагается вычисляется по формуле:

\[Sim(On{{t}^{1}},On{{t}^{2}})=\frac{\sum{sim({{c}_{1}},{{c}_{2}})}}{\left|On{{t}^{1}}\cup On{{t}^{2}} \right|},\]

где $sim({{c}_{1}},{{c}_{2}})$ – семантическое сходство между двумя одинаковыми названиями классов ${{c}_{1}},{{c}_{2}}$ соответственно из онтологий $On{{t}^{1}},On{{t}^{2}}$;$\left| On{{t}^{1}}\cup On{{t}^{2}} \right|$ – общее число различных классов.

Мы предлагаем гибридное нахождение семантической близости двух классов онтологии основанное на сравнении URI – значений и лексикографическом сравнении (нахождение семантической близости между одинаковыми именами классами):

\[sim({{c}_{1}},{{c}_{2}})=f\left({{w}^{URI}},{{w}^{LG}} \right),\]

где ${{w}^{URI}}$– значение URI-сравнения; ${{w}^{LG}}$ –лексикографическое сравнение.

Целесообразность использования данного метода аргументирована тем, что по отдельности методы направлены на семантический поиск за кратчайшее время, а мы рассматриваем случай улучшения релевантности ответа и при этом временем можно пренебречь [6].

Рассмотрим метод сравнения онтологий поэтапно. На первом шаге вычисляется мера близости для классов онтологии поискового запроса с классами онтологии. Под URI-сравнением понимается непосредственное сравнениеURI - рассматриваемых классов, т.е. при полном совпадении URI двух классов, они считаются идентичными и дальше проверка не проводится т.к. $sim({{c}_{1}},{{c}_{2}})$=1.

Если URI классов не совпали ${{w}^{URI}}$ =0, а названия их идентичны, переходим к лексикографическому сравнению. Под названием класса понимается значение его свойства или rdfs:class, куда согласно спецификации OWL принято помещать информацию о названии. Однако, это требование не всегда соблюдается. И в случае, когда свойство rdfs:label для рассматриваемого класса отсутствует в онтологии, в качестве название класса берется фрагмент URI. Данное сравнение заключается в нахождении семантической близости. Близость двух понятий онтологии оценивается по положению вершин, соответствующих этим понятиям в таксономической иерархии (IS-A). Мера близости такого рода основана на длине кратчайшего пути, измеряемого число мвершин (или ребер) в пути между двумя соответствующими вершинами таксономии, с учетом глубины таксономической иерархии – чем меньше длина пути между вершинами, тем они ближе:

\[{{w}^{LG}}=\log \frac{2N}{d({{c}_{1}},{{c}_{2}})}\]

где N – глубина дерева, $d\left({{c}_{1}},{{c}_{2}} \right)$ – длина кратчайшего пути между вершинами.

Таким образом у нас формируется вектор значений, в котором для каждого класса, названия которых совпали в двух онтологиях, присутствует значение меры их сходства .

Для проверки вышеизложенного метода был реализован прототип инструмента сравнения онтологий. Для превращения файлов в форматахOWL, OBO і RDF (N3, XML), которые сохраняют онтологии во бъектно-ориентированное представления использовалась библиотека OWL API Java. Общая схема процесса сравнения онтологий разработанным инструментом представлена на рисунке 1.

Рис. 1. Общая схема процесса сравнения онтологий разработанным инструментом

Список литературы

  1. DingL. Using ontologies in the semantic web: A survey / L. Ding, P. Kolari, Z. Ding, S. Avancha, T. Finin, A. Joshi. – A Handbook of Principles, Concepts and Applications in Information Systems, 2005. —P. 79 — 113.

  2. WuZ. Verb semantics and lexical selection / Z. Wu, M. Palmer // Proceedings ofthe 32nd Annual meeting of the Associations for Computational Linguistics. New Mexico: 1994. – Р. 133-138.

  3. RadaR. Development and application of a metric on semantic nets / R. Rada, H. Mili,E. Bichnell, M. Blettner // IEEE Transaction on Systems, Man, and Cybernetics.– 1989. – Vol. 19. – No. 1. – Р. 17-30.

  4. EhrigM. Ontology Mapping - An Integrated Approach / M.Ehrig, Y. Sure // Proceedingsof the First European Semantic Web Symposium. – 2004. – Greece: SpringerVerlag. – Vol. 3053 of Lecture Notes in Computer Science. – Р. 76-91.

  5. ResnikP. Semantic similarity in a taxonomy: An information based measure and itsapplication to problems of ambiguity in natural language / P. Resnik // Journalof Artificial Intelligence Research. – 1999. – Vol. 11. – P. 95- 130.

  6. Куликовская Н.А. Методы взаимодействия компонент семантической сервис-ориентированной архитектуры. Наукові праці Донецького національного технічного університету: всеукр. наук. зб..- Донецьк. Серія, Інформатика, кібернетика та обчислювальна техніка. Выпуск 1(20) - 2015.- C.39-44
Jun 10, 2016