описание для неспециалистов

Проект ЭМПИРИОН посвящен разработке методологии и технологии формирования баз знаний на основе данных эмпирических исследований. На втором этапе сделано:

(1) Для исследования инфраструктуры для представления данных эмпирических исследований был проведён структурированный обзор онтологических ресурсов, по результатам которого было найдено 16 других онтологий, имеющих отношение к описанию данных эмпирических исследований. Эти ресурсы были разделены на три группы по их содержанию: для описания данных в целом, для описания массивов исследовательских данных, для описания массивов данных предметных областей. Онтологии из этих групп формируют кластеры, в которых модели предметных областей являются расширениями более абстрактных моделей. Данные кластеры описывают исследовательские данные вплоть до уровня переменных, однако не предоставляют инструментов для интеграции данных, позволяя описать переменные как таковые, но не связанную с ними информацию, необходимую для их интерпретации, например, единицы измерения или расшифровки списков значений переменной.
(2) Изначально структура онтологии Эмпирион следовала теориям метаданных, поэтому классы верхнего уровня являлись интерпретацией принятой классификации метаданных в приложении к описанию массивов экспериментальных данных: физическое представление массивов (класс Data), внешние метаданные ‒ описание характеристик переменных и массива (класс Metadata) и внутренние метаданные ‒ сами переменные в массиве (класс Variable). Такое структурирование, хотя и представляется теоретически оправданным, препятствовало бы интеграции онтологии Эмпирион в существующую инфраструктуру исследовательских данных, поэтому её структура была переработана так, чтобы онтология могла стать частью уже существующей инфраструктуры: заимствовано уже устоявшееся представление переменных на трёх уровнях абстракции, и дополнено информацией, необходимой для интерпретации переменных. Обновлённая версия онтологии выложена в репозиторий проекта: https://github.com/jimijimiyo/empirion. Данная онтология, в отличие от уже существующих, позволяет интегрировать переменные из разных массивов данных.
(3) В основу прототипа для полу-автоматического наполнения онтологии Эмпирион был положен метод Метеор, разработанный авторами ранее и значительно доработанный под текущие цели. Данный метод использует две вспомогательные онтологии – структуры данных (в данном проекте она была названа empirion_struct) и источников данных (meteor) и включает пять шагов: 1 ‒ идентификация источников данных, из которых будет наполняться онтология; 2 ‒ спецификация источников данных (производится вручную); 3 ‒ извлечение структуры данных (выполняется автоматически с помощью модуля, написанного на Python); 4 ‒ задание правил отображения структуры данных на классы наполняемой онтологии (производится вручную); 5 ‒ наполнение онтологии в соответствии с заданными правилами (выполняется автоматически с помощью модуля, написанного на Python). Код выложен в репозиторий проекта: https://github.com/jimijimiyo/empirion.
(4) Для обзора методов наполнения и обогащения онтологий было проанализировано более сорока статей с описанием методов наполнения онтологий из полу-структурированных данных. По результатам обзора сформирован алгоритм наполнения онтологии Эмпирион.
(5) Алгоритм наполнения онтологии Эмпирион, в соответствии с общепринятыми практиками, включает два этапа: 1 ‒ идентификация сущностей в источнике данных (knowledge discovery), на котором нужно автоматически идентифицировать переменные в массиве, которые станут экземплярами подклассов disco:Variable и их описания в сопроводительных файлах метаданных; 2 ‒ добавление выявленных сущностей в правильное место в онтологии (knowledge refinement), для чего сначала автоматически будет производиться поиск классов-кандидатов для идентифицированных сущностей, а затем найденные соответствия будут вручную верифицироваться пользователем.
(6) Помимо работы с онтологиями эмпирических было проведено исследование особенностей формирования онтологий и графов знаний «снизу вверх», как абстрактных моделей обобщения. Было проведено исследование особенностей процессов категоризации при формировании онтологий студентами, произведён анализ основных ошибок категоризации, а также был выдвинут ряд гипотез по связи этих ошибок и особенностей когнитивных стилей разработчиков. Также была продолжена работа по классификации визуальных моделей представления знаний и предложена новая таксономия таких моделей: по уровню формализации; по связи с предметной областью; по контенту; по синтаксису.

основные результаты по этапу (кратко)

Проект ЭМПИРИОН посвящен разработке методологии и технологии формирования баз знаний на основе данных эмпирических исследований. На первом этапе был произведён анализ онтологических ресурсов для интеграции данных, подготовлена первая версия онтологии для описания данных эмпирических исследований и начата разработка прототипа для наполнения данной онтологии. Текущий отчёт охватывает второй этап выполнения проекта, на котором достигнуты следующие результаты:
(1) Проведено исследование инфраструктуры для представления данных эмпирических исследований, в том числе структурированный обзор существующих онтологических ресурсов.
(2) Подготовлена вторая версия онтологии, учитывающая особенности инфраструктуры и расширяющая имеющиеся онтологии для целей описания переменных, содержащихся в данных эмпирических исследований.
(3) Доработан программный прототип для полуавтоматического наполнения онтологии.
(4) Проведён обзор существующих методов и алгоритмов обогащения и наполнения онтологий.
(5) Разработан алгоритм наполнения разработанной онтологии.
(6) Проведено исследование особенностей формирования онтологий и графов знаний "снизу вверх".
Результаты (1), (2) и (3) выложены в открытый доступ: https://doi.org/10.17632/xw288mx2ws.1 (структурированный обзор онтологических ресурсов); https://github.com/jimijimiyo/empirion (исходный код онтологии и прототипа программного обеспечения).
По результатам работ подготовлено 7 научных текстов (3 статьи, 4 публикации в сборниках конференций), из них 4 опубликованы, 3 приняты в печать.
Подробный отчёт опубликован в открытом доступе: http://dx.doi.org/10.13140/RG.2.2.20606.92489

описание вклада в работу каждого из участников (учётная форма ЦИТиС)

Гаврилова Татьяна Альбертовна: научное руководство проектом, проведение исследования особенностей формирования онтологий и графов знаний "снизу вверх", подготовка статей.
Беглер Алёна Маратовна: проведение исследования инфраструктуры, доработка онтологии, участие в разработке программного прототипа, подготовка текстов.
Лещёва Ирина Анатольевна: разработка программного прототипа, участие в подготовке текстов.
Кудрявцев Дмитрий Вячеславович: участие в исследовании особенностей формирования онтологий и графов знаний "снизу вверх", участие в подготовке текстов.
Кубельский Мирослав Валерьевич: участие в разработке программного прототипа, участие в подготовке текстов.
Ануфриев Григорий Викторович: участие в исследовании инфраструктуры, участие в подготовке текстов.

передача полной копии отчёта третьим лицам для некоммерческого использования: разрешается/не разрешается (учётная форма ЦИТиС)

не разрешается

проверка отчёта на неправомерные заимствования во внешних источниках: разрешается/не разрешается (учётная форма ЦИТиС)

разрешается
АкронимRFBR_a_2020 - 2
СтатусЗавершено
Эффективные даты начала/конца23/03/2131/12/21

    Области исследований

  • онтологии, базы знаний, интеграция данных, метаданные, массивы данных, данные эмпирических исследований

ID: 75639146