Автоматическое извлечение коллокаций из больших корпусов русского и немецкого языков: сравнение со словарями

Project: Total grant fulfilmentR&D - Fundamental

Description

Актуальность исследования заключается в том, что применение статистических методов к большим языковым данным дает возможность по-новому взглянуть на явление сочетаемости, определяющееся как грамматическими и лексическими особенностями, так и вероятностными характеристиками. В качестве материала для исследования будут использованы корпусы большого объема (около 15 млрд слов), которые были созданы автоматически на основе текстов Интернета разных жанров. В рамках проекта будет решен ряд задач: 1) произведена автоматическая синтаксическая разметка русского и немецкого корпусов; 2) создан «золотой стандарт» сочетаемости для русского языка на основе лексикографических источников; 3) проведено автоматическое извлечение сочетаний из корпусов, в том числе на основе синтаксических отношений; 4) произведен сопоставительный анализ результатов двух языков. Синтаксический парсинг предполагается проводить при помощи программы UDPipe, которая себя успешно зарекомендовала в предыдущих экспериментах. Использование одного программного обеспечения даст возможность работать с одинаковым выходным форматом, что важно при последующей обработке данных. При оценке полученных результатов будут использоваться такие метрики как полнота, точность и F-мера.
Выбор принимающего университета обусловлен тем, что нами уже ведется сотрудничество с проф. Ш. Эвертом и его группой в направлении автоматического извлечения коллокаций. Проф. Ш. Эверт возглавляет проект, посвященный описанию коллокаций и разработке инструментов для их извлечения. В ходе совместной работы нами были подготовлены тезисы статьи, которые были приняты к представлению на международной конференции Euralex (17-21 июля 2018, Любляна, Словения). Материалы конференции будут проиндексированы в базе Web of Science. Также группой под руководством проф. Ш. Эверта осуществляется проект “E-VIEW-alation”, посвященный исследованию 20 статистических мер на примере 13 англоязычных корпусов и последующей графической визуализацией результатов. Таким образом, наша работа по изучению сочетаемости на материале немецкого и русского корпусов текстов большого объема найдет отражение в этом проекте и позволит сравнить наши результаты с теми, что были получены группой проф. Эверта.
В своих исследованиях мною был описан статистический инструментарий, применяющийся к извлечению коллокаций в русском языке, были протестированы различные меры, изучены их отличия. При автоматическом выделении сочетаний разными статистическими мерами также был применен один из методов машинного обучения, заключающийся в автоматическом подборе коэффициентов для функции логистической регрессии. Была введена метрика качества ранжирования, которая была основана на данных о рангах сочетаний по разным статистическим мерам. Также был разработан механизм лексико-синтаксических шаблонов, которые также применялись для автоматического извлечения данных о сочетаемости, что нашло отражение в ряде публикаций. В ходе предыдущей стажировки в рамках программы «Дмитрий Менделеев» мною были освоены разработанные проф. Ш. Эвертом программа UCS для извлечения коллокаций и корпусный менеджер CWB для создания списков сочетаний. Были проведены эксперименты по извлечению словосочетаний, результаты которых оказались перспективными и показали необходимость последующей оценки относительно «золотого стандарта». Вычислительные мощности, имеющие в университете Эрлангена-Нюрнберга, позволили мне провести обработку данных, требующую больших ресурсов, в том числе разметку корпусов текстов и статистическую обработку. Планируется продолжить данную работу и провести последующую ресурсоемкую автоматическую оценку с привлечением «золотого стандарта» при помощи разработанных проф. Ш. Эвертом программных средств.
В ходе работы над проектом планируется получить следующие результаты. Будут созданы синтаксически размеченные русский и немецкий корпусы текстов большого объема. Будет создан «золотой стандарт», который будет использован в разрабатываемой нами базе данных сочетаемости русского языка (http://collocations.spbu.ru). Будет произведена оценка автоматически выделенных словосочетаний относительно «золотого стандарта». Результаты будут отражены в докладах на международных конференциях и в публикациях.
Также одним из результатов поездки также станет запланированная на январь 2019 г. подача совместной заявки с немецкими коллегами на конкурс, проводимый совместно Российским фондом фундаментальных исследований и Немецким научно-исследовательским сообществом.
Результаты работы над проектом будут востребованы в специализированных корпусо-ориентированных ресурсах. Количественные данные о сочетаемости и списки выделенных сочетаний могут быть использованы при написании словарей и грамматик, при автоматической кластеризации слов и лексических конструкций, в процессе создания тезаурусов, при разрешении лексической неоднозначности, при автоматическом определении тематики текстов.

Key findings for the project

Мною были проведены консультации с проф. Ш. Эвертом по тем результатам, которые были получены его группой при извлечении коллокаций в рамках предыдущих исследований, а также в ходе выполнения предыдущего совместного исследования. Обсуждались результаты совместного доклада, с которым я выступила на международной лексикографической конференции Euralex 2018 (Любляна, Словения).
При помощи программы нами CWB были загружены русскоязычные тексты и созданы корпусы русского языка, доступ к которым может осуществляться либо через веб-интерфейс, либо через командную строку и запросы к серверу.
Была произведена обработка текстового массива «Тайга», который на данный момент является самым современным среди корпусов текстов русского языка объемом более 6 млрд словоупотреблений. Определенную сложность вызвало создание эталонного стандарта сочетаемости русского языка, который должен быть использован для оценки атоматически полученных результатов. Предварительно отобранные нами словосочетания (на материале толковых словарей русского языка: МАС и БТС) оказались несовместимыми с данными золотых стандартов для английского и немецкого языков, так как показывают ограниченную сочетаемость (например, фразеологизмы), в то время как англо- и немецкоязычные источники приводят списки высокочастотных (воспроизводимых с высокой вероятностью в речи) словосочетаний. Были изучены следующие словари устойчивых словосочетаний: Oxford Collocations Dictionary (McIntosh 2009), Feste Wortverbindungen des Deutschen (Buhofer, Dräger, Meier, Roth 2014), Wörterbuch der Kollokationen im Deutschen (Quastoff 2010). В связи с этим было принято решение о рассмотрении иных лексикографических справочников на русском языке, в которых представлен только определенный тип словосочетаний. Так, для глагольных словосочетаний типа “глагол-объект” был привлечен словарь “Устойчивые глагольно-именные словосочетания русского языка” (Дерибас 1979). Всего было извлечено 7790 пар слов. Увеличение числа эталонных словосочетаний влечет за собой повышение точности.
Из синтаксически размеченного корпуса русского языка было извлечено более 26 млн пар-кандидатов verb-noun, которые были подвергнуты последующей оценке. Словосочетания были отфильтрованы относительно глаголов, имеющихся в эталонных данных. Также были рассмотрены только те пары, в которых частота совместной встречаемости больше 5. Всего было получено около 1,5 млн словосочетаний. Подобный подход, заключающийся в двухэтапной проверке, позволяет значительно уменьшить количество true negatives.
В качестве меры для оценки результатов был использован показатель AP50 – средняя точность на 50% полноты. Эксперименты дали следующие результаты (см. Рис. 1 в отчете). Наиболее высокие значения (27,68) для русского языка были продемонстрированы коэффициентом логарифмического правдоподобия и мерой Фишера, которые обнаружили одинаковое ранжирование.
Я приняла участие в семинаре, в рамках которого проф. Т. Эръявец (Институт Й. Штефана, Любляна, Словения) выступил с докладом на тему: “MULTEXT-East: morphosyntactic resources for Central and Eastern European languages”. Проф. Т. Эръявец является высокоцитируемым ученым (индекс Хирша - 27). Проект, о котором шла речь, посвящен созданию морфосинтаксической разметки текстов в едином формате, в том числе разработан для русского и используется в морфологическом анализаторе TreeTagger. Проф. Т. Эръявец выразил заинтересованность в том, чтобы приехать в Санкт-Петербургский государственный университет и выступить с докладом. Возможно, в качестве приглашенного докладчика в рамках международной конференции по корпусной лингвистике (июнь 2019).
Результаты оказываются более чем перспективными. Так, например, мера MI показала неожиданно высокую корреляцию (использовался коэффициент корреляции Спирмена) с мерами LL, t-score и другими, что требует дальнейшего анализа.
Проведены консультации с проф. У. Хайдом (университет Хильдесхайма; Институт машинной обработки языка, университет Штутгарта), который занимается теоретическими аспектами сочетаемости (определением устойчивых морфосинтаксических характеристик) на материале европейских языков. Намечены перспективы совместной работы, проф. У. Хайд пригласил посетить его кафедру в следующем году.
Подготовлен черновой вариант статьи “Contrastive Collocation Analysis – a Comparison of Association Measures across Three Different Languages Using Dependency-Parsed Corpora” (соавторы Ш. Эверт, Т. Пройсль, П. Ухриг).
Продолжено сотрудничество с кафедрой английского языка (проф. П. Ухриг).
Планируется представление совместного доклада с проф. Б. Кабаши о сопоставительном анализе описания в словарях глагольной сочетаемости в немецком, русском и албанском языках на конференции по электронной лексикографии eLex 2019 (октябрь 2019, Синтра, Португалия).
AcronymD. Mendeleev 2018
StatusActive
Effective start/end date15/09/1815/12/18