Открытый корпус (OpenCorpora) — проект по созданию размечен- ного корпуса текстов на русском языке, доступного для исследователей в полном объеме и редактируемого пользователями, который призван решить проблему отсутствия подобных русскоязычных ресурсов. В статье описываются компоненты системы (хранилище, интерфейс разметки, подсистема экспорта), организация данных и жизненный цикл текста: добавление в корпус, автоматический разбор при помощи словаря, снятие неоднозначности пользователями. Большое внимание уделено минимизации порога вхождения в проект для новых пользователей.
Original languageRussian
Title of host publicationКомпьютерная лингвистика и развитие семантического поиска в Интернете:
Subtitle of host publicationТруды научного семинара XIII Всероссийской объединенной конференции «Интернет и современное общество». Санкт-Петербург, 19–22 октября 2010 г.
StatePublished - 2010
EventXIII Всероссийская объединенная конференция "Интернет и современное общество" -
Duration: 19 Oct 201021 Oct 2010

Conference

ConferenceXIII Всероссийская объединенная конференция "Интернет и современное общество"
Period19/10/1021/10/10

ID: 4589785