Открытый корпус (OpenCorpora) — проект по созданию размечен- ного корпуса текстов на русском языке, доступного для исследователей в полном объеме и редактируемого пользователями, который призван решить проблему отсутствия подобных русскоязычных ресурсов. В статье описываются компоненты системы (хранилище, интерфейс разметки, подсистема экспорта), организация данных и жизненный цикл текста: добавление в корпус, автоматический разбор при помощи словаря, снятие неоднозначности пользователями. Большое внимание уделено минимизации порога вхождения в проект для новых пользователей.
Язык оригиналарусский
Название основной публикацииКомпьютерная лингвистика и развитие семантического поиска в Интернете:
Подзаголовок основной публикацииТруды научного семинара XIII Всероссийской объединенной конференции «Интернет и современное общество». Санкт-Петербург, 19–22 октября 2010 г.
СостояниеОпубликовано - 2010
СобытиеXIII Всероссийская объединенная конференция "Интернет и современное общество" -
Продолжительность: 19 окт 201021 окт 2010

конференция

конференцияXIII Всероссийская объединенная конференция "Интернет и современное общество"
Период19/10/1021/10/10

ID: 4589785