Украинско-русский параллельный текстовый корпус

01.09.2010, 12:24
Украинско-русский параллельный текстовый корпус
В Информационном центре ElVisti создан выровненный на уровне предложений украинско-русский параллельный текстовый корпус из веб-публикаций. Объем корпуса - более 2,6 млн. пар уникальных предложений.

Метод построения корпуса базируется на использовании "опорных слов" в тестовых документах, а также средствах их автоматического перевода. Опорные слова в рамках данного подхода выделяются с использованием русского и украинского морфологических словарей, а также словарей переводов имен существительных для русского и украинского языков. Кроме того, для вычисления весов терминов в документах используются некоторые дополнительные эмпирико-статистические правила. Для выравнивания параллельного корпуса на уровне предложений использовались преимущественно статистические методы.

Алгоритмы были реализованы в виде программного комплекса, который интегрирован с системой контент-мониторинга InfoStream, благодаря чему корпус постоянно пополняется.

Предполагается дальнейшее использование данного лингвистического ресурса для создания системы автоматического перевода новостных сообщений.

Для интернет-пользователей обеспечена возможность поиска в этом корпусе в режиме онлайн.

Для скачивания на сайте http://ling.infostream.ua/ доступен заархивированный фрагмент параллельного корпуса размером в 100 тысяч пар уникальных предложений (в ZIP-архиве ~ 9 МБ). Формат представления данных приближен к XML. Использование этого фрагмента корпуса в научных и учебных целях - свободное.
Инф. ИЦ "ЭЛВИСТИ".

Читайте також