Basis Technology создала ПО для анализа арабских текстов

10.03.2003, 13:14

Атака на Нью-Йорк 11 сентября 2001 г. заставила американские спецслужбы внимательнее относиться к текстам и сообщениям на арабских языках. Теперь им в этом послужит подспорьем новое ПО от Basis Technology.

Компания Basis Technology выпускает ПО для обработки текстов на всех языках мира. Ее программы распознают и анализируют языки, проверяют алфавиты на совместимость с Unicode и проводят многоязыковой поиск в документе.

Арабский язык - один из самых трудных для компьютерного анализа, особенно по части поиска данных. Зачастую арабские слова уже несут в себе грамматические элементы, определяющие вид глагола, спряжение, лицо, число, род и др. В итоге, текст на арабском приходится "нормализовать", чтобы обеспечить индексирование, поиск по ключевым словам и другие операции. К тому же, своеобразное использование или полное отсутствие гласных вносит дополнительные трудности.

Arabic Language Analyzer (ARLA) представляет собой программный механизм, позволяющий обрабатывать документы, написанные на арабском языке. ARLA легко интегрируется с существующими системами поиска. ARLA выполняет орфографическую и лексическую нормализацию текста, включающую удаление таких частей речи, как союзы, предлоги и местоимения, которые усложняют поиск. В программе используются сложный лингвистический алгоритм и специальная лексика для перевода числительных (включая сложные) в формы единственного числа.

Созданный по заказу спецслужб Arabic Language Analyzer расширит возможности американских "органов" в предотвращении возможных террористических атак. Сейчас спецслужбы США испытывают трудности при анализе информации на арабском языке, так как имеющиеся средства ориентированы на латинский алфавит и американскую таблицу кодировки символов. Транскрибирование, выполняемое переводчиками-людьми, часто приводит к разным толкованиям и усложняет обработку текстов. Например, имя главы Ливии Муамара Каддафи имеет около тридцати(!) вариантов написания латиницей.

Ранее Basis Technology, в штате которой насчитываются всего 50 человек, выпустила инструменты для работы с китайским, корейским и японским языками, сообщает "Компьюлента".

Читайте також