Под напором ежедневной лавины информации ЦРУ внедряет новую технологию "добычи данных", позволяющую находить ценные сведения в тысячах тонн словесной руды на многих языках.
Разведывательному агентству приходится просеивать горы информации из тайных и открытых источников в самых разных форматах: текст на бумаге, цифровой текст, изображение, аудио и другие - более чем на 35 языках. Поиском решения "проблемы масс" занимается отдел Advanced Information Technology (AIT) Директората науки и технологии ЦРУ. "Мы развиваемся не так быстро, чтобы поспеть за стремительным ростом информационных потоков, стекающихся сюда каждый день, - сказал директор AIT Ларри Ферчайлд (Larry Fairchild) в интервью, проходившем в подземном демонстрационном зале в штаб-квартире Центрального разведывательного управления. - Мы должны снабжать сотрудников технологией, которая поможет им справиться с гигантскими объемами оперативно обрабатываемых данных".
Один из инструментов, называемый Oasis, конвертирует телевизионные и аудиосигналы в текст. Он способен с большой точностью воспроизводить произносимую с акцентом английскую речь, различая голоса. Рядом с расшифрованными предложениями на экране проставляются пометки: "Мужчина 1", "Женщина 1", "Мужчина 2" и т.д. Если один голос пометить именем, например, Osama bin Laden, компьютер будет проставлять это имя везде, где появляется данный голос. Если возникает подозрение на ошибку, достаточно щелкнуть мышью, чтобы прослушать реальную речь. Например, во время демонстрации в фразе, расшифрованной как latest danger from hell, при прослушивании можно было разобрать: "latest danger from el nino".
Программа сокращает время, уходящее у оператора на расшифровку получасовой радиопередачи, с 90 минут до 10. При поиске система учитывает слова с похожими значениями. Например, словосочетание car bombing будет помечено как "терроризм" и найдено при поиске по этому ключевому слову. ЦРУ планирует использовать версии Oasis для других языков, таких как арабский и китайский. Сейчас ЦРУ использует эту систему для своей информационной службы в одном из азиатских городов и в этом году намерено внедрить ее в других регионах, таких как Ближний Восток.
Еще одно средство автоматизации, FLUENT, позволяет производить компьютерный поиск документов на языках, неизвестных пользователю. Указывая в поле поиска английские слова, такие как nuclear weapons, он может искать документы на русском, китайском и арабском языках. Затем система переводит документ на английский и, если он признается полезным, эксперт может направить его переводчику для более точного перевода. FLUENT поддерживает китайский, корейский, португальский, русский, сербо-хорватский и украинский языки.
Для точного обнаружения ключевой информации из разнообразных потоков данных и выявления незаконных финансовых операций применяются инструменты "добычи данных". Впервые они были созданы в помощь работавшим в Ираке экспертам ЦРУ, которые анализировали архивы, содержащие 1,2 млн. документов о военных преступлениях, восходящих к 1979 году. Инструмент Text Data Mining индексирует все слова всех документов, и если аналитика, например, интересует, применялась ли в Ираке в качестве оружия сибирская язва, то по индексу это легко проверить. Инструмент учитывает и встречаемость слов, а также разные варианты написания иракских географических названий и имен. Существует также технология аннотирования - автоматического составления кратких описаний сути документов.
Помогут ли эти технологии в поиске шпионов, которых в последнее время так много расплодилось в столице США? Ферчайлд отвечает на этот вопрос утвердительно, хотя и не вдается в подробности. "Мы ищем наиболее эффективные технологии, которые помогут нам в этом деле", - сказал он. Другой официальный представитель разведки на условиях анонимности сообщил: "Уж если в открытых источниках копают с помощью таких инструментов, то можете себе представить, какие методы используются для ловли шпионов!"
По информации "ZDNet".