Компьютер читает по губам

29.04.2003, 15:36

Intel выпустила ПО, которое позволяет компьютеру читать по губам. Это достижение должно привести к повышению качества распознавания речи.

Программа Audio Visual Speech Recognition (AVSR) следит за лицом говорящего и движениями губ. Сопоставляя эти движения с голосом, программа может собрать достаточно данных, чтобы распознавать голосовые команды даже при наличии шумовых помех. AVSR входит в состав библиотеки компьютерного зрения OpenCV - набора приложений и инструментов с открытым исходным кодом, который помогает компьютеру интерпретировать визуальные данные.

Компьютерные компании долгие годы пытаются популяризовать приложения распознавания речи, но этому препятствовали недостаточная вычислительная мощность среднего компьютера и ограниченные возможности ПО. Но оба эти фактора быстро меняются. Быстродействие среднего процессора перевалило за 1,5 ГГц, а программисты научились лучше справляться с задачей распознавания голосовых команд.

Один из способов дальнейшего совершенствования подобных приложений - добавление в схему распознавания голоса визуального сигнала, как это делает Intel. Например, Microsoft Research разработала прототип программы GWindows, при помощи которой можно прокручивать документы или перемещать окна сочетанием голосовых команд и жестов.

Видеокамера, смонтированная на мониторе, наблюдает за перемещением таких объектов, как рука или указка, в радиусе 50 см от экрана. Программа интерпретирует все перемещения руки (или жесты указкой) как компьютерные команды: например, указание пальцем на окно и перемещение его влево означает команду передвижения окна влево. Если подаются голосовые команды, такие как scroll, компьютер сопоставляет движение пальца и эти команды и прокручивают текст. Никаких специальных перчаток не требуется.

Прототип приложения Microsoft работает лучше, чем простая система распознавания голоса, так как жесты повышают точность, рассказывает руководитель проекта Энди Уилсон. Он продемонстрировал, как компьютер выполняет голосовые команды в многолюдной, зашумленной комнате.

Такое ПО обработки визуальных сигналов частично опирается на байесову математическую статистику, которая используется и в других проектах Microsoft, связанных с интерфейсом и искусственным интеллектом. Например, если компьютер "видит" повторяющийся жест руки, указывающий влево, то он с уверенностью интерпретирует его как команду на перемещение окна влево.

Intel работает и над другими визуальными приложениями для AVSR. Одно из них использует камеры для наблюдения за пациентами больницы, определяя опасные движения, а другое выявляет потенциальных преступников на автостоянке. Принцип действия всех этих программ один и тот же: компьютер генерирует сигнал, когда обнаруживает в видеопотоке что-то необычное - замедление походки больного или человека, переходящего от машины к машине. Работа над этими приложениями и разработка AVSR ведется в китайском научном центре Intel в Пекине.

Компания выпустила также опытную версию технической библиотеки Probability Network Library для создания байесовых сетей. Окончательная версия этой библиотеки выйдет в конце года. Об этом пишет "ZDNet".

Читайте також