статья Вавилонские молчальники

Максим Борисов, 29.10.2006
"Вавилонская рыбка" babelfish с сайта www.pinkertonfx.com

"Вавилонская рыбка" babelfish с сайта www.pinkertonfx.com

Группе специалистов по системам компьютерного распознавания речи, которую возглавляет Таня Шульц (Tanja Schultz) из американского Университета Карнеги-Меллона (Carnegie Mellon University - CMU) в Питтсбурге (штат Пенсильвания), удалось создать устройство, которое любого человека может превратить в полиглота.

Вавилонская рыба

Устройство снабжено специальными электродами, которые прикладываются к лицу и шее человека, возжелавшего стать на время "медиумом", и способны выделять и интерпретировать особые последовательности электрических импульсов, посылаемых лицевым мускулам и языку во время произнесения слов. А дальше в дело вступает переводчик с синтезом речи. Эффект получается потрясающий - вроде дубляжа фильма на иностранный язык, только в жизни (в скобках позволим себе усомниться: ведь даже при том, что особым качеством текста современные электронные переводчики похвалиться не могут, а собственно распознавание речи находится еще в зачаточном состоянии, нужно помнить, что качественный дубляж подразумевает синхронизацию артикуляции героя на экране и произносимой за кадром иноязычной речи).

В принципе, уже существуют и кое-как работают системы трансляции (электронные переводчики-синхронисты), основанные на автоматическом программном распознавании речи, но они требуют, чтобы пользователь проговаривал всю фразу вслух. Это делает разговор двух разноязычных собеседников весьма некомфортным, поскольку говорящий должен сначала произнести фразу, а уж затем нажать на какую-нибудь кнопку, чтобы запустить процесс перевода. Новая же система обеспечивает более "естественный" режим обмена мыслями между двумя представителями разных стран.

В октябре 2005 года Шульц и ее коллега Алекс Вэйбель (Alex Waibel) уже демонстрировали первый автоматический переводчик, который мог улавливать электрические сигналы от лицевых мускулов и преобразовывать их в текст или синтетическую речь. Эта методика получила громкое название "распознавания мысленной речи" (sub-vocal speech recognition). Демонстрационная программа запускалась на ноутбуке, и таким образом удавалось перевести речь китайца на английский или испанский язык. Словарный запас электронного переводчика при этом ограничивался лишь сотней слов. И каждой из этих бесценных языковых единиц из поистине "людоедского" словаря компьютер должен был еще предварительно "обучаться" в индивидуальном порядке.

Теперь же группа разработала программу, способную без предварительного обучения работать с фактически неограниченным словарным запасом - ведь ее словарь состоит уже не из целых слов, а из отдельных фонем, из которых слова потом и складываются. Чтобы переводить с английского на другой язык, пользователь должен обучить систему различению всего 45 фонем, применяемых в реальном разговоре (на самом деле "фонемы", что используются в программах распознавания речи, отличаются от тех, что известны нам по курсу русского языка).

Программное обеспечение написано таким образом, что учитывает вероятность появления той или иной фонемы вслед за уже прозвучавшей - это помогает улучшить точность распознавания (при неясностях в произношении выбирается тот вариант, что в данном конкретном случае обладает наибольшим приоритетом). Конечно же, для реального повсеместного употребления такая система нуждается еще в долгом совершенствовании. Так, сталкиваясь с последовательностью слов, которая раньше еще не встречалась, компьютер делает правильный выбор лишь в 62 случаях из ста. Однако и это уже на современном этапе признается "очень существенным достижением". Как только удастся увеличить точность распознавания, разработчики планируют добавить в свою программу нормальную двухстороннюю поддержку испанского и немецкого языков.

Сама Таня Шульц считает, что в будущем сенсоры будут не приклеиваться к телу, а имплантироваться человеку под кожу. Тогда можно не только беспрепятственно общаться на иностранных языках, но и пользоваться "беззвучным телефоном", разговор по которому не слышен окружающим.

Babel Fish для устной речи

В настоящее время большинство пользователей весьма скептически относится к усилиям программистов, направленным на создание очередной "речевой игрушки", малоприспособленной для серьезных применений (об этом говорит "популярность" программ для распознавания речи), однако не нужно забывать, что в некоторых специфических случаях "распознавалки", как и электронные переводчики, все-таки незаменимы: это когда требуется хоть как-то понять смысл информации, поступающей на незнакомом языке, а обращаться к профессиональным переводчикам либо нет времени, либо просто нежелательно (допустим, это грозит нарушением конфиденциальности встречи). Возможно, новая система пригодится также и людям с какими-нибудь физическими недостатками...

В этом смысле новую разработку считают естественным продолжателем дела популярного сетевого сервиса Babel Fish. Эта служба была запущена в 1997 году компанией Alta Vista, а теперь она принадлежит поисковику Yahoo!, интегрировавшему переводчик в собственные продукты Search и Toolbar. Babel Fish работает с английским, испанским, французским, немецким, португальским, итальянским, русским, греческим, голландским, японским, а также упрощенным и традиционным китайским языками, позволяя переводить порции текста, насчитывающие 150 слов.

В России самыми популярными программами-переводчиками считаются ПРОМТ (соответствующий онлайновый сервис установлен на сайте www.translate.ru) и (похоже уже вымирающий) "Сократ".

Дела вавилонские

Первый серьезный прорыв в области речевых технологий удалось совершить в 1986 году в знаменитом американском Агентстве перспективных исследований Министерства обороны - DARPA (Defense Advanced Research Project Agency). В технологиях распознавания речи нашли применение так называемые "скрытые марковские модели" (Hidden Markov Model, HMM), основанные на свойствах вероятностной цепи Маркова. Андрей Андреевич Марков (старший, 1856-1922) - известный русский математик, специалист по теории чисел, теории вероятности и математическому анализу. В изученном им марковском процессе параметры системы зависят только от предыдущего состояния и "не помнят" остальной своей предыстории. Генерация последовательности определенных детерминированных символов происходит при переходах между некоторыми состояниями вероятностного характера. Имея последовательность символов, сгенерированную такой моделью, можно однозначно восстановить породившую ее последовательность состояний, поскольку системы, рассматриваемые в теории цепей Маркова, могут переходить из одного состояния в другое только во вполне определенные моменты времени.

В процессе цифровой обработки спектр речевого сигнала логарифмируется, подвергается обратному преобразованию Фурье, в результате чего отыскивается с десяток первых коэффициентов, несущих наиболее существенную информацию об огибающей спектральной характеристике. Собственно, современные развитые коммерческие программы распознавания речи и различаются именно способом реализации механизма выбора из своей (или созданной пользователем) базы данных наиболее вероятного набора фонем (то есть минимально значимых элементов, из которых состоит слово), породивших конкретные измеренные векторы параметров.

Программы для диктовки текстов первоначально могли понимать только так называемую "раздельную" речь. То есть после каждого произнесенного слова требовалось сделать небольшую паузу. Такая манера говорить неестественна - в процессе обычного человеческого разговора интенсивность звука практически никогда не падает до нуля (в этом можно убедиться, разглядывая спектрограмму). Первые коммерческие программы, позволяющие в процессе диктовки текстов общей тематики - то есть при использовании обширного словаря - распознавать слитную речь, появились только в 1997 году. Разумеется, рабочий компьютерный словарь охватывает лишь небольшую часть всей лексики. В настоящее время практикуется подключение специализированных (медицинских, технических) словарей, вводимых в работу по желанию пользователя.

Впрочем, даже больше, чем обилие используемых лексем, на сложность распознавание влияет сама манера ведения разговора. Непринужденную беседу с относительно небольшим количеством используемых лексических единиц запротоколировать гораздо сложнее, чем размеренный диктант - проблема прежде всего в вариативности и наличии большого количества различных смысловых оттенков самых простейших конструкций. А короткие слова по сравнению с многосложными вообще распознаются с большим количеством ошибок. Серьезнейшая проблема - одно-двухбуквенные слова. Заставить компьютер различать английские 'a' и 'an' можно только обращаясь к контексту всей фразы. Расшифровка диктофонных записей, компьютерное стенографирование конференций, обсуждений - задача, к решению которой только приблизились создатели ПО для распознавания речи. По заявлениям разработчиков компаний Dragon Systems, IBM и Lernout & Hauspie, создавших свои варианты "распознавалок", компьютер (при непрерывной диктовке) способен правильно распознавать до 95% текста. А для комфортной работы требуется довести точность распознавания до 97%.

Разработка DARPA TransTac и ее предшественник под красноречивым названием Babylon ("Вавилон"), на которого ссылается на своей домашней странице Таня Шульц, своей целью, как нетрудно догадаться, ставит создание автоматического двухстороннего переводчика, пригодного для использования в боевых условиях. Перед "строителями Вавилона" стоит ряд проблем, связанных с распознаванием речи в шуме боя, грамматическим разбором и извлечением семантических конструкций, а также увеличением быстродействия автоматических переводчиков и повышением точности их срабатывания. Новая технология подразумевает перевод не каждого слова в отдельности, а смысла всей фразы. Для того, чтобы подобно человеку-слушателю в сомнительных случаях полностью восстановить фразу, необходимо понимать ее смысл, что доступно будет, возможно, только будущим системам, снабженным искусственным интеллектом. Различного рода ухищрениями, вроде ведения статистики словосочетаний или определения предпочтительной темы сообщения, удается повысить вероятность правильного распознавания, но вопрос о том, сколь далеко можно будет продвинуться в этом направлении, остается открытым. Чтобы осуществлять полноценный перевод, компьютер также должен понимать, а не просто распознавать речь, и в этом смысле решения проблем распознавания и перевода движутся параллельными курсами. Возможно очередной прорыв будет связан с ведением обширных баз данных и экспертных систем или все пойдет путем использовании искусственных нейронных сетей (применяемых в комбинации с моделями Маркова). Соответствующие исследования ведутся в разных странах, в том числе и в России.

Конечно же, все эти достижения компьютерной обработки речевых сигналов могут применяться не только для того, чтобы улучшить взаимопонимание между рядовыми представителями разных стран... Ряд европейских парламентариев до сих пор безуспешно добивается контроля над центром прослушивания Менвич-Хилл Агентства национальной безопасности (АНБ) США, что расположен в Англии, недалеко от Йоркшира. Первоначально центр, созданный при поддержке британской разведки MI 5, предназначался для анализа информационного трафика из СССР, но ныне, как следует из отчета технической службы Европарламента, осуществляет перехват всех европейских телефонных разговоров, факсов и электронной почты. Система распознавания речи используется для выделения ключевых слов, при наличии которых автоматически включается запись разговора с последующим перенаправлением записи для проверки в американское отделение АНБ.

Источники:
It's the next best thing to a Babel fish - New Scientist
'Tower of Babel' translator made - BBC News
Language Translator Being Developed By U.S. Scientists - All Headline News
Device promises ability 'to speak in tongues' - InTheNews.co.uk

Ссылки:
Переводчик в кармане - Der Spiegel (перевод - "Профиль")
Языковой барьер скоро исчезнет - "Компьютерра"
Языковые барьеры разрушила наука - "Утро"
Наука поможет взять любой языковой барьер - Blotter
Длинные уши "старшего брата" - "Русская Германия"
Некоторые подробности о программах для распознавания речи есть в статье, опубликованной в журнале CTI #2-3 за 1999 год, перепечатка в сети - ПО для распознавания речи, какое-то обсуждение - здесь.

Максим Борисов, 29.10.2006


новость Новости по теме