Exler.Ru Немного о программах распознавания речи В эхоконференции RU.COMPUTER.LIFE сети Фидо недавно промелькнуло забавное письмо, которое я публикую здесь с разрешения автора:
Да, уж. Распознавалки речи. Помнится, некоторое время назад я тоже любил с ними играться. А началось все так. Купил микрофон, поставил программу и давай ее обучать особенностям моего произношения. Надо сказать, что программа обучалась весьма добросовестно и немилосердно скрипела винчестером, периодически будя кота Парловзора, спавшего на мониторе. Но результаты были неутешительными. Чтобы заставить Windows выполнить даже самую простейшую команду, приходилось долго вспоминать, как именно я произносил эту фразу в момент обучения... Но точно вспомнить удавалось не сразу. А правильно реагировать на другие интонации программа не желала. Поэтому мои первоначальные голосовые попытки общения с компьютером сильно напоминали ту картину, которую нарисовал Павел Денискин. Но тут я почувствовал, что задета гордость. Чтобы я, да не смог нечувствительно превзойти какую-то Windows? Да ни в жисть! Первый вариант был найден достаточно быстро. Оказалось, что если при обучении программы команды выдавать громко, почти криком, то в дальнейшем вероятность правильной интерпретации возрастает в несколько раз. Я быстро ввел в программу понятия "Заткнись" (свернуть окно), "Руки вверх" (открыть программу) и т.д. и т.п. и стал развлекаться. Вот только орать все время надоедало, да и домашние на мои попытки интеллектуального общения с компьютером реагировали как-то не очень хорошо. Жена-то привыкла более-менее быстро, а вот приходящие в гости родители всякий раз пугались, когда из кабинета доносились мои жуткие крики. Отец, когда первый раз услышал это безобразие, кивнул в сторону кабинета и спросил мою жену: "Он там что - пытает кого-то?" " Да нет, - ответила жена, - это он просто интеллектуально общается с компьютером". Папа промолчал, но у него явно появились сильные сомнения в моей интеллектуальности. Наконец, орать мне надоело, и я опять попытался обучить программу воспринимать команды, отдаваемые простым человеческим голосом. Выяснилось, что главное - заставить программу правильно реагировать на первое слово. И если она его восприняла нормально, то дальше можно добавлять любую чушь, на которую она просто не будет обращать внимания. А слушается это со стороны довольно забавно. Например, когда ко мне приходили знакомые, я гордо брал микрофон в рот и говорил: "Откройся, негодяйская программа, проевшая мне всю плешь", и программа действительно открывалась (реагируя на слово "откройся".) Далее я выдавал: "Ну что, наглюкавила? Закройся немедленно, чтобы я тебя больше не видел!" (программа реагировала на слово "ну что".) Разумеется, достаточно было правильно произнести только первое слово, а все остальные слова не имели никакого значения и могли меняться, создавая у приятелей впечатление, что компьютер весьма интеллектуально интерпретирует мои потоки сознания. Но я обучал программу все дальше и дальше, роя таким образом себе яму. Потому что программа распознавания речи знала уже довольно большое количество моих слов и выражений, часто реагируя на те слова, которые вовсе не являлись командой. Никогда не забуду ситуацию, когда я, демонстрируя приятелю свое голосовое общение с компьютером, выдал какую-то весьма емкую тираду, предлагая программе открыться, но тирада, как оказалось, содержала в себе массу всевозможных понятий, так что компьютер выполнил следующие действия: открыл запрашиваемую программу, немедленно закрыл ее, помотался курсором по десктопу, открыл Word, загрузил в него один из моих рассказов, полистал туда-сюда страницы, выделил блок текста, вывел его на принтер, удалил из текста, сохранил получившиеся результаты и выключил компьютер. Я даже мяукнуть не успел. Приятель тоже был поражен. Он-то не понял, что произошло, поэтому был в полном восторге. С тех пор я стал исповедывать следующий способ: микрофон все время держится выключенным, а включается только во время произнесения ключевого слова. Со стороны это все выглядит просто потрясающе. Но мне, если честно, уже давно наскучила эта забава, так что когда меня никто не видит, я общаюсь с компьютером по старинке: с помощью клавиатуры и мышки. Кстати, если вы думаете, что компьютеру было достаточно иметь всего один вариант моих команд, то вы сильно ошибаетесь. Я поначалу никак не мог понять, почему когда я просто работаю за компьютером и даю команды - машина слушается. А когда приходят друзья, мы выпиваем, а затем я пытаюсь заставить компьютер меня слушаться, он вообще не реагирует. Сначала я думал, что ему просто неприятен запах вина или вискаря. Оказалось, что он вовсе не такой чувствительный, а просто у меня голос и интонации после выпивки меняются. Кстати, это происходит далеко не только со мной. Кроме того, выяснилось, что есть еще несколько стандартных ситуаций, когда голос, тембр и интонации отличаются от стандартных. Так что пришлось создавать несколько файлов: "Леша утром", "Леша днем", "Леша вечером", "Леша выпивший", "Леша в состоянии синих крокодилов", "Леша, получивший хамское письмо e-mail-ом", "Леша, получивший приятное письмо e-mail-ом". Кстати, это оказалось очень удобно. Потому что команды можно четко привязывать к конкретной ситуации. Вот, к примеру, как выглядела команда "Открыть программу" в разных ситуационных файлах:
Одно время я очень рассчитывал на программу распознавания речи в плане голосового ввода текстов, намереваясь отвертеться от освоения слепого десятипальцевого метода по программе В.В. Шахиджаняна (http://1001.vdv.ru/solo), поэтому потратил определенное время на попытки вводить текст в компьютер через микрофон... Надо сказать, что эти попытки не были безнадежными. Кое-что она вводила. Только не совсем то, что я говорил. Точнее, совсем не то. У программы было свое отношение к тексту, и иногда мне казалось, что подлая машина просто использует меня для того, чтобы пропихнуть в рассказ или статью свои собственные мысли. Кстати, таким образом были написаны пара рассказов, которые здесь публиковались. Я специально не стал править то, что ввела программа. Интересно, вы догадаетесь, какие это рассказы, а? Теперь надо бы резюмировать, а я уже и забыл, как это делается. Короче говоря, друзья мои, используйте программы распознавания речи! Используйте! Этим вы доставите немало приятных минут и себе, и домашним, и вашим друзьям. А вот для работы все эти штучки-дрючки использовать не надо. Потому что штучки-дрючки используются для развлечения, а не для работы. Попытки извлечь реальную пользу от программ голосового управления компьютером полностью эквивалентны попыткам изучения английского языка за три дня по методу Илоны Давыдовой... или как ее там... *** Постоянный адрес: http://www.exler.ru/novels/voice.htm Copyright (э) 2003 Алекс Экслер exler@exler.ru http://www.exler.ru
Внимание! Перепечатка в Интернете и в |