Управление голосом и жестами на компьютере. Голосовое управление компьютером на русском языке с помощью специальных программ

Еще до релиза находящегося на стадии разработки, тестирования и отладки интерфейса Cortana для Windows 10 пользователи пытались организовать голосовое управление компьютера. О том, как такую функцию можно реализовать в Windows, вышедших до 10-ки и поговорим в сегодняшней статье.

Cortana

Кортана – голосовой помощник с ИИ, разработанный корпорацией Microsoft для Windows 10, Phone и Android с дальнейшим распространением проекта на XBox и iOS. Она заменяет классическую поисковую строку и выполняет множество действий, в первую очередь, связанных с поиском информации и системных команд, получая их от пользователя в виде голосовых команд. Глубокая интеграция в Windows 10, отсутствие русского языка (пока что), сбор фактически всей информации о пользователе с отправкой на серверы Microsoft и отсутствие финальной версии не дают возможности большинству пользователей получить полноценное голосовое управление собственным компьютером.

Помимо Кортаны существует немало приложений, позволяющих осуществлять управление ПК посредством голосовых команд пользователя. Ознакомимся с самыми распространенными продуктами для решения этой задачи в Windows 7 и 10.

Typle

Приложение занимает лидирующие позиции среди русскоязычных пользователей, желающих командовать компьютером посредством голоса. Утилита с легкостью заменит значительную часть функций Кортаны на Windows 10, а на «семерке» добавит функцию, нередко демонстрируемую в фильмах, где люди управляют компьютерами при помощи голоса.

Перед началом работы создаем учетную запись и придумываем ключевую фразу, услышав которую приложение активируется. Затем задаем голосовую команду по управлению компьютером или выполнению определенного действия и закрепляем за ней операцию (запуск приложения, переход на указанный сайт). В окне редактирования созданных команд появляется возможность задавать параметры, с которыми приложение будет запускаться, и указать режим запуска (полноэкранный, оконный).

Функционал утилиты весьма ограничен, а интерфейсу далеко до стиля Метро, реализованного в Windows 10. Полноценное голосовое управление ПК посредством Typle реализовать не удастся: она поддерживает только открытие файлов, приложений (с аргументами) и переход по заранее заданным ссылкам. Отсутствует даже поддержка управления проигрывателем (поставить на паузу, запустить следующий трек).

Speaker

  • создание снимков состояния экрана;
  • переключение раскладки клавиатуры;
  • завершение работы Windows 7;
  • запуск приложения;
  • открытие файла.

Процесс считывания и распознавания поступающей на микрофон информации запускается после нажатия на заданную клавишу (лучше выбирайте кнопку, наименее редко используемую вами во избежание ложных срабатываний программы). На обработку, распознание речи и выполнение команды уходит достаточно много времени – 5 и более секунд, чем придется заплатить за дешевизну. Ключевые слова задаются текстом, а не словами, потому распознанная речь сравнивается уже с введенным текстом, что делается далеко не идеально. Управление проигрывателем в приложении отсутствует.

Горыныч

Разработчики программного комплекса для управления компьютером с Windows 7 и 10 являются первой отечественной командой, выпустившей приложение для решения подобного рода задач. За ядро приложения взята западная «Dragon Dictate», куда внедрили отечественный программный модуль для распознания русской речи.

Не хотели бы вы попробовать управлять вашим компьютером посредством голоса? Typle - это программа, которая идеально подходит для этой цели. Вы получите возможность настроить ваш компьютер полностью под себя, осуществляя управление им без использования периферийных устройств. Ограничений на количество команд в Typle нет. Работа с утилитой происходит следующим образом: вы выбираете файл, указывает, что необходимо сделать с ним и записываете голосовую команду. Когда утилита услышит голосовую команду, она незамедлительно совершит нужное действие. И не важно, эта команда должна открывать определенный сайт в браузере, воспроизводить плейлист или песню, или же запускать программу. Всё на ваше усмотрение, возможности не ограничены. Распознавание голоса в Typle реализовано на высоком уровне.

К примеру, нужно открыть ссылку в браузере. В верхнем меню выберите функцию «добавить». Перед вами появится окно, в котором необходимо будет выбрать файл или программу. Нажав кнопку «дополнительно», вы сможете выбрать сам файл, записать для него команду (к примеру «открыть хром») и сохранить. Далее стоит проверить работу команды. Нажмите «начать говорить» в программе и скажите команду. Интерфейс дружелюбный и полностью настраиваемый. Если вы забыли существующую команду, то её можно просмотреть и отредактировать в случае необходимости.

Распознавание речи - это простой и многофункциональный инструмент Windows, с помощью которого можно управлять компьютером, используя голосовые команды.

Вы можете настроить эту функцию для навигации, запуска приложений, диктовки текста и выполнения множества других задач. Однако, распознавание речи предназначено в первую очередь для людей с ограниченными возможностями, которые не могут использовать мышь или клавиатуру.

В этом руководстве мы предоставляем шаги по настройке и эксплуатации функции распознавания речи, чтобы вы могли управлять компьютером только голосом.

К большому сожалению, этот инструмент, как и Кортана, в нашем регионе сильно ограничен.

Однако, вы можете изменить некоторые параметры компьютера. Для этого выполните следующие действия:


Важно! Чтобы все работало должным образом вы должны использовать не локальную учетную запись, а Microsoft! Если у вас установлена версия системы для одного языка (правый щелчок по «Этот компьютер», а затем «Свойства»), то вы не сможете использовать Кортану или полноценный инструмент распознавания речи!

Для удобства все действия переведены на русский язык и сопровождаются соответствующими скриншотами на английском. Более радикальный способ, если ничего не помогло, - установка Windows для США.

Выполните следующие действия:

  1. Откройте «Панель управления».

  2. Найдите «Специальные возможности».

  3. Щелкните по ссылке «Запуск распознавания речи».

    Важно! Здесь наши пользователи сталкиваются с проблемой, поэтому нажмите на ссылку слева «Преобразование текста в речь» и сразу перейдите в раздел этой статьи как изменить настройки распознавания речи. Если у вас английский интерфейс системы, тогда смело продолжайте выполнять действия в сопровождении скриншотов на английском.

  4. На странице настроек нажмите «Далее».
  5. Выберите тип микрофона, который будете использовать.

    Примечание! Настольные микрофоны не идеальны, поэтому Microsoft рекомендует задействовать внешний микрофон или специальную гарнитуру.

  6. Нажмите «Далее». Повторите действие.

  7. Чтобы проверить работоспособность инструмента прочитайте текст вслух. Нажмите «Далее». Повторите действие.

  8. Распознавание речи имеет доступ к документам и электронным письмам. Это необходимо для того, чтобы повысить точность распознавания на основе слов, которые вы используете. Выберите параметр «Включить просмотр документов» или отключите его, если имеете проблемы с конфиденциальностью. Нажмите «Далее».

  9. Выберите режим активации: используйте «Режим ручной активации» - распознавание речи отключает команду «Остановить прослушивание». Чтобы снова включить ее, вам нужно нажать кнопку микрофона или использовать комбинацию клавиш Ctrl + Win; или «Активация голосом». Инструмент распознавания переходит в спящий режим, когда не используется. Чтобы снова включить его вам нужно вызвать голосовую команду «Начать прослушивание». Нажмите «Далее».

  10. Чтобы узнать больше о голосовых командах, которые вы можете использовать, щелкните по кнопке просмотра справочной информации. Нажмите «Далее».

  11. По желанию вы можете выбрать опцию «Автоматического запуска функции распознавания речи». Нажмите «Далее».

  12. Чтобы получить доступ к учебному руководству Microsoft щелкните по кнопке «Начать обучение» или выберите «Пропустить». В итоге вы завершите настройку.

После выполнения этих шагов можно приступить к использованию функции распознавания речи с помощью голосовых команд. В верхней части экрана появятся элементы управления.

Примечание! Вы можете перетащить и подключить интерфейс распознавания речи в любом месте экрана.

Как обучить распознавание речи и повысить точность

После завершения тренировочного процесса инструмент распознавания речи должен лучше понимать ваш голос.

Как изменить настройки распознавания речи

Если вам необходимо изменить какие-нибудь параметры, выполните следующие действия:

Шаг 1. Откройте «Панель управления».

Шаг 2. Нажмите «Специальные возможности».

Шаг 3. Выберите «Распознавание речи».

Шаг 4. Щелкните на левой панели по текстовой ссылке дополнительных параметров речи.

Шаг 5. В окне свойств на вкладке «Распознавание речи» вы можете настроить различные компоненты функции, в том числе:

Шаг 6. На вкладке «Текст в речь» вы можете управлять настройками голоса, среди которых:

Шаг 7. Кроме того, вы всегда можете открыть с помощью правой кнопки мыши контекстное меню и получить доступ ко всем различным функциям и настройкам инструмента распознавания речи.

Как использовать распознавание речи в Windows 10

Несмотря на небольшой процесс обучения, распознавание речи использует четкие и легко запоминаемые команды. Например, «Пуск» открывает соответствующее меню, а «Показать рабочий стол» сворачивает все окна.

С помощью функции распознавания речи вы можете выполнить необходимые задачи.

Запуск инструмента распознавания речи


Включение и выключение

Чтобы использовать эту функцию, в зависимости от конфигурации нажмите кнопку микрофона или скажите «Начать прослушивание».

Таким же образом вы можете отключить его, сказав «Стоп» или нажав кнопку микрофона.

Использование команд

Одними из наиболее часто используемых команд являются:

  • «Открыть» (Open) - запускает приложение после озвучивания слова «Open», за которым следует имя приложения. Например, «Open Mail» или «Open Firefox»;
  • «Переключиться на» (Switch to) - переход к другому запущенному приложению. Произнесите команду «Переключиться», за которой должно следовать имя приложения. Например, «Switch to Microsoft Edge»;
  • управление открытым окном. Чтобы управлять активным окном используйте команды «Свернуть», «Максимизировать» и «Восстановить» (Minimize, Maximize и Restore);
  • прокрутка (Scroll). Позволяет прокручивать страницу. Просто используйте команду «Scroll down» («Прокрутить вниз») или «Scroll up» («Прокрутить вверх»), «Scroll left» («Прокрутить влево») или «Scroll right» («Прокрутить вправо»). Также можно указать длинное прокручивание. Например, произнесите: «Scroll down two pages» («Прокрутить вниз две страницы»);
  • закрытие приложений (Close). Произнесите команду «Close» («Закрыть»), а затем имя запущенного приложения. Например, «Close Word» («Закрыть Word»);
  • клики (Click). Внутри приложения вы можете использовать команду «Click» («Щелчок»), за которой следует имя элемента. Например, в Word вы можете сказать «Click Layout» («Щелчок по макету»), и распознавание речи откроет вкладку «Макет». Аналогичным образом можно использовать команды «Double-click» («Двойной щелчок») или «Right-click» («Правый щелчок»);
  • нажатие (Press) . Эта команда запускает горячие клавиши. Например, чтобы открыть «Центр действий» произнесите «Press Windows A» («Нажать Windows A»).

Использование диктовки

Распознавание речи также включает в себя возможность преобразования голоса в текст с использованием функции диктовки, и работает автоматически.


Помощник Microsoft a.k.a Кортана (Cortana)

Чтобы оправдать ожидания пользователей и продемонстрировать конкурентоспособность в сравнении с такими компаниями, как Apple, Google или Amazon, Microsoft представила собственного умного помощника Кортана.

На ранних этапах он считался одним из лучших искусственных помощников, но утратил свой статус после проигрыша мобильной версии Microsoft в битве с Android и iOS. Тем не менее здесь мы имеем в виду Windows 10, поэтому Кортана и сейчас вполне жизнеспособный инструмент.

Надеемся, что со временем он улучшится. Кортана пригодится в том случае, если вы хотите запускать свой компьютер без каких-либо голосовых команд.

Вот как включить и настроить ее для последующего использования в Windows 10:

  1. Нажмите «Пуск» и откройте «Все приложения».

  2. Найдите Кортану и откройте ее.

  3. Снимите переключатель на «Использовать Кортану». Нажмите «Да» или «Нет, спасибо», в зависимости от того, хотите ли вы, чтобы голосовой помощник отслеживал ваши данные (так он лучше вас узнает) или нет.

  4. Теперь, когда вы включили Кортану, нажмите «Windows+S» или щелкните по шестеренке, находящейся слева.
  5. Включите «Эй, Кортана» и настройте свой микрофон. Вы можете разрешить помощнику реагировать, когда кто-нибудь скажет «Эй, Кортана» или заставить его отвечать только на ваши голосовые команды.

  6. Выйдите из настроек и попросите о чем-нибудь своего цифрового помощника.

  7. Поищите в Интернете список доступных команд и задач, которые может выполнять Кортана.

Видео — Как включить Microsoft Cortana в Windows 10

Коллекция сторонних программ

Помимо встроенного инструмента распознавания речи и голосового помощника Кортана, некоторые пользователи могут обратиться к сторонней альтернативе. Поскольку это категория программ находится в постоянном развитии, на рынке существуют различные продукты, совместимые с Windows 10. Единственный вопрос - это ваши потребности и пожелания.

Некоторые из программ, такие как:

  • Typle отличная программа для управления голосом на компьютере, простой русскоязычный интерфейс;
  • Dragon от производителя Nuance, специализируются на быстрой диктовке и в целом на преобразовании речи в текст;
  • Voice Attack, предназначены для голосового управления игровым процессом (да, вы можете перезагрузить оружие в Call of Duty с помощью голосовой команды);
  • еще одна неплохая утилита - VoxCommando. Чаще всего используется в мультимедийных программах, таких как Kodi или iTunes, но также может быть полезной при автоматизации домашних устройств.

Голосовое управление компьютера с помощью программы Typle

  1. Скачайте программу и установите на компьютер, следуя инструкции установщика.

  2. Интерфейс программы простой и понятный. При приветствии в окне программы есть подсказки для пользователя. Для начала нажмите кнопку «Добавить».

  3. В открывшемся окне введите в поле свое имя, далее введите команду, затем нажмите на кнопку записи и произнесите команду голосом. Нажмите кнопку «Добавить».

  4. Нажмите кнопку «Добавить».

  5. Отметьте галочкой необходимый пункт. Выберите программу, нажмите красную кнопку и произнесите эту команду вслух. Затем нажмите «Добавить».

  6. Вы увидите созданную команду, для проверки нажмите «Начать говорить» и произнесите эту команду. Если все работает таким же образом добавляете остальные команды.

Попробуйте TalkTyper

Это онлайн-приложение, которое позволяет диктовать текст, а затем предлагает несколько базовых вариантов того, что с ним делать. Любителям минимализма оно точно понравится.


Вы можете скопировать начитанное в буфер обмена, отправить по электронной почте, напечатать, твитнуть и перевести на другой язык. Чтобы перевести текст просто нажмите кнопку, и выберите язык перевода. TalkTyper автоматически откроет в браузере новую вкладку с текстом, вставленным в переводчик Google.

Обратите внимание на Tazti

Tazti выделяется среди других программ двумя отличительными особенностями:

  • вы можете использовать приложение для управления компьютером и играми с помощью голосовых команд. И если у Tazti нет нужной вам команды, ее можно создать (и еще 299);
  • программа способна запускать установленные приложения, вебсайты, каталоги или использовать командную строку.

Настраивайте Tazti по своему усмотрению. Если вам не нужна команда, тогда отредактируйте ее или полностью удалите. Вы даже можете добавить команды «щелчок» и «двойной щелчок», чтобы избавиться от необходимости использования мыши.

Тем не менее у Tazti есть один большой недостаток - она не имеет функции диктовки текста, поэтому не способна распознавать голос. Разработчик Voice Tech Group признает, что другие продукты намного лучше справляются с диктовкой, поэтому компания решила сосредоточить все усилия на других особенностях своего детища.

Tazti больше ориентируется на геймеров, которые хотят использовать свой голос для отправки персонажей на битву или тех, кто предпочитает запускать программы, медиаплееры и просматривать веб-страницы без необходимости использования клавиатуры. Тот факт, что вы можете контролировать важные части Windows с помощью Tazti, делает его достойным противником вышеупомянутых приложений, даже если и не предлагает диктовку.

Важно! Программа имеет пробный 15-дневный период. После этого нужно заплатить 40 долларов.

Итак, если распознавание речи или Кортана не соответствуют вашим требованиям (или вы попросту не можете ими воспользоваться), тогда попробуйте вышеперечисленные утилиты.

Видео — Обзор программы Typle

Лидером среди программ для голосового управления компьютера на русском языке является программа Горыныч 5.0. В прочем английский язык также подвластен данной программе. С помощью «Горыныча» можно задавать различные голосовые команды компьютеру: запустить программу, закрыть окно, создать новый документ, перезагрузить или выключить компьютер. Фактически голосовым управлением вы контролируете большинство процессов пользовательской работы в системе Windows без помощи клавиатуры и мышки. Голосовое управление программы позволяет набирать текст на компьютере без использования клавиатуры и мышки. Но здесь возникает несколько нюансов. Один из плюсов программы Горыныч это слушаться голоса только своих хозяинов. И для этого нужно предварительно настроить программную базу команд. Нужно самостоятельно научить своим голосом русскому языку Горыныча. С помощью микрофона вы формируете свой словарь записываемый именно вашего с голоса. Команды голосового управления компьютером могут быть пользовательские, но для набора документов приодеться приложить усилия, чтобы сделать базу богатой словарным запасом. Поэтому для голосового набора все же лучшим решением будет онлайн-серис от Google.

Полезные программы для голосового набора текста на компьютере с поддержкой русского языка.

Горынычем лучше других программ русским голосом управлять компьютером, а голосовой набор текста рекомендуется производить в онлайн-приложении Google Web Speech. Оно доступно только для браузеров Chrome. Web Speech поддерживает 32 языка (среди них даже японские и китайские иероглифы). Для того чтобы напечатать текст с помощью колоса нужен только интернет, браузер Chrome и микрофон. Русский язык программа прекрасно понимает и выдает результат целыми словами переводя устную речь в печатный текст. Сейчас уже закончились разработки платного приложения для аудио и даже видео распознании речи компьютером. Программа RealSpeaker способна распознать не только голос, но и мимику пользователя. Для ее использования подойдет обычная веб-камера с помощью, которой программа будет «читать по губам» пользователя компьютера. Такой подход повышает эффективность во голосовом управлении с помощью преобразования не только речи, но и мимики в текстовые команды. RealSpeaker уже сегодня имеет поддержку русского и еще 10 популярных языков. Программа рассчитана для платформ Windows7 / 8. После инсталляции программу следует настроить. Голову нужно держать ровно, нежелательно допускать частых потерь контакта лица с веб-камерой. Расстояние от веб-камеры желательно не превышать 40-ка см. Присутствует словарь с русским языком, который можно расширить. Но в целом, по сравнению с Горынычем, RealSpeaker более удобен для преобразования голоса в текст.

Работая над голосовым управлением компьютеров, было создано много программ.

Распознанием речи с помощью компьютера программисты-разработчики посвящали свои труды голосовому управлению еще со времен Windows 95. За это время было создано много программ для русского голосового управления компьютера и преобразования речи в текст. Среди них набрали популярность такие программы:

  • Диктограф 5;
  • Перпетуум мобиле;
  • КОМБАТ Vocative Russian ASR Engine.

Для английской речи были популярными программы:

  • MedSpeak;
  • Sakrament ASR Engine;
  • ViaVoice;
  • Voice_PE;
  • Lucent;
  • VoiceType;
  • Sakrament;
  • Voice Xpress Pro;
  • iVoice;
  • Philips FreeSpeech 98;
  • SR-TTSC.

На сегодняшний день программы лидеры в данной области:

  • Горыныч 5;
  • Web Speech;
  • RealSpeaker;
  • Dragon (только для английского языка).

Эти четыре программы выдают наиболее оптимальный результат в компьютерном преобразовании речи в команды и текст. Можно сказать, что особо выбирать нет из чего. Проблема речевого преобразования в компьютерные команды и текст является все еще актуальной. Это пока еще свободная ниша для программистов-разработчиков. Еще очень мало создано достойных продуктов в этой отрасли.