Программное обеспечение для распознавания речи для Linux - Speech recognition software for Linux

По состоянию на начало 2000-х годов несколько распознавание речи (SR) программные пакеты существуют для Linux. Некоторые из них бесплатное программное обеспечение с открытым исходным кодом и другие проприетарное программное обеспечение. Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для передачи рабочих команд компьютеру.

Распознавание речи в Linux

История

В конце 1990-х годов Linux-версия ViaVoice, сделано IBM, был предоставлен пользователям бесплатно. В 2002 г. бесплатный комплект для разработки программного обеспечения (SDK) удален разработчиком.

Статус разработки

В начале 2000-х годов возникла потребность разработать высококачественный механизм распознавания речи для Linux. В результате было начато несколько проектов, посвященных созданию программ распознавания речи в Linux, таких как Майкрофт, который похож на Microsoft Кортана, но с открытым исходным кодом.

Краудсорсинг речевого образца

Очень важно составить речевой корпус производить акустические модели за распознавание речи проекты. VoxForge - это корпус свободы слова и репозиторий акустических моделей, который был создан с целью сбора расшифрованной речи для использования в проектах распознавания речи. VoxForge принимает краудсорсинг образцы речи и исправления распознанных речевых последовательностей. Он лицензирован под Стандартная общественная лицензия GNU (GPL).

Концепция распознавания речи

Первый шаг - начать запись аудиопотока на компьютер. У пользователя есть два основных варианта обработки:

  • Распознавание дискретной речи (DSR) - полностью обрабатывает информацию на локальной машине. Это относится к автономным системам, в которых все аспекты SR полностью выполняются на компьютере пользователя. Это становится критически важным для защиты интеллектуальной собственности (IP) и предотвращения нежелательного наблюдения (2018 г.).
  • Удаленный или же серверный SR - передает звуковой речевой файл на удаленный сервер для преобразования файла в текстовый строковый файл. В связи с недавним облачное хранилище схем и интеллектуального анализа данных, этот метод упрощает наблюдение, кражу информации и внедрение вредоносных программ.

Удаленное распознавание ранее использовалось смартфоны потому что им не хватало производительности, работая объем памяти, или же место хранения для обработки распознавания речи в телефоне. Эти ограничения в основном преодолены, хотя серверная SR на мобильных устройствах остается универсальной.

Распознавание речи в браузере

Распознавание дискретной речи может выполняться в веб-браузер и хорошо работает с поддерживаемыми браузерами. Remote SR не требует установки программного обеспечения на настольный компьютер или мобильное устройство, поскольку это в основном серверная система с внутренними проблемами безопасности, указанными выше.

  • Удаленный: Служба диктовки записывает звуковую дорожку пользователя через веб-браузер.
  • DSR: Есть решения, которые работают только на клиенте, без отправки данных на серверы.

Механизмы распознавания свободной речи

Ниже приведен список проектов, посвященных реализации распознавания речи в Linux, и основных нативных решений. Это не приложения для конечных пользователей. Это программирование библиотеки которые можно использовать для разработки приложений для конечных пользователей.

  • КМУ Сфинкс - общий термин для описания группы систем распознавания речи, разработанных в Университете Карнеги-Меллона.
  • Юлий высокопроизводительный, двухпроходный Распознавание слитной речи с большим словарным запасом (LVCSR) декодер для исследователей и разработчиков, связанных с речью.
  • Kaldi набор инструментов для распознавания речи, предоставляемый по лицензии Apache.
  • Mozilla DeepSpeech разрабатывает движок преобразования речи в текст с открытым исходным кодом на основе исследования Baidu по глубокой речи.[1]

Возможные активные проекты:

  • Parlatype, аудиоплеер для ручной расшифровки речи для рабочего стола GNOME, начиная с версии 1.6, обеспечивает непрерывное распознавание речи с помощью CMU Sphinx.[2]
  • Лера (Распознавание речи с большим словарным запасом) на основе Саймона и CMU Sphinx для KDE.[3]
  • Речь[4] использует механизм распознавания речи Google для поддержки диктовки на разных языках.
  • Управление речью: это приложение на основе Qt, которое использует КМУ Сфинкс такие инструменты, как SphinxTrain и PocketSphinx, для обеспечения утилит распознавания речи, таких как управление рабочим столом, диктовка и транскрибирование на рабочий стол Linux.
  • Утконос[5] это прокладка с открытым исходным кодом, которая позволит проприетарному Dragon NaturallySpeaking работать под Вино для работы с любым приложением Linux X11.
  • Свободная речь,[6] от разработчика Platypus, это бесплатное кроссплатформенное настольное приложение с открытым исходным кодом для GTK, которое использует КМУ Сфинкс инструменты для обеспечения голосового диктовки, изучения языка и редактирования в стиле Dragon NaturallySpeaking.
  • Ведики[7] (Voice Enabled Desktop Interaction and Control System) - речевой помощник для среды GNOME.
  • NatI[8] это многоязычная система голосового управления, написанная на Python
  • СфинксКлючи[9] позволяет пользователю вводить клавиши клавиатуры и щелчки мыши, говоря в микрофон.
  • VoxForge - это корпус свободы слова и репозиторий акустических моделей для движков распознавания речи с открытым исходным кодом.
  • Саймон[10] стремится быть чрезвычайно гибким, чтобы компенсировать диалекты или даже нарушения речи. Он использует HTK-Julius или CMU SPHINX, работает в Windows и Linux и поддерживает обучение.
  • Джаспер проект[11] Jasper - это платформа с открытым исходным кодом для разработки постоянно работающих приложений с голосовым управлением. Это встроенный Raspberry Pi интерфейс для CMU Sphinx или Julius

Разработчики могут создавать программное обеспечение для распознавания речи Linux, используя существующие пакеты, полученные из проектов с открытым исходным кодом.

Неактивные проекты:

  • CVoiceControl[12] является независимой от KDE и X Window версией своего предшественника KVoiceControl. Владелец прекратил разработку на альфа-стадии разработки.
  • Открытая речь,[13] часть инициативы Open Mind Initiative,[14] направлена ​​на разработку бесплатных (GPL) инструментов и приложений распознавания речи, а также на сбор речевых данных. Производство закончилось в 2000 году.
  • PerlBox[15] это Perl управление на основе и вывод речи. Разработка закончилась на начальных этапах в 2004 году.
  • Xvoice[16] Пользовательское приложение, обеспечивающее диктовку и командное управление любому X-приложению. Разработка завершилась в 2009 году во время раннего тестирования проекта. (для работы требуется проприетарный ViaVoice)

Собственные движки распознавания речи

Голосовое управление и сочетания клавиш

Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для отправки рабочих команд компьютеру или устройству. Голосовое управление обычно требует гораздо меньшего словарного запаса, поэтому его гораздо проще реализовать.

Простое программное обеспечение в сочетании с горячие клавиши, имеют самый ранний потенциал для практически точного голосового управления в Linux.

Запуск программного обеспечения для распознавания речи Windows с Linux

Через уровень совместимости

Можно использовать такие программы, как Дракон Естественно в Linux, используя Вино, хотя некоторые проблемы могут возникнуть в зависимости от того, какая версия используется.[18]

Через виртуализированную Windows

Также можно использовать программное обеспечение для распознавания речи Windows под Linux. Бесплатное использование виртуализация программное обеспечение, можно запускать Windows и Естественно под Linux. Сервер VMware или же VirtualBox поддержка копирования и вставки в / из виртуальной машины, что позволяет легко переносить продиктованный текст на / с виртуальной машины.

Смотрите также

Рекомендации

  1. ^ «Реализация TensorFlow архитектуры Baidu DeepSpeech». Mozilla. 2017-12-05. Получено 2017-12-05.
  2. ^ Parlatype 1.6 выпущен 24 апреля 2019 г. http://gkarsay.github.io/parlatype/2019/04/24/v1.6.html Проверено 12 мая 2019.
  3. ^ Репозиторий Lera KDE git - (2015) - https://cgit.kde.org/scratch/grasch/lera.git/ Проверено 25 июля 2017.
  4. ^ "Андре-Луис-дос-Сантуш / Speech-app". GitHub. 2018-07-12.
  5. ^ "Шоу ботаников - Утконос". thenerdshow.com.
  6. ^ «Распознавание речи и диктовка FreeSpeech в реальном времени». TheNerdShow.com.
  7. ^ "Ведика".
  8. ^ "rcorcs / NatI". GitHub. 2018-09-24.
  9. ^ "worden341 / sphinxkeys". GitHub. 2016-07-11.
  10. ^ Саймон KDE - Главный разработчик до 2015 г. Питер Граш - (дата обращения: 04.09.2017) - [1]
  11. ^ "Джаспер". GitHub.
  12. ^ Kiecza, Даниэль. «Linux». Kiecza.net.
  13. ^ "Open Mind Speech - свободное распознавание речи для Linux". freespeech.sourceforge.net.
  14. ^ "Инициатива открытого разума". Архивировано из оригинал на 2003-08-05. Получено 2019-03-16.
  15. ^ "Perlbox.org Linux Управление речью и распознавание голоса". perlbox.sourceforge.net.
  16. ^ "Xvoice". xvoice.sourceforge.net.
  17. ^ (IAR), Реддер, Маргит (26 января 2018 г.). «KIT - Janus Recognition Toolkit». isl.ira.uka.de.
  18. ^ "WineHQ - Дракон, естественно говорящий". appdb.winehq.org.

внешняя ссылка