Системы распознавания речи, которые преобразуют речь в текст на мобильных телефонах, как правило, являются результатом машинного обучения. Но расшифровка акустических параметров является дорогостоящей и трудоемкой работой, которая имеет ограниченные средства распознавания речи для небольшой группы языков, на которых говорят в развитых странах. Теперь исследователи из Лаборатории информатики и искусственного интеллекта Массачусетского технологического института разработали новый подход к обучению систем распознавания речи, который не зависит от транскрипции. Вместо этого система анализирует соответствие между изображениями и разговорными описаниями этих образов. Затем система распознает, какие акустические особенности записи соотносятся с характеристиками, которые представлены на изображениях.
Отмечается, что новая звуковая система распознавания превосходит своих предшественников и не требует ручного «комментирования» данных, вводимых в компьютер. В ходе тестирования системы было установлено, что она на 13-15% точнее других систем и может распознавать речь лишь немногим хуже человека – система произвела правильную идентификацию в 74% случаях, тогда как люди справлялись с 81%.