Машины учат слова как люди, по картинкам

Системы распознавания речи, подобные тем, что преобразуют произносимые слова в текст на смартфонах, как правило, являются результатом машинного обучения. Компьютеры просматривают тысячи или даже миллионы аудиофайлов и их транскрипцию, чтобы узнать, какие акустические характеристики соответствуют написанным словам.

Но расшифровка записей является дорогостоящей, трудоемкой работой, которая используется для ограниченного ряда языков.

На прошедшей недавно конференции по «Системам обработки нейронной информации» исследователи из Лаборатории искусственного интеллекта и информатики (CSAIL) Массачусетского технологического института (МIТ) представили новый подход к обучению систем распознавания голоса, который не зависит от транскрипции. Вместо этого их система анализирует соответствие между изображениями и устными описаниями этих изображений, собранными в большую коллекцию аудиозаписей. Система узнает, какие акустические особенности записи коррелируют с определенными характеристиками изображения.

«Цель данной работы заключается в попытке учить машину языку способом, который больше нравится людям, - говорит Джим Гласс, старший научный сотрудник CSAIL и соавтор доклада с описанием новой системы. - Современные методы обучения систем распознавания речи очень контролируемые».

Больших успехов удалось добиться в системе Google Siri, но она требует дорогостоящего обучения. Поэтому она обучена распознать лишь основные языки. В мире есть 7000 языков, и, вероятно, меньше 2 процентов из них поддерживаются системами распознавания речи. Новый подход специалистов МIТ, который они применяют на протяжении нескольких лет, использует менее контролируемый способ.

Как сообщается, новая система не соотносит записанную речь с письменным текстом, вместо этого она соотносит речь с группами тематически связанных изображений.

Например, если высказывание связано с определенным классом изображений, а изображения имеют связанный с ними текст терминов, тогда, вероятно, можно найти транскрипцию произношения без вмешательства человека. Аналогично класс изображений с соответствующим текстом терминов в разных языках может обеспечить способ автоматического перевода.

И, наоборот, текстовые термины, связанные с группами подобных изображений, таких как гроза и облака, позволяют сделать вывод об их значении. Благодаря тому, что система в каком-то смысле усваивает значения слов, связанные с ними образы, а не только звуки, она имеет более широкий спектр возможностей для применения, чем стандартные системы распознавания речи.

Для проверки своей системы исследователи использовали базу данных из 1000 изображений, каждое из которых имело запись в свободной форме связанного с ним словесного описания.

Теги: CSAIL, МIТ, ИИ

Новые комментарии

Нейросеть генерирует пугающие лица под музыку

Фанатка Франкенштейна

17.09.2025

03:22:03

Привет зловещая долина!)

AGI и человек: вчера, сегодня, завтра

Гость

14.09.2025

10:04:27

Поэтому попытка создать общий ИИ подобна тому как попытка создать вечный двигатель или найти философский камень, решить задачу квадратуры круга...

Новости робототехники

Машины учат слова как люди, по картинкам

Комментарии

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

Другие статьи по теме

Категории