Консалтинговая группа "Текарт" - центр компетенции "Робототехника".

Подробнее...
Основное меню
Категории новостей
Логотип

Кибер-речь: в ДВФУ займутся оцифровкой русского языка

В Школе цифровой экономики Дальневосточного федерального университета (ШЦЭ ДВФУ) создадут цифровой корпус русского языка для обучения машин, нейросетей и разработки синтетической личности на основе искусственного интеллекта.

Проект реализуется в Лаборатории машинного обучения ШЦЭ ДВФУ на базе магистерской образовательной программы «Искусственный интеллект и большие данные». Электронный сбор заявок на участие в первом этапе работы будет открыт в сентябре.

Одним из первых продуктов по итогам проведённой работы станет цифровой менеджер — синтетическая личность на основе искусственного интеллекта, способная поддерживать сложные диалоги с пользователем, задавать наводящие вопросы, находить неочевидные ответы и круглосуточно решать сервисные задачи. На подобном принципе можно будет построить работу call-центров, систем обучения языкам, переводчиков, различных экспертных систем, систем управления сложными машинными механизмами.

«Мы уже начали разработку синтетической личности в партнёрстве со «Сбербанком», что и привело к постановке более глобальных задач. Серьёзным вызовом стало отсутствие качественно размеченной базы русского языка для обучения нейросетей. Мы планируем ответить на него вместе с нашим техническим партнёром по машинному обучению — компанией «Нейросети Ашманова». Она предоставит нам технологию цифровой разметки материала. Результаты нашей совместной работы мы поэтапно будем передавать для открытого использования всем заинтересованным сторонам». — Рассказал Илья Мирин, директор Школы цифровой экономики ДВФУ.

Эксперт объяснил, что фактически речь идёт о подготовке академического корпуса русского языка, аналоги которого в глобальном масштабе существуют только для английского и французского языков. Самый главный шаг на этом пути – собрать аудио-корпус и разметить его специальным образом, понятным машине. Сбор материала будет происходить через сайт и мобильное приложение.

«Это чрезвычайно объёмная работа с перспективой на много лет. Однако первичный этап накопления языкового материала мы в ШЦЭ планируем завершить уже через год, после чего приступим к его оцифровке». — Пояснил Илья Мирин.

На первом этапе к работе будут привлечены волонтёры из числа студентов ДВФУ. Далее подключатся профессиональные лингвисты, и специалисты по компьютерной лингвистике, которые займутся качественной разметкой аудиоматериала: разобьют его на части речи, проставят ударения, паузы, разделят на диалоги и монологи, приведут произнесённые фразы к точному соответствию написанному тексту, а тексты, начитанные с листа, отделят от произнесённых естественным образом. При этом предстоит решить целый комплекс сопутствующих задач.

«Для развития алгоритмов искусственного интеллекта обучающие данные не менее важны, чем алгоритмы. Появление в прошлом десятилетии открытого корпуса из 14 млн. изображений ImageNet оказало потрясающее влияние на развитие компьютерного зрения – исследователи и разработчики смогли создавать новые методы анализа данных и применять компьютерное зрение в реальных задачах. Вместе с ДВФУ мы сможем собрать «голосовой ImageNet», который продвинет исследования в области распознавания и синтеза речи в России и мире. Кроме того, мы постараемся собрать не только русские речевые корпуса, но и корпуса для языков малых народов России». — Рассказал Станислав Ашманов, генеральный директор «Нейросетей Ашманова».

В 2019-20 учебных годах основным исследовательским направлением на магистерской образовательной программе «Искусственный интеллект и большие данные», открытой в ШЦЭ ДВФУ при поддержке Корпоративного университета «Сбербанка» и «Нейросетей Ашманова», станет обработка естественных языков. На программу набираются языковеды, лингвисты, специалисты по русскому языку и русскому как иностранному, азиатским языкам, а также журналисты и инженеры-программисты.

«На длительном отрезке времени выжили те языки, которые имели письменность, а бесписьменные —  практически вымерли. Сегодня мы говорим о новой письменности — формате языка, пригодном для обучения машин. В этой связи появилась опасность, что те языки, на которых не будут разговаривать машины — от микроволновок и принтеров до автомобилей и промышленных роботов, — скорее всего, тоже со временем вымрут. По этой причине язык надо оцифровать, перевести его в модель самообучающейся нейросети. Эту важную цивилизационную задачу мы будем решать попутно с разработкой прикладных продуктов на основе искусственного интеллекта». — Резюмировал Илья Мирин.

Теги: ИИ

Комментарии

(0) Добавить комментарий

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Для обратной связи укажите ваш E-mail, он будет доступен только администратору. Так вы сможете оперативно узнать, когда ответ на ваш вопрос будет опубликован



Новые комментарии

Магнитные гусеничные роботы для очистки корпуса судна от продуктов биообрастания
Гость Николай Николаевич
29.12.2023
10:23:08
Очень нравится. Как возможно задействовать в наших водах Азов и Черное море
В CU Boulder создали миниатюрного модульного робота, способного менять форму
Ильяс
04.09.2023
11:07:48
1) "нынешняя итерация CLARI подключена к источнику питания и управления" - если всё это не на борту робота, то робот не так-то и хорош, ...