Консалтинговая группа "Текарт" - центр компетенции "Робототехника".

Подробнее...
Основное меню
Категории новостей
Логотип

Ученые разрабатывают новую систему обнаружения фальшивых новостей

Новая работа исследователей Массачусетского технологического института представляет собой единую систему автоматизированного обнаружения ложных информационных вбросов, раскрывающую способность модели машинного обучения улавливать тонкие, но заметные различия в языке реальных и ложных сведений.

Исследование также подчеркивает, что детекторы поддельных новостей должны проходить более тщательное тестирование, чтобы эффективно действовать в реальных условиях.

Ложные новости являются формой пропаганды, созданной для того, чтобы ввести читателей в заблуждение с целью генерации определенного мнения на веб-сайтах или управления общественным мнением.

После того, как эта проблема стала весьма значимой, исследователи начали разрабатывать автоматические детекторы поддельных новостей – это так называемые нейронные сети, которые «учатся» на множестве данных распознавать лингвистические сигналы, указывающие на ложные статьи. Учитывая новые статьи для оценки, эти нейронные сети могут с достаточно высокой точностью отделять факты от вымысла в контролируемых условиях.

Исследуемая модель является сверточной нейронной сетью, которая обучается на базе данных из фальшивых и реальных новостей. Для обучения и тестирования исследователи использовали популярный набор поддельных новостей для исследований под названием Kaggle, который содержит около 12 000 фейков с 244 различных веб-сайтов. А также они собрали набор реальных новостных образцов, используя более 2000 статей из New York Times и более 9 000 из The Guardian.

В процессе обучения модель воспринимает язык статьи как «вложение слов», где слова представлены в виде векторов - в основном, массивов чисел - со словами схожего семантического значения. При этом модель фиксирует тройки слов в качестве шаблонов, которые обеспечивают некоторый контекст - например, отрицательный комментарий о политической партии. «Читая» новую статью, модель сканирует текст на наличие похожих шаблонов и отправляет их через ряд проверочных слоев. Конечный выходной слой определяет вероятность каждого шаблона: реальный или поддельный.

Исследователи сначала обучили и протестировали модель традиционным способом, используя те же темы. Но они думали, что это может создать пристрастие в модели, поскольку некоторые темы чаще всего являются предметом фальшивых или реальных новостей. Например, фальшивые новости обычно включают слова «Трамп» и «Клинтон».

Затем исследователи обучили модель по всем темам без какого-либо упоминания слова «Трамп» и протестировали модель только на образцах, которые были выделены из обучающих данных и содержали слово «Трамп». Хотя традиционный подход достиг 93 % точности, второй подход достиг 87 % точности. Исследователи отмечают, что этот разрыв подчеркивает важность использования тем, не затронутых в процессе обучения, чтобы модель могла обобщать полученные знания в новых темах.

Теги: MIT

Комментарии

(0) Добавить комментарий

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Для обратной связи укажите ваш E-mail, он будет доступен только администратору. Так вы сможете оперативно узнать, когда ответ на ваш вопрос будет опубликован



Новые комментарии

Магнитные гусеничные роботы для очистки корпуса судна от продуктов биообрастания
Гость Николай Николаевич
29.12.2023
10:23:08
Очень нравится. Как возможно задействовать в наших водах Азов и Черное море