Новая технология Fujitsu на базе ИИ Wide Learning обеспечивает высокоточное обучение даже при несбалансированном наборе данных

Искусственный интеллект в настоящий момент используется в различных областях, но точность ИИ может быть достаточно низкой в тех случаях, когда объем анализируемых данных недостаточен или несбалансирован.

Технология Wide Learning компании Fujitsu позволяет принимать более точные решения по сравнению с используемыми ранее разработками, а процесс обучения становится более равномерным даже тогда, когда анализируемые данные не сбалансированы.

Высокие результаты работы достигаются за счет того, что технология извлекает гипотезы с высоким уровнем важности, собирая большой набор гипотез, образованных всеми комбинациями элементов данных, и затем контролирует степень влияния каждой гипотезы на основании перекрывающихся близких гипотез. Кроме того, т.к. гипотезы записываются в виде логических выражений, специалисты также могут понимать причину того или иного решения.

Новая технология Wide Learning компании Fujitsu позволяет использовать ИИ даже в таких областях, как медицина и маркетинг, когда данные, необходимые для принятия решения, отсутствуют в нужном объеме.

За последние годы ИИ-технологии нашли применение в самых разных областях, включая медицину, маркетинг и сферу финансов. Предполагается, что в будущем будет возможно принятие решений на основе ИИ для поддержки работы и автоматизации задач в этих сферах. Однако существует одна проблема, которая препятствует развитию потенциала технологии. Она заключается в несбалансированности данных. В зависимости от конкретной отрасли, может возникнуть ситуация, когда будет трудно получить необходимый объем данных для обучения ИИ по целям, на основании которых он будет принимать решение. Это, в свою очередь, приводит к тому, что многие технологии не могут предоставить результаты обработки данных с высоким уровнем точности для последующего практического использования. Более того, основная причина, по которой сдерживается развитие ИИ, заключается в том, что даже если он обеспечивает достаточно точное распознавание, эксперты и даже разработчики не могут объяснить, почему ИИ предоставил тот или иной ответ.

Технологии ИИ на базе глубинного обучения, как правило, делают высокоточные решения за счет обучения на основе большого объема данных. Однако в реальных условиях существует множество примеров, когда необходимый объем данных отсутствует. В таких случаях технологии ИИ трудно сделать точное решение. Более того, модель машинного обучения для существующего ИИ на базе глубинного обучения представляет собой модель черного ящика, которая не может объяснить причины решений ИИ, что создает проблему с прозрачностью решений.

Таким образом, в будущем необходимо будет разработать новую ИИ-технологию, которая сможет делать точные решения на основе несбалансированных данных и будет достаточно прозрачной. Учитывая эти требования, Fujitsu Laboratories разработала Wide Learning, технологию машинного обучения, способную делать точные решения даже в условиях несбалансированности данных.

Два основных преимущества технологии Wide Learning.

1. Она создает комбинации элементов данных для извлечения больших объемов гипотез

Эта технология рассматривает все примеры комбинаций элементов данных в качестве гипотез и затем анализирует уровень важности каждой гипотезы на основании коэффициента попаданий. Например, при анализе тенденций, кто покупает определенные продукты, система объединяет все типы примеров элементов данных для тех, кто сделал или не сделал покупки, например, незамужняя женщина в возрасте от 20 до 34 лет с водительскими правами, и затем анализирует, сколько имеется попаданий в данных тех, кто сделал покупки, когда эти примеры комбинаций взяты в качестве гипотез. Гипотезы, которые имеют коэффициент попаданий выше определенного уровня, рассматриваются как важные гипотезы и получают название «массив знания». Это означает, что даже если объем данных недостаточен, система может извлечь все гипотезы, которые заслуживают внимания, что может способствовать открытию ранее не рассматриваемых объяснений.

Рис. 1: Составление списка гипотез и извлечение «массива знаний»

2. Она регулирует уровень влияния массивов знаний для создания точной модели классификации

Система создает модель классификации на основе нескольких извлеченных массивов знаний. В ходе этого процесса, если элементы массива знаний часто перекрываются с элементами, создающими другие массивы знаний, система контролирует уровень влияния для того, чтобы уменьшить их влияние на модель классификации. Таким образом система может обучить модель, способную выполнять точные классификации, даже если данные, отмеченные как правильные, не сбалансированы.

Например, в случае, когда мужчина, который не совершал покупки, создает большинство набора данных покупок, если ИИ обучен без контроля уровня влияния, то тогда массив знаний, который включает наличие или отсутствие водительских прав, независимо от пола, не будет оказывать большого влияния на классификацию. С помощью нового метода уровень влияния массивов знаний, включая мужской пол в качестве фактора, ограничен из-за перекрытия этого элемента, тогда как влияние меньшего количества массивов знаний, которые включают наличие водительских прав, становится больше при обучении, создавая модель, которая может правильно распределять по категориям как мужчин, так и наличие водительских прав.

Рис. 2: Настройка влияния массивов знаний при создании модели классификации

Fujitsu Laboratories провела испытание этой технологии в таких областях, как электронный маркетинг и медицина.

В результате проведения испытания с использованием эталонных данных, используемых в области маркетинга и медицины, которые были предоставлены Репозиторием UCI (UCI Machine Learning Repository(1)), эта технология повысила точность на 10-20% по сравнению с технологией глубинного обучения. Она успешно снизила вероятность того, что система пропустит покупателей, которые с высокой долей вероятности могут подписать на услугу, или пациентов с медицинскими показаниями примерно на 20-50%. В маркетинговых данных (в испытаниях использовалось порядка 5 000 записей покупателей) только порядка 230 записей относились к покупающим заказчикам, что делало этот набор данных несбалансированным. Эта технология уменьшила количество потенциальных покупателей, не включенных в маркетинговые акции, с 120, результат анализа с помощью технологии глубинного обучения, до 74.

Более того, т.к. массивы знаний, которые составляют основу этой технологии, имеют формат с логическим выражением, способность объяснить причину принятия того или иного решения также является полезной для специалистов. Даже если определено, что в модель необходимо внести изменения по результатам новых данных, имеется возможность сделать более соответствующие правки, т.к. специалисты могут понимать причину этих результатов.

Fujitsu Laboratories в будущем продолжит использовать эту технологию для обработки задач, для которых необходимо указание причин для решений, принятых системами на базе ИИ, включая финансовые транзакции и медицинские диагнозы, и задач, связанных с редко появляющимися явлениями, включая мошенничество и выход из строя оборудования. Компания поставила перед собой задачу начать коммерческое использование новой разработки в качестве технологии машинного обучения с поддержкой проекта Fujitsu Human Centric AI Zinrai в 2019 финансовом году.

Теги: ИИ, Fujitsu

Новости робототехники

Новая технология Fujitsu на базе ИИ Wide Learning обеспечивает высокоточное обучение даже при несбалансированном наборе данных

Комментарии

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Новые комментарии

Другие статьи по теме

Категории