robogeek.ru

все о роботах и робототехнике

edu.robogeek.ru

все об обучении робототехнике

14.02.2017

Поисковый бот

Endurance создает поискового бота, который ищет ответы с помощью Google. Я обратил внимание на то, что очень часто вместо набора ссылок нам необходимо получить вполне четкий ответ на точный вопрос. Безусловно компания Google очень сильно продвинулась в этом направлении.

Решении Ok Google, а также встроенный ассистент в мессенджер Google Allo позволяют найти ответы на многие вопросы, но к сожалению не на все.

В этой связи, Endurance запускает разработку собственного бота на базе Google API.

Вместе с тем, кроме API Google мы используем другие решения для того, чтобы оценить корректность выдачи.

Решаемая нами проблема

Какая проблема есть сейчас: если вы пишите запрос в Гугл, то далеко не на все ответы Гугл дает точные ответы, например определения, а дает набор ссылок, где, возможно, есть ответы.

Наша задача: сделать удобный и эффективный чатбота, который отвечает на вопросы, выдавая не набор ссылок, а точные ответы.

Выдача чатбота Endurance
@Endurance_searchbot
Результат выдачи Google
George:
что такое кварк
[1:13:46 PM]Google_searchbot:
Кварк — фундаментальная частица в Стандартной модели,
обладающая электрическим зарядом, кратным e / 3.
Кварк — фундаментальная частица в Стандартной модели,
обладающая электрическим зарядом, кратным e/3,
и не наблюдающаяся в свободном состоянии,
но входящая в состав адронов
(сильно взаимодействующих частиц, таких как протоны и нейтроны).
George:
кто такой трамп
[1:14:56 PM]Google_searchbot:
Дональд Джон Трамп (англ. Donald John Trump;
род. 14 июня 1946 года, Джамейка, Куинс, Нью-Йорк, США)
45 - й президент Соединённых Штатов
Дональд Джон Трамп родился 14 июня 1946 года а Нью-Йорке,
США. ... Прежде всего, Трамп – бизнесмен, президент строительного
конгломерата Trump Organization, основатель компании
Trump Entertainment Resorts, специализирующейся
на игорном и гостиничном бизнесе.
George: какие есть частицы с нулевым спином
[1:23:06 PM]Google_searchbot:
Это список частиц в физике элементарных частиц, включающий
не только открытые, но Фермионы имеют полуцелый спин;
У всех кварков есть также электрический заряд, кратный 1 / 3
элементарного заряда. Мезоны с нулевым спином формируют нонет.
Гугл не дает ответа, а лишь предлагает набор ссылок
George:
где проходит выставка первозданная россия
[1:25:57 PM]Google_searchbot:
С 20 января по 26 февраля в Центральном Доме художника пройдет
Общероссийский фестиваль «Первозданная Росси...|more|
Гугл не дает ответа, а лишь предлагает набор ссылок,
причем по первым двум четкого ответа нет.
George:
скорость движения солнца вокруг центра галактики
[1:28:07 PM]Google_searchbot:
Четвёртая космическая скорость — минимально необходимая скорость тела,
позволяющая преодолеть притяжение галактики в данной точке. Четвёртая
космическая скорость не постоянна для всех точек галактики, Скорость
движения самого Солнца вокруг центра Галактики составляет примерно.|more|
[1:28:10 PM]George:
more
[1:28:13 PM]Google_searchbot:
Скорость движения Солнца составляет 782, 000 км / час, вокруг центра
Млечного Пути. Направление движения Солнца называется Апексом,
сейчас Солнце движется в направлении созвездия Геркулеса.|more|
Гугл не дает полный ответ.
Четвёртая космическая скорость — Википедия
https://ru.wikipedia.org/wiki/Четвёртая_космическая_скорость
Четвёртая косми́ческая ско́рость — минимально необходимая скорость тела,
позволяющая преодолеть притяжение галактики в данной точке. Четвёртая
космическая скорость не постоянна для всех точек галактики,
... Скорость движения самого Солнца вокруг центра Галактики составляет примерно ...
‎Вычисление · ‎Примеры · ‎См. также · ‎Примечания
Скорость вращения Солнца вокруг оси и галактики Млечный путь
spacegid.com › Солнечная система
16 апр. 2013 г. - Скорость вращения уменьшается по мере приближени
я к полюсам, так что на полюсах ... Обращение Солнца вокруг центра галактики.

Таким образом, мы привели пример того, как работает выдача Гугла и как работает наш Endurance_search бот.

Как видно – есть выдачи, где вообще нет нужного ответа гугла.

Почему это важно еще?

Для того, чтобы искать что-то необходимо использовать гугл поиск или веб браузер.

Наше решение работает в любом коммуникаторе: Messenger, Twitter, Slack, Gmail, Telegram + веб интерфейс.

Это упрощает и делает доступ к нужной информации в более удобном виде.

Т.е. вы получаете не набор ссылок, а конкретный ответ на интересующий вас вопрос.

Наш чатбот ищет ответы с помощью Google API, после чего выбирает наиболее релевантный ответ и выдает точный ответ.

Кроме того, наш чатбот также «парсит» ссылку, выдаваемую гуглом и выдает уже результаты исходя из того, нашел ли ответ по данной ссылке.

В чем преимущество нашего бота?

  1. Наш бот ищет ответы, на вопросы, а не ссылки.
  2. Чатбот может использовать аналогии для поиска ответов на вопросы.
  3. Чатбот может читать и анализировать текст, перейдя по ссылке (парсинг) т.е. давать развернутый ответ на вопрос.
  4. Работает в любом мессенджере с открытым API.
  5. Чатбот обучается, анализируя результаты поиска, понимая, получил ли ответ на вопрос пользователь.

В чем дополнительная возможность чатбота.

Вы всегда можете уточнять и писать дополнительные запросы, например

Вы пишите в Гугл

«Какая погода в Москве», гугл выдает результат, но если вы потом напишите, «а в Сан Франциско», то гугл не держит контекст, т.е. он не сможет дать ответ на вопрос погода, поскольку в новом запросе нет словосочетания «какая погода…?»

Чатбот Endurance может держать контекст и спокойно ответить на вопрос «а в Сан Франциско» и понять, что речь идет о погоде, т.е. удержание контекста является главным преимуществом интеллектуального поиска чатбота.

Другой пример, вы пишите запрос «что такое кварк», далее вы можете в рамках данной статьи (выдачи) читать подробнее про ту или иную информацию.

Планы модификации чатбота

Мы планируем реализовать следующие опции «продолжить поиск» или «уточнить», или «подробнее», «выделить главное», «продолжить по тексту», «узнать».

Итак, каким образом это будет работать:

«Начало поиска», например, «что такое бозон»

Ответ: «Бозон (от фамилии физика Бозе) — частица с целым значением спина. Термин был предложен физиком Полем Дираком».

Далее есть опция «продолжить поиск» или «уточнить», или «подробнее», «выделить главное», «продолжить по тексту», «узнать».

«продолжить поиск» - алгоритм продолжает поиск по другим Google snippets

«уточнить» - пользователь может указать дополнительные сведения, которые его интересуют, например «что такое спип» или «кто такой Поль Дирак».

Тогда, запускается новый поиск, не связанный с текущим результатов выдачи.

«подробнее» - пользователь получает больше сведений в рамках ответа. Т.е. фактически алгоритм заключается в том, что бот «проваливается» по ссылке и по указанным ключевым словам получает сведения.

Например, он получает далее ответ «Бозоны, в отличие от фермионов, подчиняются статистике Бозе — Эйнштейна, которая допускает, чтобы в одном квантовом состоянии могло находиться неограниченное количество одинаковых частиц. Системы из многих бозонов описываются симметричными относительно перестановок частиц волновыми функциями. Различают элементарные бозоны и составные.» и т.д. подробнее происходит уже внутри текста.

«выделить главное» - выделение H1, H2, H3, H4.., + bold и вывод пользователю текст имеющие данные тэги, (a href #ancor). И далее перейти по ссылкам

Содержание
Свойства
Бозонная звезда
См. также
Примечания

«продолжить по тексту» - вывод следующих 2-3 предложений или абзаца.

Например, «Бозоны, в отличие от фермионов, подчиняются статистике Бозе — Эйнштейна, которая допускает, чтобы в одном квантовом состоянии могло находиться неограниченное количество одинаковых частиц[4]. Системы из многих бозонов описываются симметричными относительно перестановок частиц волновыми функциями. Различают элементарные бозоны и составные».

«узнать» - вывод уточнений внутри выделенной темы 2-3 предложений или абзаца.

«где обнаружен бозон»

Например, «Постулирован британским физиком Питером Хиггсом в его фундаментальных статьях, вышедших в 1964 году[13][14]. Предсказанный первоначально в теории, после нескольких десятков лет поисков, 4 июля 2012 года, в результате исследований на Большом адронном коллайдере, был обнаружен кандидат на его роль — новая частица с массой около 125—126 ГэВ/c²[15]. Имелись веские основания считать, что эта частица является бозоном Хиггса[16][17][18]. В марте 2013 года появились сообщения от отдельных исследователей ЦЕРНа, что найденная полугодом ранее частица действительно является бозоном Хиггса».

Таким образом, мы планируем реализовать в нашем поисковом боте дополнительные инструменты для интеллектуального поиска.

Интеллектуальный поиск

Основная концепция интеллектуального поиска заключается в том, что бот для поиска также может использовать, не только прямой запрос, но и вместе с тем «аналогии и синонимический ряд», т.е. чатбот анализирует и ищет смысл.

Т.е. поиск не только осуществляется по ключевым словам, а также дополнительным синонимическим ключевым словам.

Например, в тексте может отсутствовать ответ на вопрос, поскольку для ответа используются другие ключевые слова. В этом смысле мы планируем добавить метод аналогий, т.е. если даже и будет отсутствовать искомое ключевое слов в текст – используя аналогии – наш поисковый бот сможет найти нужны ответ.

Предстоящая работа по проекту

Проект Endurance планирует совершенствовать результаты выдачи, создавая для пользователей удобный канал поиска и получения информации на конкретные вопросы.

Оценить работу нашего бота можно по ссылке в телеграмме

Комментарии

(0) Добавить комментарий

Ищите команду разработчиков? Не можете найти робота для своих нужд? Пишите нам!

Для обратной связи укажите ваш E-mail, он будет доступен только администратору. Так вы сможете оперативно узнать, когда ответ на ваш вопрос будет опубликован

Новые комментарии

Опрос: Какой твой любимый робот в кино?
Александр
21.06.2017
12:05:58
ВАЛЛ-И
Робот предскажет результаты матчей Кубка Конфедерации FIFA
Гость
16.06.2017
04:03:11
Осьминогу уже не доверяют?