На человеческом уровне: как интернет-поисковики учатся у людей

офис яндекса Правообладатель иллюстрации Valeriy Sharifulin\tass
Image caption Выполняя запрос пользователя, нейросети нового поиска "Яндекса" обрабатывают более 200 тысяч схожих по смыслу страниц

Российская компания "Яндекс" представила новую версию интернет-поиска: он основан на усовершенствованной нейронной модели, которая анализирует веб-страницы целиком и расставляет их на выдаче по смыслу, а не только по ключевым словам. Это решает проблему "мусорных" веб-страниц, которые не соответствуют запросам пользователей и появляются в выдаче лишь потому, что содержат те же слова, что в запросе.

"В основе новой версии поиска лежит поисковый алгоритм "Королёв" - с помощью нейронной сети он сопоставляет смысл запроса и веб-страницы. Благодаря этому поиск понимает, что именно нужно пользователю, и отвечает на сложные вопросы более точно", - сообщили в компании.

Нейронной называют математическую модель, которая работает по принципу нервных клеток живого организма. Наиболее эффективно эти модели справляются с распознаванием людей и объектов на фотографии.

В 2016 году "Яндекс" запустил поисковый алгоритм "Палех", названный в честь русской народной росписи. Лежащая в основе этого алгоритма нейросеть анализирует поведение пользователей - на что они кликают, а на что нет - и чем дальше, тем лучше "понимает", насколько запросы соответствуют заголовкам веб-страниц.

Так, введя запрос "фильм про человека, который попал на остров и разговаривал с мячом", мы обнаружим ссылки на веб-страницы, посвященные блокбастеру "Изгой". Далеко не все страницы будут содержать слово "мяч", зато они больше подходят по смыслу.

Новая версия поиска "Яндекса", представленная в московском планетарии 22 августа, "понимает" смысл уже не только заголовков, но также веб-страниц и документов в целом. По словам представителей "Яндекса", это убыстряет, углубляет и делает поиск более качественным.

"Поиск - это очень сложная система. Тысячи инженеров работают над тем, чтобы она понимала человека и помогала решать его задачи. В "Королёве" мы объединили машинный интеллект и усилия миллионов людей. Наши пользователи улучшают поиск вместе с нами, задавая вопросы и помогая обучать наши алгоритмы", - говорит руководитель поиска "Яндекса" Андрей Стыскин.

Правообладатель иллюстрации YANDEX
Image caption В 2017 году свой вклад в обучение технологий "Яндекса" внесли 0,5 млн человек

Для оценки качества поиска вместо традиционного коллектива оценщиков "Яндекс" использует "Толоку" - сеть контролеров качества, в которую ежегодно входит более 1 млн человек. Отслеживать собственный вклад в обучение нейросетей "Яндекса" пользователь сможет с помощью сервиса "Спасибо".

Долгосрочная цель - создать модель поиска, которая будет "понимать", насколько веб-страницы соответствуют запросам пользователей, на уровне, сравнимом с уровнем человека, отмечают в компании.

Google, основной конкурент "Яндекса" и поиск № 1 в мире, также использует нейросети. Так, онлайн-переводчик Google уже не разбивает предложения на отдельные слова, а учится воспринимать предложения целиком, в том числе исходя из контекста. С марта 2017 года технология работает для переводов с русского и на русский.

Как новые технологии поисковиков меняют пользовательский опыт?

Поисковики воспринимают естественный язык

Чемпионаты по поиску в интернете, в которых запросы больше напоминают программный код - прошлый век. Нейросети приближают компьютерный интеллект к человеческому.

Обработка естественной речи уже лежит в основе многих программ - персональных ассистентов. В 2011 году компания Apple запустила персонального ассистента Siri, после чего появились Amazon Alexa, Google Now, Microsoft Cortana и "Яндекс Алиса".

Все эти программы отвечают на простые устные запросы и дают советы, учитывая время, местоположение, погоду и другие обстоятельства, в которых находится пользователь. Поисковики стараются не отставать от них и выделяют в отдельную категорию условно детские запросы, например, "дорогой яндекс вот пожалуйста включи песню братьев радченко для мамы". В первую очередь на выдаче появится сама песня, а веб-страницы, изобилующие ключевыми словами "дорогой" и "включи" окажутся ниже. Такой же принцип действует у Google.

Правда, самостоятельно включать песню, не заставляя пользователя переходить по ссылке, поисковики, в отличие от персональных ассистентов, пока не научились.

Поисковики обрабатывают устные запросы

Это следствие развития технологий обработки речи. Большинство устных запросов поступает с мобильных устройств, при этом в устной речи пользователи более склонны давать уточненные формулировки.

Так, запрос "купить старинную мебель" скорее поступит в текстовом варианте, а "купить дубовый комод XIX века" - в устном. Поэтому поисковики должны уметь воспринимать на слух практически все слова.

Поисковики лучше работают с постами в соцсетях

Еще несколько лет назад поисковики уделяли непропорционально мало внимания постам в соцсетях, хотя именно там зачастую находилась информация, которую искали пользователи. В 2015 году Facebook обновил функцию Notes, которая позволяет размещать длинные тексты с фотографиями.

Для поисковиков уже нет никакой разницы, размещен ли такой текст на обычном сайте или в соцсети.

По данным Liveinternet, самым популярным поисковиком в России остается "Яндекс": его среднесуточная аудитория в июне 2017 года составляла 54 млн пользователей, аудитория Google - 46 млн.

Новости по теме