Компания Яндекс — Технологии — Технология Крипта. Компания Яндекс — Технологии — Технология Крипта Работа и применение системы

Windows 7

Every day, millions of web users are exposed to banner ads on the pages of Yandex’s sites. Advertisers on Yandex can opt to show their ads only to that part of the viewer audience that is potentially interested in seeing them, such as people of a certain age or gender. To enable advertisers to target their ads to a specific audience, Yandex uses its own proprietary behavior analytics technology called Crypta. This technology allows classification of web users based on their online behavior. Their behaviour just has to differ somehow.

How It Works

Crypta is based on Yandex’s own machine learning method, MatrixNet . It learns how to identify a particular audience segment by studying typical representatives’ internet behaviour. For a successful study, Crypta needs to analyse the behavior of at least 30,000 users – experiments have shown this is enough for a reliable result.

Yandex collects information about typical members in various segments from marketing agencies. They help us find users with particular socio-demographic characteristics: a particular age or gender, with the right level of income, education, habits and interests. For example, if Crypta needs to learn how to identify pet food purchasers, such people can be found through surveys. Of course, Yandex receives this information in anonymised form.

Crypta studies how members of particular groups behave online: which words they use in search queries, how many queries they submit per session, which sites they visit, what time of day or night they go online, and so on. It analyses about 300 factors characterising user behavior, and determines the significance of each one for specific audiences. The result is a formula according to which Crypta can determine whether a person belongs to a certain group. The formula is then tested on a new batch of data and, if necessary, is corrected.

Crypta analyses every internet user’s likelihood of belonging to a particular audience segment. It renews its analysis every day to keep up with changes in people’s interests. While some changes take time, such as growing into a new age group, others – like becoming a pet food purchaser – happen very quickly.

Application

Yandex utilises Crypta in both search and banner advertising. For instance, with Crypta’s help, ads served by Yandex.Direct can be targeted exclusively at users who have recently shown interest in the advertised product (behavioural targeting).

Several different banner-targeting methods have been created on the basis of Crypta – socio-demographic targeting (by age and gender), or targeting of users who practically never watch television. Crypta is also employed in our look-alike targeting instrument, which allows advertisers to show their banners to people who are similar to existing customers.

Выяснилось, что я сова:)

Вот, как я веду себя в интернете.


Основной браузер у меня Opera . Первым делом «криптанулся» из неё.

Яндекс.Крипта в Opera.


Ради интереса, решил пройти тест с других обозревателей.

В Internet Explorer , которым я практически не пользуюсь, показывает, что я сова, хотя и не такой сова, как в Opera . При этом я еще и наполовину семейный человек, а на вторую половину - нет:)

Яндекс.Крипта в Internet Explorer.


В Chrome я оказался роботом. Это видимо потому что я его использую только для отладки JavaScript и частенько чищу историю. В FireFox ситуация аналогичная, но его я вообще редко запускаю, только для проверки кроссбраузерности.

Яндекс.Крипта в Google Chrome.


В Android у меня стоят две Opera , одна Mini , другая Mobile . Последней пользуюсь чаще.

В Opera Mobile я руководящая, наполовину семейная, но еще гулящая, сова.

Яндекс.Крипта в Opera Mobile под Android.


В Opera Mini я бедный студент-гик, скитающейся по простором мира, живущий в ночи холостяцкой жизни.

Яндекс.Крипта в Opera Mini под Android.


Andoroid для веб-серфинга я не использую, чаще приходится открывать им внешние ссылки из социальных сетей.

Показатели в Safari под iPad схожи с Opera под Windows . Это видимо потому что по частоте использования Safari у меня выходит на втором месте, с очень большим отрывом от первого.

Яндекс.Крипта в Safari под iPad.


iPad я часто использую для вечернего брожения по просторам Всемирной паутины, и обычно посещаю узкий круг сайтов. В Opera я более активный, хотя число часто посещаемых сайтов у меня тоже ограничено. В обоих случаях, я авторизирован в сервисах Яндекс , некоторыми из которых частенько пользуюсь, обычно для бытовых целей. Интересно было бы посмотреть на нечто похожее от Google , который я больше использую по работе.

Как я понимаю, данные показатели влияют на контекстную рекламу, которую я не вижу на многих сайтах. Не вижу, потому что не смотрю, ибо как правило, информация о продуктах в такой рекламе, на момент показа, для меня уже не актуальна. От идеи до реализации один шаг - привычка. Роботы, как бы не старались, не успеют отреагировать:)

Интересно, почему я на 10% мама и что это вообще значит? :)

Возможности Крипты

Построение профиля пользователя
Крипта работает на основе различных методов машинного обучения. Чтобы установить признаки, по которым человека можно отнести к какой-либо группе, она исследует сетевое поведение её типичных представителей

Типичных представителей групп, например покупателей кормов для животных, Яндекс ищет с помощью маркетинговых агентств. Для успешного обучения Крипте нужно проанализировать поведение как минимум 30 тысяч таких пользователей. Как показывают эксперименты, этого количества уже достаточно для получения надёжного результата. Разумеется, все данные Яндекс получает в обезличенном виде.

: какие слова они используют в запросах, сколько запросов задают за сессию, какие сайты посещают, в какое время суток выходят в интернет и т. д. - всего около 300 факторов.

Затем Крипта рассчитывает значимость каждого фактора для конкретного сегмента пользователей. В итоге получается формула, с помощью которой вычисляется вероятность принадлежности пользователя к данной группе. Эти данные пересчитываются каждый день, чтобы успевать реагировать на изменения в интересах людей. Например, если переход в другую возрастную группу требует времени, то стать автолюбителем можно очень быстро. Сама формула тоже время от времени проверяется и, если нужно, корректируется.

«Склейка» профиля из идентификаторов браузеров и устройств
Как уже было сказано выше, пользователь для Крипты - это не человек с именем и фамилией, а набор идентификаторов. Но почему набор? Дело в том, что каждое устройство и браузер, которым человек пользуется для выхода в сеть, имеет свой уникальный идентификатор - файл cookie, который сайты используют, чтобы узнавать пользователя и, например, не спрашивать каждый раз пароль для входа. Свои идентификаторы есть и у приложений - если приложение (например, Карты или Навигатор) отправляет данные на сервера Яндекса, информацию из его идентификатора Крипта тоже учитывает.

Для «склейки» применяются два метода - вероятностный и факторный.

Первый позволяет предположить, что два устройства принадлежат одному человеку, если поведение их пользователей очень похоже.

Сегодня мы познакомимся с забавным сервисом «Яндекс Крипта» , способным по истории вашего браузера определить вашу принадлежность к той или иной целевой группе. Именно таким образом создаётся более точная выдача поисковых результатов, сервисов и рекламы.

История технологии

Технология Крипта была создана в 2011 году и основана на фирменном методе машинного обучения Матрикснет . Чтобы технология научилась отличать одну возрастную группу от других, а мужчин от женщин, ей объяснили эти понятия на сотнях тысяч примеров. Для этого использовалась обезличенная информация о поле и возрасте пользователей из сети профессиональных контактов «Мой Круг» - люди чаще указывают реальные данные, когда речь идёт о работе. Затем для уточнения информации из профессиональной сети её сравнили с указанной в профиле пользователя на Яндексе. После перекрёстной проверки осталось около миллиона анкет с наиболее достоверной информацией.

Потом система собрала информацию о поведении этих пользователей в интернете. Например, о длине поисковых запросов, наличии в них определённых слов, о периодах активности за сутки и т.д. Социально-демографические признаки и данные о поведении пользователей в интернете использовались для обучения алгоритма.
Из этих данных разработчики создали две выборки: обучающую и тестовую. Пользователей разделили на две группы: примерно 700 тысяч для обучения Крипты и 300 тысяч для последующей проверки. Проанализировав данные из обучающей выборки, Крипта отобрала 300 наиболее важных факторов для определения пола и возраста, а также рассчитала значимость каждого из них.

Следующий этап - проверка того, насколько хорошо обучилась Крипта. Из данных в тестовой выборке убрали информацию о поле и возрасте пользователей, чтобы Крипта выяснила это самостоятельно. Для каждого пользователя она определила вероятность того, мужчина это или женщина и к какой из пяти возрастных групп он относится. Разработчики сравнили результаты с имеющимися данными и усовершенствовали алгоритм обучения. После ряда проверок и усовершенствований технологию внедрили.

Работа и применение системы

При выборе нужной аудитории из всех пользователей Яндекса пол определяется с вероятностью 74% - в полтора раза точнее, чем наугад. Возрастная группа, например, от 25 до 34 лет (самая большая по численности группа пользователей) определяется с вероятностью 45%, что более чем в два раза точнее случайного определения. Когда реклама таргетируется на меньшую аудиторию, точность определения демографии увеличивается. Например, при охвате половины аудитории указанные вероятности равны 85% и 52% соответственно.

Крипта, как и положено в 21 веке, постоянно поддерживает знания в актуальном состоянии, каждый день обрабатывая и обновляя данные о практически всех пользователях. Также технологию можно научить различать пользователей интернета не только по полу и возрасту. Ей не важно, какие общие признаки или интересы объединяют людей в реальной жизни. Однако Крипта отличит разные группы друг от друга, если их поведение в интернете будет заметно различаться.

После клика на ссылку тотчас же выдаётся диаграмма, по которой можно узнать, что Крипта думает о вас. Сверху вы можете посмотреть мою диаграмму. С холостяком она угадала, а вот с меломаном - нет. С моим слухом любитель музыки из меня никакой. Самый забавный пункт - "мама". Я на 10% "мама"! А где же "папа"? Авторы сервиса явно дали маху, упустив этот пункт. В общем и целом, Крипта не идеальна, но работу свою вполне может выполнять в области рекламы (что и делает вполне успешно, раз её до сих пор применяют) с учётом дальнейшего допиливания до состояния, близкого к совершенству. Кстати, а насколько точным у вас получился анализ "доктора психологических наук Крипты"?