Новый способ навигации в сети Интернет

Дмитрий Уланов
Арвинд Нагпал
Михаил Навернюк

Ноябрь 2008 года

Данная статья описывает видение инициативы semap.

Содержание

  1. Навигация по объектам придёт на смену полнотекстовому поиску
  2. Контекстная реклама претерпит фундаментальные изменения
  3. Как предоставить пользователю новые возможности?
  4. Сбор данных с сайтов, не поддерживающих размеченные данные
  5. Как это будет реализовано с точки зрения пользователя?
  6. Монетизация

Навигация по объектам придёт на смену полнотекстовому поиску

Сегодня в Интернете пользователь сталкивается с огромным количеством слабо структурированной информации. Как правило, это текст или медиа-контент. В этих условиях помощь компьютера оказывается не слишком эффективной. Понимать тексты на естественных языках компьютеры пока не научились, поэтому максимум, на что может рассчитывать пользователь — это полнотекстовый поиск. С другой стороны, рекламодатели вынуждены покупать «ключевые слова», что также является весьма ограниченным, с точки зрения эффективности, инструментом продвижения товаров и услуг в сети.

Но предположим, что браузер умеет распознавать в тексте веб-страницы людей, организации, книги, фильмы, музыкальные произведения и другие сущности. В таком случае возможности компьютера, с точки зрения помощи пользователю, существенно расширяются. Например, если компьютер может идентифицировать, что в данный момент времени пользователь изучает фильм «Джентельмены удачи», то он может предложить ему дополнительную информацию и целый ряд действий, связанных с этим фильмом. Можно перейти в интернет-магазин, чтобы купить DVD, или просмотреть подробное описание фильма в Wikipedia. Или увидеть, в котором из ближайших кинотеатров показывают этот фильм, какие у него рейтинги, отзывы, постеры, кадры и другие изображения, какие фразы из этого фильма стали крылатыми и многое другое.

Вся эта информация окажется у пользователя «под руками» в уже готовом виде. Сегодня для достижения того же результата приходится копировать название фильма и делать запрос к поисковому серверу, а то и несколько, а затем разбираться в полученных результатах. При этом желательно знать про сервисы в сети, которые предоставляют дополнительные возможности. Например, вы едва ли найдёте в результатах поиска Яндекса цитаты из кинофильма — для этого нужно знать о существовании такого сервиса, как citaty.info.

Следующим этапом развития станет персонализация данных. Пользователь сможет максимально гибко настроить работу системы под свои нужды. Например, если он предпочитает покупать DVD-диски в books.ru, то именно этот магазин будет предлагаться ему в первую очередь. Кроме того, мы сможем отслеживать действия пользователя, и ненавязчиво собирать информацию о его предпочтениях.

Контестная реклама претерпит фундаментальные изменения

С точки зрения поставщиков информации такой подход также окажется весьма интересным. Рассмотрим в качестве примера интернет-магазин. Сегодня ему приходится прилагать серьёзные усилия для того, чтобы привлечь покупателя на свой сайт. Используется навязчивая баннерная реклама, вызывающая раздражение у большинства людей. В нашем же случае, практически любое упоминание товара в Сети становится адресной рекламой. Если потенциальный покупатель зашёл на сайт kinopoisk.ru почитать отзывы о новом фильме, то ему будет тут же предоставлена информация о том, где можно выгодно купить DVD с этим фильмом. Конечно, на сайте kinopoisk.ru есть ссылки на интернет-магазины, но только на крупные, которые часто предлагают не самые выгодные условия для сделки.

В итоге, контекстная реклама перестанет существовать в том виде, в котором мы привыкли её воспринимать сейчас. Вместо показа контекстной рекламы по выявленным в тексте веб-страницы, или использованным при поиске, ключевым словам, она будет привязана к конкретным объектам. Допустим, человек просматривает информацию о Кипре в Wikipedia, в этом случае ему можно показать список туристических компаний, которые предлагают туры на этот остров, или отобразить данные о купле-продаже недвижимости в этом регионе — это зависит от предпочтений пользователия, которые могут быть собраны компьютером в зависимости от того, какие обьекты в сети он чаще всего изучает. Мы видим, что при таком подходе реклама становится более персонализированной и востребованной.

Как предоставить пользователю новые возможности?

Можем ли мы уже сегодня предоставить пользователю такие возможности? Конечно, для того, чтобы в полной мере реализовать эту функциональность, необходимо проделать огромную работу. Нужно, чтобы страницы в Интернете содержали не просто текст, а специально размеченные данные. Возникает замкнутый круг. Для того, чтобы можно было воспользоваться новыми функциями, данные должны публиковаться в специальном формате. А для того, чтобы заинтересовать поставщиков информации публиковать данные в таком формате — должны быть востребованы новые функции.

Тем не менее, мы считаем, что изменить ситуацию вполне возможно. Мы предполагаем предпринять следующие шаги:

  1. необходимо заинтересовать пользователей и сделать очевидными преимущества навигации по объектам;
  2. чтобы продемонстрировать достоинства этого подхода, можно воспользоваться уже существующими на сегодняшний день источниками размеченных данных;
  3. необходимо добавить разметку данных для наиболее популярных сайтов и позволить пользователям взаимодействовать с ними по-новому;
  4. когда преимущества навигации по объектам станут общепризнанными, можно ожидать, что крупные игроки на рынке, такие как Google и Яндекс, начнут поддерживать размеченные данные (это уже постепенно происходит, Google и Яндекс в этом году анонсировали поддержку размеченных данных о людях и их связях друг с другом — http://code.google.com/apis/socialgraph/, http://company.yandex.com/press_center/press_releases/2008/2008-08-15.xml);
  5. в результате возникнет рынок по разметке данных и каждый поставщик информации, практически любой сайт, будет заинтересован в том, чтобы публиковать эти данные в дополнение к публикации текстовых документов.

Сбор данных с сайтов, не поддерживающих размеченные данные

В статьях Wikipedia есть информационные сводки, из которых можно извлекать структурированную информацию.

В англоязычном сегменте Интернета в рамках инициативы LinkedData за последние два года разработаны подробные источники размеченных данных, среди которых ключевую (связующую) роль играют метаданные, полученные из статей Wikipedia. По нашим сведениям, в русскоязычном сегменте сети нет подобных источников. Мы планируем повторить проделанный на Западе путь и базовую функциональность разработать на основе размеченных данных русскоязычной Wikipedia — это 12 219 фильмов, 498 сериалов, 1385 мультфильмов и т. д.

Следующим шагом будет установление кросс-сылок между статьями Wikipedia и популярными ресурсами, к примеру, для фильмов это будут IMDb, Кинопоиск, Афиша, WordArt, Озон. Мы преследуем две цели: во-первых, предоставить пользователям полезную информацию, собранную с разных сайтов, например, что фильм «Адмирал» на сайте kinopoisk.ru расположен по адресу http://www.kinopoisk.ru/level/1/film/280938/, а на сайте Озона — по ссылке http://www.ozon.ru/context/detail/id/4097579/?partner=kinopoisk. Во-вторых, разработать механизмы извлечения метаданных непосредствено из текста веб-страниц. Наличие таких технологий и опыта позволит нам оказывать коммерческим сайтам платные услуги.

Как это будет реализовано с точки зрения пользователя?

В тексте веб-страницы выделяются ссылки и словосочетания на мобильные телефоны, книги, фильмы, страны и на другие объекты. При наведении на них мышкой выдаётся краткое описание сущности, а по нажатию — полное описание со списком предлагаемых услуг от интернет-магазинов и сторонних сайтов. Система будет реализована в двух вариантах: как скрипт для встраивания на сайтах и в виде расширений к популярным интернет-браузерам (MS IE, Mozilla Firefox). В первом варианте аннотирование веб-ссылок и словосочетаний в тексте веб-страниц будет работать только на отдельных сайтах, но для всех посетителей и во всех интернет-браузерах. Во втором же случае, указанный функционал будет доступен для всех без исключения сайтов, но только для тех пользователей, которые установят соответствующее расширение к браузеру.

Для публичного запуска мы выбрали предметную область фильмов, как самую разноплановую и популярную для широкого круга пользователей. Например, если пользователь открывает страницу с описанием фильма на сайте магазина Ozon, то наш плагин сможет идентифицировать это, и отобразить пользователю следующую информацию.

Разнообразные данные о фильме могут выводиться в едином окне.

Очевидно, что мы легко сможем наращивать функциональность нашей системы, как за счёт увеличения качества и количества предоставляемых сервисов, так и за счёт добавления новых типов сущностей.

Пользователи наверняка захотят получить аналогичные функции при работе с профилями людей, книгами, музыкальными произведениями, изображениями, организациями, всевозможными товарами и услугами. Особенно интересно будет добавить возможность перекрёстных ссылок между объектами. Тогда, например, пользователь сможет быстро перейти от просмотра информации о кинофильме к данным о книге, по которой фильм снят. А от информации о книге к данным об издательстве, которое её выпустило.

Со временем, когда система научится работать с большим числом сущностей, появится возможность разработать полнофункциональный поисковик. Пользователи смогут задавать вопросы поисковику на естественном языке. Допустим, такой: «В каком году родился президент России?» и получить ответ: 14 сентября 1965 года (Президенты Российской Федерации → Дмитрий Анатольевич Медведев → Дата рождения), с возможностью перехода к списку всех бывших президентов России или к просмотру информации о Дмитрии Медведеве.

Возможен и более сложный вариант взаимодействия с поисковиком. Например, пользователь в строке поиска задаёт: «Мобильный телефон Nokia». Система выдаст список популярных на текущий момент моделей мобильных телефонов этой марки, ссылки на статьи с обзорами и генерируемую автоматически таблицу с детализацией параметров искомого телефона. Пользователь может просмотреть предложенные обзоры, перейти к конкретной модели телефона, чтобы увидеть полную информацию по ней и список предложений от интернет-магазинов, или конкретизировать запрос путём установки ограничения поиска по цене или любому другому параметру.

Монетизация

Интернет-магазины заинтересованы в том, чтобы пользователь, встретивший ссылку на сотовый телефон или его название в тексте веб-страницы, среди прочего увидел предложение от этого интернет-магазина купить его. При этом система проследит, чтобы этот телефон был представлен в ассортименте и доступен на складе. Возможны два варианта сотрудничества — это плата по клику, т. е. по факту перехода по ссылке, или по партнёрской программе, т. е. процент от совершённой сделки. Помимо интернет-магазинов по такому сценарию могут работать любые другие сайты, заинтересованные в продвижении своего контента и услуг.

Когда преимущества навигации по объектам станут общепризнанными и возникнет рынок по разметке данных, появится потребность в разработке компьютерных описаний для предметных областей сайтов и в обогащении их размеченными данными. Мы сможем предложить готовые решения и оказывать полный комплекс услуг по консалтингу и внедрению в этой области. Это может быть как обогащение сайтов размеченными данными без изменения их архитектуры путем встраивания в шаблоны их страниц небольшого скрипта, по аналогии c Dapper Semantify, так и внедрение программных решений по виртуализации источников структурированных данных, например реляционных СУБД, с использованием серверов D2R, OpenLink Virtuoso или каких-то других, в зависимости от предъявленных требований.

Помимо этого, будет создан индекс объектов рунета и предложены программные интерфейсы по их поиску. Сторонние разработчики смогут создавать собственные приложения на их основе. В случае с Имхонет, может быть реализован собственный плагин к интернет-браузеру, который будет запрашивать тип сущности отображаемой пользователю веб-страницы, чтобы идентифицировать её во внутреннем каталоге ресурса. Или могут быть разработаны нишевые семантические поисковики, к примеру, по людям или туристическим турам. За определённую абонентскую плату будут сниматься ограничения на кол-во обращений к сервису и предоставляться расширенный функционал (например, вывод новой информации на основе имеющейся, уведомления при появлении информации о новом объекте или изменении старого).