Данная статья описывает видение инициативы semap.
Сегодня в Интернете пользователь сталкивается с огромным количеством слабо структурированной информации. Как правило, это текст или медиа-контент. В этих условиях помощь компьютера оказывается не слишком эффективной. Понимать тексты на естественных языках компьютеры пока не научились, поэтому максимум, на что может рассчитывать пользователь — это полнотекстовый поиск. С другой стороны, рекламодатели вынуждены покупать «ключевые слова», что также является весьма ограниченным, с точки зрения эффективности, инструментом продвижения товаров и услуг в сети.
Но предположим, что браузер умеет распознавать в тексте веб-страницы людей, организации, книги, фильмы, музыкальные произведения и другие сущности. В таком случае возможности компьютера, с точки зрения помощи пользователю, существенно расширяются. Например, если компьютер может идентифицировать, что в данный момент времени пользователь изучает фильм «Джентельмены удачи», то он может предложить ему дополнительную информацию и целый ряд действий, связанных с этим фильмом. Можно перейти в интернет-магазин, чтобы купить DVD, или просмотреть подробное описание фильма в Wikipedia. Или увидеть, в котором из ближайших кинотеатров показывают этот фильм, какие у него рейтинги, отзывы, постеры, кадры и другие изображения, какие фразы из этого фильма стали крылатыми и многое другое.
Вся эта информация окажется у пользователя «под руками» в уже готовом виде. Сегодня для достижения того же результата приходится копировать название фильма и делать запрос к поисковому серверу, а то и несколько, а затем разбираться в полученных результатах. При этом желательно знать про сервисы в сети, которые предоставляют дополнительные возможности. Например, вы едва ли найдёте в результатах поиска Яндекса цитаты из кинофильма — для этого нужно знать о существовании такого сервиса, как citaty.info.
Следующим этапом развития станет персонализация данных. Пользователь сможет максимально гибко настроить работу системы под свои нужды. Например, если он предпочитает покупать DVD-диски в books.ru, то именно этот магазин будет предлагаться ему в первую очередь. Кроме того, мы сможем отслеживать действия пользователя, и ненавязчиво собирать информацию о его предпочтениях.
С точки зрения поставщиков информации такой подход также окажется весьма интересным. Рассмотрим в качестве примера интернет-магазин. Сегодня ему приходится прилагать серьёзные усилия для того, чтобы привлечь покупателя на свой сайт. Используется навязчивая баннерная реклама, вызывающая раздражение у большинства людей. В нашем же случае, практически любое упоминание товара в Сети становится адресной рекламой. Если потенциальный покупатель зашёл на сайт kinopoisk.ru почитать отзывы о новом фильме, то ему будет тут же предоставлена информация о том, где можно выгодно купить DVD с этим фильмом. Конечно, на сайте kinopoisk.ru есть ссылки на интернет-магазины, но только на крупные, которые часто предлагают не самые выгодные условия для сделки.
В итоге, контекстная реклама перестанет существовать в том виде, в котором мы привыкли её воспринимать сейчас. Вместо показа контекстной рекламы по выявленным в тексте веб-страницы, или использованным при поиске, ключевым словам, она будет привязана к конкретным объектам. Допустим, человек просматривает информацию о Кипре в Wikipedia, в этом случае ему можно показать список туристических компаний, которые предлагают туры на этот остров, или отобразить данные о купле-продаже недвижимости в этом регионе — это зависит от предпочтений пользователия, которые могут быть собраны компьютером в зависимости от того, какие обьекты в сети он чаще всего изучает. Мы видим, что при таком подходе реклама становится более персонализированной и востребованной.
Можем ли мы уже сегодня предоставить пользователю такие возможности? Конечно, для того, чтобы в полной мере реализовать эту функциональность, необходимо проделать огромную работу. Нужно, чтобы страницы в Интернете содержали не просто текст, а специально размеченные данные. Возникает замкнутый круг. Для того, чтобы можно было воспользоваться новыми функциями, данные должны публиковаться в специальном формате. А для того, чтобы заинтересовать поставщиков информации публиковать данные в таком формате — должны быть востребованы новые функции.
Тем не менее, мы считаем, что изменить ситуацию вполне возможно. Мы предполагаем предпринять следующие шаги:
В англоязычном сегменте Интернета в рамках инициативы LinkedData за последние два года разработаны подробные источники размеченных данных, среди которых ключевую (связующую) роль играют метаданные, полученные из статей Wikipedia. По нашим сведениям, в русскоязычном сегменте сети нет подобных источников. Мы планируем повторить проделанный на Западе путь и базовую функциональность разработать на основе размеченных данных русскоязычной Wikipedia — это 12 219 фильмов, 498 сериалов, 1385 мультфильмов и т. д.
Следующим шагом будет установление кросс-сылок между статьями Wikipedia и популярными ресурсами, к примеру, для фильмов это будут IMDb, Кинопоиск, Афиша, WordArt, Озон. Мы преследуем две цели: во-первых, предоставить пользователям полезную информацию, собранную с разных сайтов, например, что фильм «Адмирал» на сайте kinopoisk.ru расположен по адресу http://www.kinopoisk.ru/level/1/film/280938/, а на сайте Озона — по ссылке http://www.ozon.ru/context/detail/id/4097579/?partner=kinopoisk. Во-вторых, разработать механизмы извлечения метаданных непосредствено из текста веб-страниц. Наличие таких технологий и опыта позволит нам оказывать коммерческим сайтам платные услуги.
В тексте веб-страницы выделяются ссылки и словосочетания на мобильные телефоны, книги, фильмы, страны и на другие объекты. При наведении на них мышкой выдаётся краткое описание сущности, а по нажатию — полное описание со списком предлагаемых услуг от интернет-магазинов и сторонних сайтов. Система будет реализована в двух вариантах: как скрипт для встраивания на сайтах и в виде расширений к популярным интернет-браузерам (MS IE, Mozilla Firefox). В первом варианте аннотирование веб-ссылок и словосочетаний в тексте веб-страниц будет работать только на отдельных сайтах, но для всех посетителей и во всех интернет-браузерах. Во втором же случае, указанный функционал будет доступен для всех без исключения сайтов, но только для тех пользователей, которые установят соответствующее расширение к браузеру.
Для публичного запуска мы выбрали предметную область фильмов, как самую разноплановую и популярную для широкого круга пользователей. Например, если пользователь открывает страницу с описанием фильма на сайте магазина Ozon, то наш плагин сможет идентифицировать это, и отобразить пользователю следующую информацию.
Очевидно, что мы легко сможем наращивать функциональность нашей системы, как за счёт увеличения качества и количества предоставляемых сервисов, так и за счёт добавления новых типов сущностей.
Пользователи наверняка захотят получить аналогичные функции при работе с профилями людей, книгами, музыкальными произведениями, изображениями, организациями, всевозможными товарами и услугами. Особенно интересно будет добавить возможность перекрёстных ссылок между объектами. Тогда, например, пользователь сможет быстро перейти от просмотра информации о кинофильме к данным о книге, по которой фильм снят. А от информации о книге к данным об издательстве, которое её выпустило.
Со временем, когда система научится работать с большим числом сущностей, появится возможность разработать полнофункциональный поисковик. Пользователи смогут задавать вопросы поисковику на естественном языке. Допустим, такой: «В каком году родился президент России?» и получить ответ: 14 сентября 1965 года (Президенты Российской Федерации → Дмитрий Анатольевич Медведев → Дата рождения), с возможностью перехода к списку всех бывших президентов России или к просмотру информации о Дмитрии Медведеве.
Возможен и более сложный вариант взаимодействия с поисковиком. Например, пользователь в строке поиска задаёт: «Мобильный телефон Nokia». Система выдаст список популярных на текущий момент моделей мобильных телефонов этой марки, ссылки на статьи с обзорами и генерируемую автоматически таблицу с детализацией параметров искомого телефона. Пользователь может просмотреть предложенные обзоры, перейти к конкретной модели телефона, чтобы увидеть полную информацию по ней и список предложений от интернет-магазинов, или конкретизировать запрос путём установки ограничения поиска по цене или любому другому параметру.
Интернет-магазины заинтересованы в том, чтобы пользователь, встретивший ссылку на сотовый телефон или его название в тексте веб-страницы, среди прочего увидел предложение от этого интернет-магазина купить его. При этом система проследит, чтобы этот телефон был представлен в ассортименте и доступен на складе. Возможны два варианта сотрудничества — это плата по клику, т. е. по факту перехода по ссылке, или по партнёрской программе, т. е. процент от совершённой сделки. Помимо интернет-магазинов по такому сценарию могут работать любые другие сайты, заинтересованные в продвижении своего контента и услуг.
Когда преимущества навигации по объектам станут общепризнанными и возникнет рынок по разметке данных, появится потребность в разработке компьютерных описаний для предметных областей сайтов и в обогащении их размеченными данными. Мы сможем предложить готовые решения и оказывать полный комплекс услуг по консалтингу и внедрению в этой области. Это может быть как обогащение сайтов размеченными данными без изменения их архитектуры путем встраивания в шаблоны их страниц небольшого скрипта, по аналогии c Dapper Semantify, так и внедрение программных решений по виртуализации источников структурированных данных, например реляционных СУБД, с использованием серверов D2R, OpenLink Virtuoso или каких-то других, в зависимости от предъявленных требований.
Помимо этого, будет создан индекс объектов рунета и предложены программные интерфейсы по их поиску. Сторонние разработчики смогут создавать собственные приложения на их основе. В случае с Имхонет, может быть реализован собственный плагин к интернет-браузеру, который будет запрашивать тип сущности отображаемой пользователю веб-страницы, чтобы идентифицировать её во внутреннем каталоге ресурса. Или могут быть разработаны нишевые семантические поисковики, к примеру, по людям или туристическим турам. За определённую абонентскую плату будут сниматься ограничения на кол-во обращений к сервису и предоставляться расширенный функционал (например, вывод новой информации на основе имеющейся, уведомления при появлении информации о новом объекте или изменении старого).