ГАЗЕТА "ИНФОРМПРОСТРАНСТВО"

АНТОЛОГИЯ ЖИВОГО СЛОВА

Информпространство

Ежемесячная газета "ИНФОРМПРОСТРАНСТВО"

Copyright © 2007

Елена Колмановская


Интернет — интересное пожизненное занятие

Елена Колмановская — один из создателей поисковой системы Яндекс вместе с нынешним генеральным директором компании Аркадием Воложем и техническим директором Ильей Сегаловичем. Она окончила Российский государственный университет нефти и газа (знаменитую «Керосинку»). Там она встретилась с А. Воложем, в 1996 году пригласившим ее на работу в CompTek. К моменту появления интернета в России была создана поисковая технология, которая потом стала ядром поисковой системы, собраны люди, ставшие впоследствии ядром Яндекса. С тех пор прошло десять лет. О достижениях и проблемах «российского поисковика №1» главный редактор газеты «Информпространство» Евгений Бень беседует с главным редактором Яндекса Еленой Колмановской.

Елена Колмановская

- Я внимательно слежу за Яндексом и воспринимаю его как информационное явление общероссийского масштаба высокой технологической ступени. В системе Яндекс есть три элемента, в совокупности отличающие ее от большинства поисковиков. И первый из них — мощнейший новостной аппарат, системно выстроенный, чего мы не обнаруживаем даже в Рамблере, не говоря уже о других поисковых системах. Второе технологическое достижение — кнопка «Еще с сайта», одно нажатие которой позволяет получить массу дополнительной информации. И, наконец, третье: у Яндекса есть прямой выход на основные поисковые системы. Получается, что он, как первый канал телевидения в советское время, — большинство пользователей входит в интернет через Яндекс.

В нынешнем году вы отметили свое десятилетие…

— В сентябре 1997 года мы открыли сайт www.yandex.ru...

— А до этого были поисковики только на латинице?

— Уже была поисковая система AltaVista , которая узнавала кириллицу. Потом появился Рамблер, понимавший по-русски, но не знающий морфологии, то есть не умеющий склонять и спрягать. Понятно, ведь: чтобы начать поиск, должен был развиться интернет. Первоначально он сводился к новостным группам. Еще не стояла задача глобального поиска.

— Какие сильные стороны современной поисковой системы — такой как Яндекс — вы бы назвали?

— Кроме собственно поиска, который является сложной и постоянно развиваемой технологией, можно рассказать про извлечение фактов (fact extraction). Например, в поиске по новостям мы умеем не только оперативно собирать и индексировать сообщения от пары тысяч партнеров, но и выделять из них разные данные — список персоналий, географические сведения. Это интересное направление. Еще одна специальная технология применяется для поиска по блогам. Блоги отличаются от веб-страниц тем, что для них характерно постоянное добавление новых записей, а не изменение уже имеющихся. Наша технология позволяет ежедневно обработать более 200 тысяч постов.

Года три-четыре назад все почтовые системы были завалены спамом, и нам пришлось создать эффективную систему борьбы с ним – Спамооборону. И сегодня пользователи почты Яндекса могут спокойно работать, не обращая внимания на то, что спам занимает более 90% всего почтового трафика.

Мы, может быть, не столь масштабны в сравнении с мировыми системами просто потому, что свою задачу видим в индексировании русскоязычного пространства. Но по технологическому уровню мы не хуже.

— Почему российский «поисковик номер два» не делает простую, незамысловатую вещь, так же, как Яндекс — не выставляет переход на другие поисковые системы?

— Так поэтому он и «номер два». Вы сами ответили. Мы рассуждали так: странно думать, что в интернете что-то можно спрятать… А задача поиска как сервиса — дать людям максимально качественный результат. Если по какой-то причине результат окажется неудовлетворительным, пусть пользователь попробует найти результат в других поисковиках.

— Уязвимое место современного Яндекса общеизвестно. Речь идет о неожиданно возникшем отставании в системности индексации от других крупных поисковиков. Например, если мы ищем что-то в Google, то, скорее всего, получим сотню позиций с вполне адекватными наименованиями, прежде чем начнут встречаться всякие похожие предметы и явления. В Яндексе практически с самого начала мы часто наблюдаем винегрет: чуть ли не в первой десятке попадаются слова весьма приблизительного сходства. И это длиться уже около года. Чем это вызвано?

— Никак не могу согласиться с нашим «отставанием по системности индексации». Хотя проблемы, безусловно, существуют.

Дело в том, что поисковая система в интернете оказалась самым востребованным сервисом. Поиск приводит людей на сайты. Однако есть масса коммерческих сайтов, которые хотят получать трафик, поскольку он им нужен для бизнеса. Они не только покупают рекламу, но и стараются продвинуться выше в результатах поиска. Достигают они этого самыми разными способами. Деятельность по продвижению сайтов в поисковых системах называется оптимизацией. Это широкое поле деятельности от консультантов по созданию сайтов до «специалистов», которые пытаются обмануть поисковую систему… Это общая проблема, но у нас она больше, чем у других поисковиков в России, потому что против нас интереснее играть. Яндекс такой большой (на русскоязычном поле), и от нас можно получить сразу большой кусок трафика.

— В рамках современных поисковых систем возникает новая профессия «гуманитарный программист». Оказывается, что гуманитарное программирование требует совершенно особого типа мышления, не того, которое необходимо для математического программирования.

— Таких людей мы называем аналитиками. Они понимают, что алгоритм может, а что нет, и в то же время — что человек хочет, и что ему нравится. И вообще, можно ли как-то интерпретировать запрос. Вечная, всемирная претензия к поиску: почему он не ищет по смыслу? А поиск во всем мире абсолютно тупой. Он ищет по словам.

— Почему Яндекс не индексирует некоторые сайты на «com»?

— Яндекс индексирует то, что он считает Рунетом, куда входят все сайты в домене ru, ua и by, то есть России, Украины и Белоруссии. Плюс сайты, на которых мы видим русский, украинский или белорусский языки. Если это не то, не другое, не третье, мы не знаем, что нам с этим делать. У нас есть процедура ручного добавления. Если на сайте в домене «com» наш робот не распознал русского языка, получается, что это не наше поле. Какое-то количество, правда, все же индексируем. Владелец сайта может нам написать письмо, мы заходим, видим, что робот ошибся, — это повод для добавления в список индексации руками. А потом выясняем, почему ошибся робот.

— Вопрос, который носится в воздухе. Понятно, что поиск — это система свободного пространства, и от этого никуда не уйти. Но так же понятно, что сегодняшний интернет переполнен порнографией и человеконенавистничеством. Не думали ли вы закрыть индексацию на нецензурные слова?

— Такая проблема есть: выбор между демократической свободой слова и желанием воспитывать детей без контакта с улицей. Но мы как поисковая машина считаем себя зеркалом: что есть в интернете, то и отражаем. Дело не в том, что ребенок ищет порнуху и получает порнуху, а в том, что из-за спама ребенок ищет игрушку, а получает… игрушку для взрослых. Специально для борьбы с этим еще в 2002 году мы сделали семейный Яндекс — family.yandex.ru — для тех, кто готов поступиться частью информации, но при этом не вляпаться в грязь.

— Если бы Яндекс удалил из поиска нецензурные слова, — всего на три корня — его престиж от этого только вырос бы.

— Это ваше личное отношение к этим словам. Мне они тоже не нравятся, но что же делать… Интернет – это город. В городе есть прямые проспекты и темные подворотни, кино для приличных людей и совсем неприличных. Вас с детства научили ориентироваться в этом городе. Однако некоторые люди недавно приехали из деревни и еще не готовы к жизни в нем, другие же сидят у себя дома в уюте и совершенно не интересуются улицей. Но думать за людей, чего им можно, чего нельзя, как-то странно. Тем более что понятие нецензурных слов в последнее время сильно размывается — слова с корнями, которые вам не нравятся, звучат по телевидению, печатаются в книгах и газетах.

— По образованию вы программист-технарь. Понимаете ли вы, что занимаетесь структурированием общественного сознания. А это порождает новую философию — не только информационного пространства, но мира в целом. Сегодня интернет и поисковые системы в нем для человека мыслящего — больше, важнее, чем пресса и даже телевидение. Это универсум, образ мира. Что же будет дальше?

— Все-таки поисковики — это не философия. Есть явление — интернет, которое можно философски осмысливать. Поисковик, конечно, оказывает влияние на устройство сайтов, и если бы не было поисковика, интернет, вероятно, был бы иным.

Мы хотим быть всего лишь зеркалом, а иногда оказываемся увеличительным стеклом... Поисковая система должна отражать не то, что нам нравится, — там не место выражения наших мнений; она отражает некоторую реальность, имеющуюся в интернете. Поисковик — всего лишь инструмент. Поисковая система — это пустая строка вопроса: что спросите, то и получите. А получите вы картину мира в зависимости от вашего запроса. В ответах на два разных вопросах про одно и то же вы получите разную картину мира. Пока вы не спросили, никакой картины не будет.

— Ну и как будет дальше развиваться этот грандиозный инструмент?

— У этого инструмента уже сейчас есть конфликт между свободой информации и приватной неприкосновенностью. Уже сейчас в поисковике можно найти много чего про кого-то из нас. Все это само по себе не является секретом. Но когда это вываливается наружу, публично доводится до всеобщего сведения… И вот сам факт того, что одним запросом можно получить все сразу, у многих вызывает напряжение… Думаю, что через некоторое время общество выработает разумную грань между открытостью и приватностью.

С увеличением количества информации возникает очевидная проблема с ее качеством, точностью. Машина в принципе этого не умеет: дело человека следить за достоверностью информации. Хотя можно пытаться опознавать первоисточники.

У нас нет ощущения, что мы от кого-то отстали, и нам приходится только повторять общие слова с чужого голоса. Наоборот, есть ощущение, что перед нами огромное поле. И все поисковые системы мира внимательно наблюдают друг за другом, потому что интернет открыт для всех. И в этом смысле новая идея, если оказывается удачной, быстро распространяется. Мы не чувствуем себя ни учениками, ни плагиаторами, ни учителями. У нас общее поле, и мы вместе осваиваем целину.

Интернет – интересное пожизненное занятие.