Владислав Дорофеев - Яндекс Воложа. История создания компании мечты

Все авторские права соблюдены. Напишите нам, если Вы не согласны.
Описание книги "Яндекс Воложа. История создания компании мечты"
Описание и краткое содержание "Яндекс Воложа. История создания компании мечты" читать бесплатно онлайн.
«Яндекс» — это, конечно, компания мечты. По всем параметрам. В пятерке поисковиков мировой Сети, в тридцатке самых инновационных компаний мира, и одно из самых желанных мест для работы в России. Бизнес, возникший из головы, интеллекта, знаний, упорного труда, способности к риску и удачи — возникший, несмотря на давление со стороны инвесторов, власти и конкурентов.
Из увлекательного повествования, максимально приближенного к хронике, понятно, что «Яндекс» — это невероятная по силе и напору машина генерации событий, явлений и открытий. Во главе с Аркадием Воложем компания на протяжении уже более полутора десятков лет находится на гребне успеха.
В процессе работы над книгой автор, профессиональный журналист, задействовал сотни источников и десятки личных контактов. Прочтите эту уникальную книгу, и вы наверняка извлечете для себя рецепты построения своей компании и команды мечты.
Секретов больше нет.
Для сбора статистики «Яндекс» использует Национальный корпус русского языка и свои собственные корпуса, где собрано огромное количество текстов в электронном виде.
После снятия омонимии поисковая система уже не будет искать слова, которые пользователь точно не имел в виду. В то же время, если ограничить поиск только словами из запроса, в поле зрения поисковой системы не попадут многие нужные документы. Ведь для одного и того же понятия в разных текстах могут использоваться разные слова, например на одном сайте может стоять аббревиатура, а на другом — полное наименование.
Для того чтобы учесть все возможные варианты, «Яндекс» расширяет запрос, добавляя другие формулировки с тем же смыслом. Например, вместе со сложносокращенным «физтех» «Яндекс» будет искать и официальное «Московский физико-технический институт», а по запросу «установка скайп» — еще и английское skype. Точно так же «Яндекс» добавляет в запрос разные написания чисел («Петр I» и «Петр Первый»), близкие по смыслу однокоренные слова, варианты написания и синонимы. Так, если в запросе есть «воронежский», система может добавить к нему однокоренное «Воронеж», к «авто-сервис мицубиши» — «автосервис мицубиси», а к «ветерок» — похожее «бриз». Выбирая, какое слово добавить, а какое нет, «Яндекс» смотрит, как часто это слово встречается с другими словами запроса — и в вопросах пользователей, и вообще в текстах. Однокоренные слова и синонимы система берет из соответствующих справочников и словарей, часть из которых «Яндекс» сам составляет специально для таких случаев.
Анализируя запрос, поисковая система выделяет в нем различные объекты — географические названия, имена людей, названия организаций и т. д. Например, если поисковая система поймет, что «Сергей Зубов» — это человек, она не будет расширять фамилию «зубов» «зубным» или искать стоматологические клиники. А если в запросе «аптеки на Парке культуры» система обнаружит, что «Парк культуры» — это место, она учтет это при ранжировании: в результатах поиска первые строчки займут документы, в которых слова «парк» и «культуры» идут подряд. Для выделения устойчивых фраз и объектов «Яндекс» тоже составляет различные справочники — например, словарь топонимов (географических названий), словарь имен и фамилий, справочник организаций, словарь устойчивых словосочетаний. Получив запрос, система каждый раз проверяет по справочникам, есть ли в нем устойчивые словосочетания.
Анализируя запрос, поисковая система всегда проверяет его на грамотность. По статистике «Яндекса», около 12 % запросов содержат ошибки. Это могут быть опечатки, орфографические ошибки или абракадабра, которая получается при неправильной раскладке клавиатуры. Если искать ровно то, что указано в поисковой строке, человек так и не получит нужный ему ответ — ведь на большинстве сайтов слова все-таки написаны грамотно. Поэтому те слова, в которых часто допускают ошибки («агентство», «винегрет») или по которым нет хорошего ответа на вопрос, «Яндекс» сразу же исправляет и показывает ответ уже на исправленный запрос. Разумеется, предупреждая пользователя, что запрос был исправлен.
В некоторых случаях сложно определить, ошибся пользователь или нет. Например, ресторан «Фуджияма» очень похож на вулкан Фудзияма, а фамилия футболиста Массад на «Моссад» (а также на «массаж» и крепость «Массада»). В таких случаях, показывая ответ на исходный вопрос, «Яндекс» спрашивает, не ошибся ли человек и не хочет ли он увидеть ответ на исправленный запрос. Есть еще один вариант — когда система не уверена, опечатался человек или нет, она покажет на одной странице результатов поиска ответы сразу на два вопроса — на заданный, в котором предположительно есть опечатка, и на исправленный.
На работу с ошибками и весь лингвистический анализ уходят доли секунды. За это время система успевает определить язык запроса, разобрать каждое слово, найти синонимы и устойчивые сочетания и в конечном счете решить, документы с какими словами нужно искать.
Последние три года работы под крышей CompTek-матки стали периодом особенно бурного развития для проекта Яndex, который Волож постепенно начал готовить к отделению от CompTek — вместе с собственным отделением. По воспоминаниям ветеранов «Яндекса», на тот момент «вся команда портала составляла около десяти человек».
К моменту старта проекта Яndex поисковая система умела выполнять проверку уникальности найденных документов (исключение копий в разных кодировках), Яndex учитывал морфологию русского языка (и поиск по точной словоформе), осуществлял поиск с учетом расстояния (в том числе в пределах абзаца — точное словосочетание), а тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу) учитывал не только количество слов запроса, найденных в тексте, но и его относительную частоту для данного документа, расстояние между словами и положение слова в документе.
Практически одновременно со стартом Яndex в публичном пространстве появился раздел «Сказки» (наблюдения за содержанием русского Интернета). Первая опубликованная 30 сентября 1997 г. сказочная история называлась «Web — гуманизм или чернуха?». Выглядела она довольно пафосно.
Web — гуманизм или чернуха? Сегодня можно точно ответить — гуманизм, со счетом 404 на 134. Перевес (в три раза) — солидный для нашего времени. Запустив наконец свою поисковую машину, мы получили удобную возможность исследовать русский Web «от себя лично», не думая о том, что иностранные поисковые машины не понимают русские кодировки и вообще далеко от России, а также не мучаясь над заданием всех склонений и спряжений.
Любители изящной словесности и ревнители русского языка скажут, что сравнение «чернуха — гуманизм» слишком прямолинейно и недостаточно для столь сильного вывода. Попробуем привести ряд примеров, которые нам представляются убедительными. Простейшая антитеза: «добро — зло». Получается: добро (3710) + добрый (10 098) + доброта (593) = 14 401; зло (3153) + злой (3248) + злость (453) = 6854. Соотношение: 14 401 / 6854 = 2,1.
Аналогичные примеры: счастье (6876) + счастливый (5672) = 12 548; несчастье (1301) + несчастливый (208) + несчастный (3082) = 4591, соотношение: 12 548 / 4591 = 2,73; хорошо (28 174) + хороший (26 295) = 54 469, плохо (12 134) + плохой (6697) = 18 831, соотношение: 54 469 / 18 831 = 2,89.
Более сложный пример: любовь (17 699) + любимый (9101) + любить (19 836) = 46 636 перекрывает не только: ненависть (1313) + ненавистный (306) + ненавидеть (1460) = 2079, но и большой список вроде — секс (2816) + сексуальный (2803) + порно (123) + порнографический (339) + эротика (554) + эротический (1072) + порнуха (96) = 6803. Соотношение: 46 636 / (2079 + 6803) = 5,25.
Набор слов: мерзавец (305) + негодяй (559) + подлец (394) + сволочь (669) = 1927 перекрывается набором — вера (7013) + надежда (10 450) + любовь (17 699) = 35 162. Даже если убрать все имена собственные (наш язык запросов отличает слова с большой и маленькой буквы), то получится Вера (2570) + Надежда (2375) + Любовь (3357) = 8302, остается 35 162 — 8302 = 26 860. А «неверия» всего 141. Соотношение: 26 860 / (1927 + 141) = 11,26.
Приведенные результаты оказались для нас самих приятны и несколько неожиданны. Все, кого заинтересовала эта «занимательная арифметика», могут провести собственное исследование, зайдя на сервер http://yandex.ru и воспользовавшись поисковой системой Яndex-Web. Можно делать и более сложные эксперименты, сравнивать словосочетания (язык запросов Яndex позволяет находить два слова подряд).
Запрос «хороший / 1 человек» («хороший» стоит сразу до или сразу после слова «человек», и все это во всех склонениях) находит 308 документов. Запрос «(плохой, нехороший) / 1 человек» («плохой» или «нехороший» сразу до или после «человек») — 85. Даже вместе со словом «редиска» (46 документов) проигрывает более чем в два раза.
Мудрено (я бы даже сказал — заумно), а главное — натянуто, выспренно. Похоже, инициаторы «Яндекса» хотели успокоить себя и потенциальных пользователей Интернета — на тот момент, конечно, изысканную, образованную и чаще моральную публику, которая, соответственно, мучилась нравственными вопросами (в отличие от подавляющего большинства пользователей нынешней Сети).
К концу ноября 1997 г. уже был реализован принцип естественно-языкового запроса. То есть к http://yandex.ru можно было обращаться просто «по-русски», например: «где купить компьютер», «генетически модифицированные продукты» или «коды международной телефонной связи». Яndex на тот момент умел выполнять проверку уникальности найденных документов, исключая из результатов поиска сохраненные в различных кодировках веб-страницы с одинаковым содержимым, осуществлять оценку расстояния между искомыми словами в обнаруженных документах и определять «точность» поиска.
Разговаривайте с «Яндексом» человеческим языком! Этот призыв из 1997 г. актуален и по сей день. В конце 1997 г. средняя длина запроса равнялась всего 1,2 слова (примерно в два с небольшим раза короче нынешнего запроса).
Подписывайтесь на наши страницы в социальных сетях.
Будьте в курсе последних книжных новинок, комментируйте, обсуждайте. Мы ждём Вас!
Похожие книги на "Яндекс Воложа. История создания компании мечты"
Книги похожие на "Яндекс Воложа. История создания компании мечты" читать онлайн или скачать бесплатно полные версии.
Мы рекомендуем Вам зарегистрироваться либо войти на сайт под своим именем.
Отзывы о "Владислав Дорофеев - Яндекс Воложа. История создания компании мечты"
Отзывы читателей о книге "Яндекс Воложа. История создания компании мечты", комментарии и мнения людей о произведении.