[an error occurred while processing this directive] [an error occurred while processing this directive]
[an error occurred while processing this directive]
Свободные мысли о свободном софте
[an error occurred while processing this directive]
Logo CitForum CITForum на CD Форумы Газета Море(!) аналитической информации!
[an error occurred while processing this directive]
[an error occurred while processing this directive]
[an error occurred while processing this directive]
IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware
[an error occurred while processing this directive] [an error occurred while processing this directive]
[an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive]

21.07.2018

Google
WWW CITForum.ru
[an error occurred while processing this directive]

Новости мира IT:

Архив новостей

[an error occurred while processing this directive] [an error occurred while processing this directive]
[an error occurred while processing this directive]
Пятнадцатая техническая конференция «Корпоративные базы данных-2010»
Москва, 22–23 апреля
С Новым годом!

Генеральный спонсор
Техническая конференция
Корпоративные базы данных – 2008
Москва, 24–25 апреля
При поддержке РФФИ

Спонсор
[an error occurred while processing this directive] [an error occurred while processing this directive]
На правах рекламы
2005 г.

Попробуйте считать на русском

Владимир Поляков
доцент МИСиС и МГЛУ, к.т.н.

О секретах поисковых технологий написаны уже терабайты электронных текстов. Сегодня только ленивый не пишет об алгоритме PageRank на Google или о маркетинговой стратегии Яндекса при размещении платных ссылок.
Я же хотел обратить ваше внимание на вопросы, возникающие с использованием русского языка как поисковыми системами, так и систем анализа, продвижения и управления ресурсами.

Уже стала расхожим штампом фраза Тургенева о русском языке, великом и могучем. Одной из «национальных особенностей» нашего языка является его уникальная морфологическая система. Морфология – это наука о правилах словоизменения и словообразования. Все мы в школе постигали азы русской морфологии: корень, суффикс, приставка, окончание. Кстати, именно окончание, или, по-научному, флексия – самая большая головная боль разработчиков русскоязычных поисковиков. Флективность русского языка, то есть способность слов менять свое окончание в зависимости от рода, числа и падежа заставляет разработчиков поисковых машин придумывать сложнейшие алгоритмы и модели обработки текста. Все так сложно, скажете вы? Да, и это только начало. На горизонте уже стоит задача обработки омонимии (совпадения разных слов в их написании), выявление словосочетаний и синонимических парафраз, разрешения лексической многозначности и многое, многое другое. Но в секретные лаборатории алхимиков Рунета мы заглянем с вами в следующий раз. Это выходит за рамки нашей темы. Сегодня мы говорим только о морфологии.

К счастью в семидесятые годы морфология русского языка была очень удачно и практически исчерпывающе описана А.А. Зализняком, ставшим в последствие академиком РАН. Вышел в свет Грамматический словарь русского языка, который выдержал несколько переизданий и по сей день пользуется заслуженной славой среди специалистов по компьютерной лингвистике. Именно этот ресурс послужил основой успешного решения проблемы русской морфологии. На сегодняшний день существует несколько морфологических анализаторов, работающих на разных принципах. Наиболее продвинутую модель, как в части скорости обработки так и в части полноты словаря, предложил Андрей Коваленко. Его продукт встроен в Апорт и Рамблер.

Зададимся вопросом «Почему для русскоязычных поисковиков так важен учет морфологии? Не усложняем ли мы проблему? Ведь вот, например, тот же Google в Рунете обходится без морфологического анализа, и вроде ничего».

О поисковой системе Google чуть позже, а сначала небольшой экскурс в историю становления дела поиска информации в Рунете. Мы не будем углубляться в исторические дебри Юрского Периода, когда Интернета еще не существовало, и поиск по текстам являлся частной задачей организации библиотечного дела. Начнем сразу с истории пяти-восьмилетней давности. На заре становления Инета было четыре конкурирующих поисковых системы, которые появились почти одновременно (разница в год-два имела значение только на первом этапе). Кто же это? Рамблер, Лист, Апорт и Яндекс.

Из этой великолепной четверки, Лист выделялся тем, что практически не обрабатывал русскую морфологию, остальные ее активно учитывали при индексировании текстов. В итоге через семь-восемь лет о поисковой системе Лист знают только специалисты по истории Рунета, она просто ушла в небытие. Яндекс при том, что он пришел на рынок позже Рамлера, завоевал огромную и вполне заслуженную популярность среди миллионов своих фанатов именно точным и аккуратным морфологическим анализом. Рамблер и Апорт также возглавляют список корифеев поиска в Рунете.
Теперь о Google. Поисковый гигант в течение пяти лет пытался перенести свой успешный опыт поиска без морфологии с англоязычного Интернета на русскоязычный. Каковы же итоги? Google так и не попал даже в тройку лидеров в Рунете и, похоже, что для осуществления своих амбициозных планов в Рунете Гуглу все же придется подружиться с русской морфологией.

Какой же вывод? Вывод простой. В Рунете без морфологии, как без воды –«и не туды, и не сюды». То есть – морфологический анализ в русскоязычной поисковой системе позволяет существенно повысить качество поиска. Это почти медицинский факт и спорить тут нечего. Ну как тут опять не отметить, что у этих русских снова свой особый путь даже в Интернете.

Итак, с поисковиками вроде все понятно. А как же обстоит дело с программным обеспечением для поискового продвижения? Дело в том, что история с поисковиками зеркально повторяется в истории с системами поисковой оптимизации. Ну с англоязычными системами все понятно. Им нет дела до русской морфологии. Все без исключения системы поисковой оптимизации в Рунете до 2005 года не учитывали морфологию. На сегодняшний день первым и единственным программным обеспечением, учитывающей русскую морфологию тем же способом, как российские поисковики, является продукт компании NetPromoter – программа Page Promoter. В ней это реализовано с помощью того же морфологического анализатора русского языка Андрея Коваленко, который используют российские поисковики. И все же, что же такого революционного ввела в свой комплекс компания NetPromoter? Насколько важно пользоваться программой, поддерживающую русскую морфологию? Допустим, вы используете какую-нибудь систему поисковой оптимизации, скажем «Забег», и она вам выдает статистику запросов по выбранным вами ключевым словам. Вы планируете свой рекламный бюджет на основании этих цифр. А в итоге оказывается, что и статистика совсем другая и бюджет сформирован в корне неверно.
Таким образом, приобретая программу, которая не учитывает морфологию русского языка, вы заранее соглашаетесь на получение данных со значительной погрешностью. Результат? Деньги, которые вы потратили на рекламу, работают не только неэффективно, но зачастую против вас, так как неудачное позиционирование в поисковых системах подсознательно воспринимается пользователем как спам и сильно бьет по репутации рекламодателя. А ведь, как говорится, чем чаще счет, тем дольше дружба. В программе Page Promoter эта ситуация практически исключена. Вы получаете абсолютно точную статистику по всем вашим запросам с полным учетом морфологии. Иногда разница по отдельным ключевым словам набегает в разы. Мы не будем сейчас останавливаться на других достоинствах этой уникальной системы поисковой оптимизации. Дотошный пользователь может испытать их сам на тестовой версии, которая всегда доступна на сайте компании.

Чтобы хотелось донести до внимательного читателя, зачастую у нас замечательная идея становится неэффективной из-за пренебрежения к деталям. В силу профессиональной деятельности, я неоднократно общался с разработчиками и промоутерами онлайн-проектов, потерпевших крах. Всем этим замечательным людям я бы посоветовал тщательнее относиться к инструментам реализации своих идей. Эта не та графа расходов, на которой можно сэкономить. Хотелось бы отметить, что зачастую в онлайне, так же как и в оффлайне, история ничему не учит. Экономьте деньги, господа! Не покупайте дешевое.

[an error occurred while processing this directive]
[an error occurred while processing this directive]
[an error occurred while processing this directive] [an error occurred while processing this directive]

Планирование сроков проекта и вопросы осуществления лидерством проекта рассматриваются на сайте по управлению проектами.

[an error occurred while processing this directive]
[an error occurred while processing this directive]
[an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive]

Размещение рекламы — тел. +7 495 6608306, ICQ 232284597

[an error occurred while processing this directive] [an error occurred while processing this directive]
[an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive] [an error occurred while processing this directive]

Редакция рекомендует:

Последние комментарии:

Что мы знаем об iPhone 4G? (7)
16 июля, 20:25

Подписка на новости CITForum.ru

Новые публикации:

7 июля

  • Управление параллелизмом с низкими накладными расходами для разделенных баз данных в основной памяти

  • Рекурсивные запросы в Oracle

  • Жесткий диск WD10EARS с сектором 4 КБ. Подготовка к эксплуатации в Linux.

    Обзоры журнала Computer:

    Газета:

  • Московские пробки - исследование IBM

  • От Osborne до iPad: эволюция портативных компьютеров

    19 мая

  • Прозрачный механизм удаленного обслуживания системных вызовов

  • Система моделирования Grid: реализация и возможности применения

    Газета:

    Майкл Стоунбрейкер:

  • Ошибки в системах баз данных, согласованность "в конечном счете" и теорема CAP

  • Дискуссия по поводу "NoSQL" не имеет никакого отношения к SQL

    29 апреля

  • Материалы конференции "Корпоративные Базы Данных-2010"

  • Разные облики технологии баз данных (отчет о конференции)

    14 апреля

  • MapReduce: внутри, снаружи или сбоку от параллельных СУБД?

  • Научные вызовы технологиям СУБД

    Обзоры журнала Computer:

    31 марта

  • Рационализация согласованности в "облаках": не платите за то, что вам не требуется

  • Взаимные блокировки в Oracle

  • Архитектура среды тестирования на основе моделей, построенная на базе компонентных технологий

  • Объектное представление XML-документов

    Газета:

  • Microsoft для российских разработчиков: практика с элементами фундаментальности

    10 марта

  • HadoopDB: архитектурный гибрид технологий MapReduce и СУБД для аналитических рабочих нагрузок

  • Классификация OLAP-систем вида xOLAP

  • BGP. Три внешних канала. Балансировка исходящего и входящего трафиков

    Газета:

  • Что мы знаем об iPhone 4G?

    17 февраля

  • MapReduce и параллельные СУБД: друзья или враги?

  • Объектно-ориентированное программирование в ограничениях: новый подход на основе декларативных языков моделирования данных

  • Системологический подход к декомпозиции в объектно-ориентированном анализе и проектировании программного обеспечения

    Газета:

  • Эволюция Wine

    3 февраля

  • Дом на песке

  • Реальное переосмысление "формальных методов"

  • Интервью с Найджелом Пендзом

    Газета:

  • iPad. Первый взгляд на долгожданный планшет от Apple

  • Я не верю в iPad [an error occurred while processing this directive]

    20 января

  • SQL/MapReduce: практический подход к поддержке самоописываемых, полиморфных и параллелизуемых функций, определяемых пользователями

  • Данные на лету: как технология потокового SQL помогает преодолеть кризис

    Обзоры журнала Computer:

    2 декабря

  • Сергей Кузнецов. Год эпохи перемен в технологии баз данных

    18 ноября

  • Генерация тестовых программ для подсистемы управления памятью микропроцессора

  • Сравнительный анализ современных технологий разработки тестов для моделей аппаратного обеспечения

    Все публикации >>>


    [an error occurred while processing this directive]
  • [an error occurred while processing this directive] [an error occurred while processing this directive]
    Купить сотовые телефоны в М.Видео
    Отличные цены на сотовые телефоны. Бесплатная доставка. Заказ в интернет-магазине и по телефону (495) 644-28-51
    www.mvideo.ru [an error occurred while processing this directive]

    Регистрация доменов в зонах .ru, .com, .net. Компания Rusonyx.

    IT-консалтинг Software Engineering Программирование СУБД Безопасность Internet Сети Операционные системы Hardware

    [an error occurred while processing this directive]
    Информация для рекламодателей PR-акции, размещение рекламы — тел. +7 495 6608306, ICQ 232284597 Пресс-релизы — pr@citforum.ru
    Послать комментарий
    Информация для авторов

    Редакция раздаёт котят!

    Rambler's Top100 TopList liveinternet.ru: показано число просмотров за 24 часа, посетителей за 24 часа и за сегодня This Web server launched on February 24, 1997
    Copyright © 1997-2000 CIT, © 2001-2009 CIT Forum
    Внимание! Любой из материалов, опубликованных на этом сервере, не может быть воспроизведен в какой бы то ни было форме и какими бы то ни было средствами без письменного разрешения владельцев авторских прав. Подробнее...
    [an error occurred while processing this directive]


    [an error occurred while processing this directive] [an error occurred while processing this directive] реклама:
    Производство и продажа серверов | забронировать гостиницу Санкт Петербурга | платный хостинг | IBM Rational. Аналитика и инструменты
    [an error occurred while processing this directive] [an error occurred while processing this directive]