• Netpeak Blog
  • об интернет-маркетинге и не только

« На главную Netpeak

TwitterCounter for @Netpeak_ua
Алексей Борщ

Плотность ключевых слов и восстание машин к 2020 году

Алексей Борщ
google-plus

18 Окт 2010

(5,00 из 5 на основе 6 оценок)
Loading ... Loading ...
Tweet
654
A
A
A

Всем привет.

Сегодня у меня есть для вас немного полезной информации. Данный пост является не строгим переводом, а, скорее, изложением содержания статьи, которая находится вот тут – www.SEOmoz.org, плюс добавлены цитаты из Википедии для пояснения некоторых вещей.

6-techs-to-end-the-world-robots

Суть вопроса в том, что СЕОмоз создал систему, которая определяет ключевые слова в тексте. Но не просто подсчитывает все и выдает плотность ключевых слов, нет. Такой способ определения плотности ключей уже давным давно устарел и мир шагнул далеко вперед.

Сегодня мы рассмотрим несколько вариантов определения релевантности документа ключевому запросу. Итак, готовьтесь встречать искусственный интеллект и семантический поиск по смыслу написанного к 2020 году.

А пока рассмотрим, какие же алгоритмы используются для определения релевантности различных документов (часть информации взята из Википедии).

Еще в незапамятном XX веке началось развитие метода TF-IDF – (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов.

Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры схожести документов при кластеризации (выделение групп документов, похожих по смыслу).

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова в пределах отдельного документа.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в других документах. Учёт IDF уменьшает вес часто и  широко употребляемых слов.

Таким образом, мера TF-IDF является произведением двух сомножителей: TF и IDF.

Пример
Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100). Один из вариантов вычисления частоты документа (DF) определяется как количество документов содержащих слово «заяц», разделенное на количество всех документов. Таким образом, если слово «заяц» содержится в 1000 документов из 10 000 000 документов, то частота документа (DF) будет равной 0,0001 (1000/10 000 000). Для расчета окончательного значения веса слова необходимо разделить TF на DF (или умножить на IDF). В данном примере, TF-IDF вес для слова «заяц» в выбранном документе будет 300 (0,03/0,0001).

По наблюдениям Рэнда Фишкина за результатами выдачи Гугла, влияние on-page факторов вроде использования ключевых слов  или TF-IDF довольно мало. Даже в низкоконкурентных запросах не наблюдается такого, что бы кто-то мог просто написать больше раз свой ключевой запрос (или использовать синонимы), чем конкурент и улучшить позиции в выдаче.

И этот опыт, который подкрепился разговорами с сеошниками, заставил Фишкина верить в то, что поисковые машины ранжируют более сложно, учитывая связи между словами и фразами.

Поэтому, СЕОмоз начал работу над крупным проектом, который назвали – LDA (Latent Dirichlet Allocation). Кому интересно распределение Дирихле из теории вероятностей, которое использовалось в данной системе, может почитать о нем вот тут – Распределение Дирихле. В двух словах скажу, что оно описывает связь между словами. То есть, какое слово чаще всего используется с каким-нибудь другим, какие слова вообще вместе не используются и т.д.
Все это подводит нас к тематическим моделям.

Почему поисковым машинам необходимо тематическое моделирование?

Некоторые запросы являются довольно простыми. Поиск по запросу «Википедия» не слишком сложный и результаты по такому поиску может вернуть даже простая поисковая машина.

Но, некоторые другие запросы не являются такими же простыми. Давайте посмотрим как поисковые системы могут упорядочивать два результата – простая проблема, которая, в большинстве случаев, может быть комплексно решена несколькими методами, в зависимости от ситуации.

Запросы привожу на английском языке, как есть в оригинале.

Плотность ключевых слов и восстание машин к 2020 году, 1

Так как Контент А содержит слово «Batman», а контент В – нет, то ПС может легко выбрать, какой же запрос поставить выше в выдаче.

Плотность ключевых слов и восстание машин к 2020 году, 2

ПС может использовать TF*IDF для определения того, что слово «Wiggum» имеет меньшую частоту употребления, чем «chief» и поэтому, Контент А будет считаться более релевантным запросу.
Обратите внимание, что данный пример ясно показывает недостаток такой метрики, как плотность ключевого слова.

Плотность ключевых слов и восстание машин к 2020 году, 3

Используя знания о совместном использовании слов, ПС определит, что «Daily Planet» и «Clark Kent» появляются чаще со словом «Superman» и поэтому, Контент В будет более релевантен, чем Контент А, в котором есть точное вхождения ключа в текст!

Плотность ключевых слов и восстание машин к 2020 году, 4

Прочитав оба предложения, мы можем сделать однозначный вывод, что Контент В описывает музыкальный инструмент – пианино – и женщина играет на нем. Но, поисковая машина, вооруженная методами, которые мы описывали раньше, будет бороться с этими предложениями, т.к. оба они используют слова «keys» и «notes», которые являются только ключами к головоломке.

СЕОмоз рад, что их система LDA поставила Контент В выше, чем А. Значит, их алгоритмы на правильном пути.

Решение

Для более комплексных запросов или когда большое влияние на результат могут оказать множество связей в контенте, ПС необходимы пути, для определения цели данной страницы. То, что на странице повторяется 4 или 5 раз ключевое слово, совсем не означает, что страница действительно релевантна запросу пользователя.

Исторически сложилось так, что много сеошников прикладывали очень много усилий в  данном направлении, поэтому то, что делает СЕОмоз не является революционным и тематическое моделирование, которое включает в себя LDA, всегда было вокруг да около. Но, никто из тех, кто развивается в данном направлении, не делал такую систему общедоступной или сравнимой с результатами выдачи Гугла, что бы показать, как могут влиять на позиции данные сигналы.

Итак, суть ясна, я думаю. Плотность ключевых слов была хороша раньше, сегодня мир шагнул далеко вперед в данном направлении. Так давайте же заглянем внутрь и посмотрим на сердце данного метода.

Векторное пространство терминов и Тематическое моделирование

Упрощенная модель векторного пространства

Плотность ключевых слов и восстание машин к 2020 году, 6

Представим себе, что в данный момент существуют только две темы – «Собака» и «Кошка», а все остальные слова в разной степени связаны с этими двумя тематиками. К примеру, слово «клык» чаще всего используется со словом «Собака» а «Вискас» с «Кошка». В действительности, так и есть, любые два слова связаны между собой более или менее сильно. Эта модель просто представляет эти связи математически.

К сожалению, изобразить больше, чем три тематики (три измерения), мне очень сложно, но вы должны помнить, что таких тематик много. Соответственно и измерений много. И каждое слово можно отнести частично к этой тематике, частично к другой. И получаются вектора в многомерном пространстве.

Кому интересно углубиться в векторное пространство, вот вам материалы Стэндфордского Университета по этому поводу.

К сожалению, у LDA очень много ограничений пока что. Он работает только для англоязычных сайтов и, конечно же, не является полной и стопроцентной картиной. Так как это, все таки, не Гугл.

Так же, LDA не использует пока что фразы и очки в % по LDA являются относительными, так как это только что запущенная версия и в ней есть свои недочеты.

И, следует запомнить, что увеличение кол-ва ключевых слов может помочь получить больше очков в LDA, но вряд ли поможет улучшить позиции.

Прошу всех не упускать из головы то, что система делалась 10 месяцев двумя математиками-программистами, а в Гугле работают не двое. Думаю, что обещания Гугла по поводу семантического поиска имеют под собой серьезную основу. Роботы прогрессируют и готовятся захватить человечество. Поэтому нам нужно внимательно за ними следить, что бы не упустить тот момент, когда начнется восстание машин.

Дуже сподиваюсь, шо ци материалы помогут в написании тематических текстов копирайтерам. Да и сеошникам они довольно полезны.

Всем спасибо за внимание, доброго дня, успехов или удачи (в случае Апокалипсиса) (с) ;D

Похожие записи

  • Нет похожих записей
Tweet
Опубликовано в Google, Research, SEO, Учимся, Яндекс
8P
  • dis

    пора изучать способы обращения с холодным и огнестрельным оружием, записываться на курсы выживания в лесах и заброшенных городах, заниматься йогой и практиковать какие-то восточные учения, чтобы в случае восстания машин быть готовым )

  • Svyat

    Это стоит делать вне опасности востания машин. Так, на всякий случай.

    А статья отличная. Тони, ты умничка! Тыщщу всего интересного узналь.

  • kostyl

    Наш с Tony утренний диалог:
    -Ты читал статью на блоге про релеватность страниц запросам? Ее какой-то Алексей Борш выложил.
    -Ну вот и познакомились. Я и есть А.Борщ.

    :)

  • Alex

    наконец-то добрался до этой статьи. Тони, большое спасибо! И спасибо Рэнду :)

  • Денис

    А какова вероятность того, что Гугл пользуется этим ЛДА?

  • Tony_Stark

    Сеомозовским LDA, я думаю, Гугл не пользуется :) У них должно быть что-то круче. Все таки, столько лет и столько людей там над этим работают.

  • Al

    Я только-только занялась SEO, поэтому мне не совсем понятно: например, пример про шефа Вигама, где система «выбирает» «Вигам», как наименее конкурентное слово, чем «шеф». Делается вывод, что это доказывает, что плотность ключевых слов особо не играет роли.
    Но ведь выше в статье расчет TF-IDF – веса для слова «заяц» ведется как раз в зависимости от плотности этого слова в тексте, разве нет?..
    «Если документ содержит 100 слов и слово «заяц» встречается в нём 3 раза, то частота слова (TF) для слова «заяц» в документе будет 0,03 (3/100).» Далее уже эта мера делится на DF – т.е. если плотность слова в тексте будет больше, то и TF будет больше, а значит и вес слова (например, при еще одном использовании – 4-м, вес будет уже 400, а не 300).
    Таким образом, грубо говоря, если увеличить плотность слова «шеф» так, чтобы вес слова «шеф» был больше веса слова «Вигам», то система поставит выше сайт с «шефом». Идет прямая зависимость И от плотности, И от частоты, а не только от частоты. Правильно?

blog comments powered by Disqus

Netpeak рекомендует

2leep.com
Подписаться на RSS
Подписка на рассылку
Будь с нами
Комментарии Теги Рубрики
  • Viktor ;) » Когда и что публиковать брендам в Facebook
  • vipseoblog.ru » Алгоритм Google Penguin, 2 недели феерии, способы избавления от фильтра и черное SEO
  • Artem Chek » Экcплуатация Doodle
  • Паутиныч » Алгоритм Google Penguin, 2 недели феерии, способы избавления от фильтра и черное SEO
  • rededis » Алгоритм Google Penguin, 2 недели феерии, способы избавления от фильтра и черное SEO
  • Margarita » Wolfram|Alpha или Вычислительная Теория Всего
  • Максименюк Александр » Определение лучшего времени для рассылки
  • Eugene Obrazok » Определение лучшего времени для рассылки
  • » Алгоритм Google Penguin, 2 недели феерии, способы избавления от фильтра и черное SEO
  • HoLoD » Алгоритм Google Penguin, 2 недели феерии, способы избавления от фильтра и черное SEO
Интересное Контекстная реклама Конференция Работа Советы Спам Юмор Яндекс блог видео вирусы вконтакте гугл день рождения дизайн интернет-маркетинг контекст креатив маркетинг новичкам новый год одесса офис поиск праздник пятница работа раскрутка реклама совет социальные сети статистика статьи твиттер фейсбук юзабилити digital facebook Google netpeak SEO smm SMM twitter youtube
  • Google
  • Research
  • SEO
  • SEO-среда
  • SMM
  • Благодарности
  • Интересное
    • Интервью
    • Инфографика
    • Репортаж
    • Рецензии
  • Контекстная реклама
  • Копирайтинг
  • Маркетинг
  • Мероприятия
  • Наши проекты
  • Новости
  • Правила
  • Работа
  • Учимся
  • Юмор
  • Яндекс

Золотые посты

  • Азы типографики: нескучно о шрифтах
  • Внезапно про бывшего мэра Боготы и его замечательные идеи
  • О тех, кто редактирует в свободное время википедию
  • Интервью про digital с преподавателем Британки — Дмитрием Карповым
  • Интервью с Сергеем Петренко — генеральным директором Яндекс.Украина

Twitter

  •  

Услуги

  • Аудит сайта
  • Юзабилити сайта
  • Продвижение сайта
© Блог студии Netpeak
Save to foursquare
О нас Работа в Netpeak Партнеры Клиенты Услуги Информационное спонсорство
Раскрутка сайта и контекстная реклама с 2006 года.
Главная ›
Блог ›
Google ›
Плотность ключевых слов и восстание машин к 2020 году