Введение в поисковую оптимизацию |
Автор Administrator | |
Чтобы все поисковые машины могли адекватно проиндексировать сайт, он
должен иметь, как минимум, несколько относительно стабильных
HTML-документов, содержащих некоторый объем текста. Но если важен
трафик, а не сам факт регистрации на поисковой машине то без поисковой
оптимизации не обойтись.
Поисковая
оптимизация - это технология продвижения информационных ресурсов. Это
не спам, не проталкивание сайтов любой ценной к началу рейтинга
поисковых систем.
Увеличение конкурентоспособности проекта достигается
в результате выделения и усиления главной темы и повышения ее
релевантности запросам пользователей поисковых систем.
Поисковая оптимизация это не просто средство увеличения трафика,
влияя на релевантность страниц сайта (основываясь на анализе запросов
пользователей поисковых машин) можно добиться многого, но еще большего
можно добиться, если цель поставлена конкретно:
Раскрутка сайта (увеличение известности в заданном сегменте рынка).
Привлечение множества целевых посетителей (читателей, покупателей, контрагентов, партнеров). Удержание используемого сегмента рынка. Формирование более специализированных сегментов рынка.
Поисковая оптимизация не волшебная палочка, она не сможет сделать
никем не востребованный, ничего не содержащий ресурс популярным,
особенно при наличии жесткой конкуренции. Прежде чем что-то продвигать, необходимо сделать это "что-то" хоть кому-нибудь нужным!
Поисковая оптимизация предназначена для того, чтобы приблизить
востребованность проекта к максимально возможному значению. Но если
нужно поднять планку самого "максимально возможного значения", тогда
необходимо прибегнуть к наступательным рекламным технологиям.
Релевантность
Релевантность не является чем-то, что живет в HTML-документе само по себе. Релевантность это коэффициент соответствия HTML-документа запросу. Релевантность, рассчитываемая поисковыми машинами вещь очень субъективная, вследствие несовершенства алгоритмов и ограничений самих поисковых машин. Каждая поисковая система определяет релевантность HTML-документа, к запросу пользователя, в соответствии с заложенной в нее концепцией поиска. И хотя концепции у всех разные, ищут поисковые машины примерно одинаково, так как алгоритмы поиска построены на общих принципах. Основные отличия поисковых машин заключаются не в алгоритмах определения релевантности, в их реализации. В каталогах релевантность оценивают живые люди (модераторы), в их задачу так же входит сортировка ресурсов по разделам и отсечение спама. При запросе пользователя поисковая машина каталога рассчитывает релевантность, так же как и машина поисковой системы, но уже с учетом оценок модераторов. На оценку поисковой системы влияют десятки различных факторов, начиная с имени домена и заканчивая качеством каналов связи. Далее перечисляются поддающиеся оценке и управлению факторы, влияющие на релевантность HTML-документов: - Имя домена. - Тег <Title>. - МЕТА теги, <Keywords>, <Description>. - МЕТА тег <Robots>, файл robots.txt (или его отсутствие). - МЕТА тег <Refresh>, при значении близком к нулю. - МЕТА тег <Expires>, если указана прошедшая дата. - МЕТА тег <Document-state>, определяет режим индексации. - Размер HTML-кода, стоящего перед текстом. - Ошибки в коде. - Ошибки в тексте. - Объем текста. - Качество текста (стиль, содержание, востребованность). - Количество ключевых слов в HTML-документе. - Удаление ключевых слов от начала текста. - Кучность ключевых слов. - Точное соответствие ключевой фразе. - Выделение ключевых слов. Теги <B>, < H1 > - < H6 >, <STRONG>. - Теги <AREA>, <IMG>. - Тег <A>. - Тег <FRAME>. - Тег <SCRIPT>. - Тег <!-- Тег комментариев -->. - Теги <STYLE>, <BODY>, <FONT>, <TABLE>. - Размер изображений размещенных на документе. - Количество документов на сервере. - Количество "качественных" документов на сервере. - Количество "мусора" на сервере. - Организация ссылок внутри сервера (глубина, охват, количество). - Внешние ссылки на страницы сервера (качество, количество). - Рейтинг и соответствие теме серверов, с которых идут внешние ссылки. - Популярность сервера (количество обращений). - Время жизни сервера (страницы), чем больше, тем лучше. - Организация ссылок внутри сервера. - Качество виртуального сервера, на котором размещен ресурс (ограничения трафика, надежность).
Очень важные, но не управляемые факторы:
Организация сервера
Положение веб-страницы в рейтинге поисковой системы находится в прямой зависимости от времени ее жизни и популярности, чем больше - тем лучше. Если веб-страница будет переименована или перенесена в другой каталог, она потеряет свою рейтинговую историю. Поэтому структура расположения каталогов и страниц, на сервере должна быть организована так, что бы в процессе развития, не было необходимости, в их переименовании или переносе. При правильной организации структуры сервера, для сопровождения достаточно две операции: добавить и удалить. Отступление от этого правила целесообразно только при ведении архивов. Когда по истечении небольшого времени показа, страница переносится на "вечное" хранение в каталог архива. Некоторые поисковые машины индексируют не все HTML-документы на сервере, а только те которые лежат не глубже определенного уровня - гипертекстовых переходов. Поэтому желательно придерживаться правила четырех кликов, то есть страницы должны быть связаны ссылками так чтоб с главной (регистрируемой) страницы можно было попасть на любую другу (подлежащею индексации) за четыре перехода. Тег LINK, также может использоваться, для указания на следующий индексируемый документ. Не все поисковые машины могут проводить индексацию по ссылкам из тега FRAMESET. Чтобы избежать проблем, необходимо обеспечить альтернативную ссылку (теги LINK или A) или упростить дизайн. Такая же проблема может возникнуть и при использовании тега IMAGEMAP, если ссылки не будут продублированы тегам LINK или A. Роботы большинства поисковых машин не индексируют страницы, URL которых содержит символ '?' или символы не входящие в набор ASCII.
Подготовка документов
Поисковые машины оценивают ресурсы сети по содержанию их текстов. Значит, и продвигать, с помощью поисковых машин, эффективней документы, содержащие текст. Если текста мало, его релевантность может быть недооценена поисковой машиной. Когда текста много поисковая машина обработает только часть его (Rambler, AltaVista, . . .), остальное проигнорирует. Чтоб не испытывать судьбу, странички ресурса должны быть приведены к оптимальному для индексации состоянию. Все страницы нужно разбить на три группы: Страницы, содержащие рабочий объем текста, 30 - 300 строк (60 - 80 символов в строке), пустые строки не считать. Далее будем их называть опорными документами. Если страница содержит больше текста ее необходимо разбить или сократить. Страницы, содержащие мало текста (менее 30 строк), но имеющие ключевую для проекта информацию, будем называть документами второго эшелона. Третья группа - страницы, без ярко выраженной релевантности, и не имеющие большого значения для проекта. Опорные документы могут быть разной тематической направленности, но желательно не очень далекой, друг от друга. Весь текст в одном документе должен относиться к одной тематике. Желательно, чтобы текст документа был разбит на несколько частей (2 - 7), и каждая часть имела заголовок, выделенный тегом <Hx>. Опорный документ не должен содержать большого объема кода разметки (скриптов, таблиц стилей, тегов комментария). Если таблицы стилей и скрипты необходимы для корректной работы документа, они должны подгружаться из отдельных файлов тегами <SCRIPT> и <STYLE>. Теги комментариев, в версии документа, предназначенной для сервера, необходимо удалять, подавляющее большинство поисковых машин их игнорирует. Документ обязательно должен содержать тег <TITLE> и META-теги <DESCRIPTION> и <KEYWORDS>. Конечно, теги должны не просто присутствовать, а содержать информацию по выбранной тематике, в соответствие с назначением тега. Размер опорного документа не должен превышать 200 kb, желательно уложиться в 50 kb. Попадание страниц третьей группы в фавориты у поисковых машин мало вероятно. Но влиять на индексацию (замедляя ее) они могут, и общую релевантность проекта они тоже снижают. Что бы этого избежать, необходимо запретить, поисковым роботам индексировать страницы третьей группы. Замедление индексации может происходить вследствие того, что некоторые поисковые машины индексируют не все страницы сервера за раз. И место того, что бы проиндексировать опорные документы, робот проиндексирует страницы третьей группы. А часть опорных документов останется не проиндексированными. Со временем они тоже будут проиндексированы, но стоит ли терять это время. Перед тем, как документы будут выложены на сервер, они должны быть проверенны, на наличие ошибок в тексте и коде. Текст можно проверить в любом редакторе, проверяющем правописание. Для проверки кода нужна специальная программа, броузеры выдают сообщения об ошибках только в критических ситуациях. Если броузер сможет проигнорировать ошибку, он это сделает. Страничка с грамматическими ошибками едва ли будет серьезно восприниматься посетителями. А ошибка в ключевом слове снизит релевантность документа. Ошибки в коде могут сделать документ плохо или вообще не читаемым броузером посетителя. Либо понизить релевантность, повлияв на обработку тегов идущих после ошибки.
Подбор ключевых слов - теория
Термин ключевые слова далее будет относиться к словам, входящим в текст HTML документа и в предполагаемый запрос пользователя поисковой системы, ищущего информацию по тематике, совпадающей с тематикой документа.
Ключевые слова и релевантность.
Поисковые машины рассчитывают релевантность текста, строя частотный ряд из слoв. Чем чаще слoво встречается в тексте, тем большую, по отношению к запросу пользователя, релевантность оно получает. В зависимости от уровня конкуренции и поставленной задачи количество ключeвых слoв может колебаться от двух - трех до десятка. Чем на меньшее количество ключeвых слoв настроен документ, тем с большей частотой они могут встречаться в тексте, и тем выше их релевантность. Высоко релевантные документы ориентируются на два, три ключeвых слoва, каждое из которых встречается в тексте в соотношении близком к 1 к 20 (5%). Cлова, встречающиеся в тексте с большей частотой, могут быть восприняты поисковыми системами как спам.
Ключевые слова и объем потенциальной аудитории.
Ключевые слова должны подбираться с учетом частоты их использования, при поиске информации. Как правило, люди используют первые пришедшие в голову слова. Именно на эти Ключевые слова и нужно ориентироваться. Но наиболее высокая релевантность документа запросу возникает, когда совпадают не отдельные слoва, а фразы. Желательно (но не обязательно), чтобы в ключевые фразы входили только ключевые слова. В качестве ключeвых нужно выбирать фразы, которые с большой вероятностью могут быть использованы потенциальной аудиторией при поиске информации.
Ключевые слова и конкурентоспособность.
Чем большую релевантность имеют ключевые слoва, тем большую конкурентоспособность они придают документу. Но уровень релевантности конкурирующих ресурсов, из-за ряда внешних факторов (популярность, количество внешних ссылок), может оцениваться поисковыми машинами более высоко. В этом случае необходимо использовать синонимы или слова близкие по смыслу. При отклонении от группы наиболее популярных cлoв происходит уменьшение размера потенциальной аудитории на несколько порядков (1 - 3).
Очень важно учитывать объем потенциальной аудитории,
использующей для поиска слoва, на которые настроен документ. В
противном случае возможна ситуация, когда документ будет ориентирован
на крайне не значительную аудиторию. Использование общеупотребительных
слoв (автомобиль, книга, коммерция) охватывает сразу почти всех
пользователей сети ищущих информацию по этим темам. Но и конкурировать
придется со всеми ресурсами по данной тематике. Более
специализированные слова (карбюратор, фолиант, овердрафт) снизят
уровень конкуренции, но и размер аудитории уменьшится.
При работе с ключeвыми фразами объем потенциальной аудитории также зависит от размера фразы. Чем на более длинную фразу заряжен документ, тем ниже уровень конкуренции, но и размер аудитории меньше. Ориентироваться на фразу более чем из 4 слoв не имеет смысла - слишком мало шансов, что ее кто-нибудь наберет.
Подбор ключевых слов - практика
Прежде чем погружаться в поиск ключeвых слов, необходимо ответить на ряд вопросов о продвигаемом проекте: Что и зачем собираемся продвигать? Какие должны быть достигнуты цели, конечные, промежуточные? Не имея четкой постановки задачи, будет очень трудно определить, в каких разделах поисковых систем регистрироваться, каких клиентов необходимо привлекать, какие ключевые слова и фразы будут использовать потенциальные клиенты.
Ключевые слова
В документы, которые не содержат ярко выраженных ключeвых слoв вставлять мета тег KEYWORDS не рекомендуется. Документы с совсем размытым текстом и не содержащие узкоспециализированных терминов (синхрофазотрон, геном, правопреемственность) надо запрещать к индексации (мета тег ROBOTS). Для опорных документов ключевые слова должны подбираться тщательно и индивидуально. Документ, для которого производится подбор ключeвых слoв, далее будет называться рабочим документом или просто документом.
Источники ключeвых слoв:
Извлечь слoва из рабочего документа можно просканировав его программой "META Tuner". Далее добавляем к списку слoва, которые предположительно будут использоваться потенциальной аудиторией для поиска информации. На основе полученного списка слoв, с помощью поисковых систем, ищутся наиболее качественные ресурсы конкурентов. Искать нужно с помощью поисковых систем, в которых в дальнейшем ресурс будет регистрироваться. Из найденных конкурирующих ресурсов извлекаются слoва, отсутствующие в списке и подходящие на роль ключeвых. Добавляем к списку синонимы, всех имеющихся в списке, слoв. Должно получится от одного до трех десятков слoв. Для наглядности, можно отсортировать список по популярности слoв (известность, простота, алфавиту).
Определение уровня конкуренции.
Самый простой показатель уровня конкуренции по ключeвой фразе это количество ресурсов, выдаваемое поисковой машиной на запрос:
Для более детального анализа уровня конкуренции необходимо проанализировать первую десятку ресурсов, популярность (количество посетителей), уровень релевантности (ключевые слова), индекс цитирования. Популярность можно проверить по счетчикам, если они доступны. Уровень релевантности можно получить с помощью программы "META Tuner". Многие поисковые машины дают возможность посмотреть количество ссылок на ресурс, конечно, если ссылающееся ресурсы есть в базе поисковой машины. Однако следует учитывать, что индекс цитирования зависит не только от количества ссылок, но и от уровня популярности ссылающихся ресурсов, текста и уместности ссылок.
Определение уровня популярности ключевых слов.
Наиболее универсальный критерий определения частоты использования слoв в запросах это известность cлoва. Чем у большего числа пользователей слoво в активном словарном запасе, тем чаще оно будет использоваться в запросах. Слово "раскрутка" встречается в запросах поисковой машины Яndex, около 300 раз в месяц, а слово "промоушен" около 10. Возможность свободного доступа к информации о частоте использования слoв в запросах, предоставляют очень немногие поисковые машины. На данном этапе развития этот сервис есть у Яndex'а, МЕТЫ и Пинг'а. Вставка ключевых слов в рабочий документ. Отобранные ключевые слова нужно вставить в рабочий документ, так что бы каждое слoво имело вес 3 - 5 процентов (от общего количества слoв). Высоко релевантный документ должен быть настроен на 2 - 3 ключeвых слoва, максимум 5. Ключевые слова расположенные ближе к началу текста имеют больший вес в глазах поисковых машин. Ключевые слова должны также присутствовать в теге TITLE и мета теге DESCRIPTION. Мета тег KEYWORDS должен содержать, только, ключевые слова (фразы) подобранные для этого документа. Если документ содержит рисунки, желательно что бы поле ALT тега IMG так же содержало ключевые слова. Ключевые слова должны являться частью текста, а не быть посторонними привнесениями, мешающими чтению. Этого можно добиться, если ключевые слова соответствуют тематике документа.
Выбор ключевых слов.
Смысл подбора ключeвых слoв заключается в поиске компромисса между популярностью ключeвых слoв и уровнем конкуренции. Чем популярнее ключeвое слoво, тем больше потенциальная аудитория, но и выше уровень конкуренции. Так же следует учитывать раскрученность конкурирующих ресурсов по индексу цитирования (для поисковых машин) и по посещаемости (для каталогов). Цель поисковой оптимизации в позиционирование ресурса в первой десятки рейтинга поисковой машины по заданному ключeвому слoву (фразе). Если по желаемому ключевому слову этого достичь не удается необходимо переориентировать документ на ключeвое слoво с меньшим уровнем конкуренции.
Настройка тегов
После того как ключевые слова выбраны и "заряжены", необходимо настроить теги:
TITLE
Каждая страница должна иметь свой уникальный тег TITLE. Тег TITLE должен содержать оглавление страницы, и нечего другого. Оглавление должно быть длиной 20 - 30 символов. Предельное значение 80 символов, при большей длине оглавление теряет функциональность. Мало кто будет читать нечто уходящей за границы экран, а поисковые машины могут счесть слишком длинное оглавление спамом. В оглавление должны входить два - три ключeвых слoва!
KEYWORDS
Слова, содержащиеся в мета теге KEYWORDS, рассматриваются поисковыми машинами как рекомендация, но иногда, именно этой капли не хватает, чтоб перевесить чашу весов. При формировании списка ключевых слов, для тега KEYWORDS, необходимо использоваться слова, содержащиеся в тексте документа. Слова, не содержащиеся в тексте, можно использовать в очень небольших количествах, два - три слова. Вставлять их надо в конец списка. Ключевые слова не должны повторятся в теге KEYWORDS, в крайнем случае, не более двух раз. В теге KEYWORDS имеет смысл использовать не более 10 слов, большее количество только размоет релевантность документа. Роботы некоторых поисковых машин не переходят к новой строке при анализе тега KEYWORDS, поэтому не рекомендуется разбивать тег KEYWORDS на несколько строк.
DESCRIPTION
Мета тег DESCRIPTION служит для краткого описания документа. Используется поисковыми машинами для индексации и (некоторыми) в качестве краткой аннотации при ссылке, в ответе на запрос. И именно по содержанию этого тега пользователь поисковой системы будет оценивать, соответствует ваш сайт его ожиданиям или нет. Если мета тег DESCRIPTION не используется, то в качестве описания берется первая строка или отрывок из текста с найденным ключевым словом. Длина описания не должно быть больше 120 символов. Не рекомендуется копировать в мета тег DESCRIPTION тег TITLE. Желательно что бы тег DESCRIPTION содержал два - три ключевых слова.
Теги выделения
Некоторые теги выделения (H, B иногда STRONG) могут не только влиять на дизайн страницы, но и повысить ее релевантность. Поэтому каждый текстовый блок должен иметь заголовок, выделенный с помощью тега H. Ну и конечно, желательно чтобы каждый заголовок содержал пару - тройку ключевых слов. Тег B предназначен для выделения отдельных слов и фраз, в том числе и ключевых. Но не стоит слишком увлекаться тегами выделения. Если страничка будет иметь нелепый вид, вы рискуете потерять посетителя, еще до того как он начнет читать текст. IMG Поисковые машины не распознают содержания графических файлов, поэтому рекомендуется записывать в поле ALT название рисунка или его краткое (10 - 40 символов) описание, особенно если оно содержит ключевые слова. Не стоит превращать поле ALT в филиал тега KEYWORDS, впечатление которое это произведет на посетителя, будет говорить о непрофессионализме, а поисковые машины могут посчитать это спамом. Ссылки Желательно чтобы на страничке, ключевое слово (фраза) один - два раза встречалось в тексте ссылок.
Управление индексацией
Есть два пути влияния на роботов поисковых машин, это файл robots.txt и META тег ROBOTS. Оба инструмента не являются средством защиты информации от несанкционированного доступа, это всего лишь предписания роботам поисковых машин.
Файл robots.txt
Единственное, что может делать файл robots.txt - это закрывать от индексации файлы и каталоги. Но делать он это может выборочно, ориентируясь на имена роботов поисковых машин. Если проект предназначен для индексации поисковыми машинами, присутствие файла robots.txt в каталоге WWW сервера обязательно. Некоторые поисковые машины производит индексацию, только при наличии этого файла. Закрывать от индексации, имеет смысл скрипты, архивы, графические файлы. Робот поисковой машины будет искать файл robots.txt по всем HTTP портам сервера, например: http://www.my.com/robots.txt http://www.my.com:80/robots.txt http://www.my.com:1234/robots.txt http://my.com/robots.txt Имя файла robots.txt должно состоять из строчных букв (нижний регистр). Файл должен находится в каталоге WWW сервера. Файл с именем robots.txt находящийся в других каталогах или содержащий буквы верхнего регистра, будет проигнорирован. Если проект не предназначен для индексации поисковыми машинами, файл robots.txt можно использовать для полного запрета индексации сервера, хотя это только рекомендация. В этом случае надежней закрыть сервер паролем, если конечно это возможно по техническим и идеологическим причинам. Файл robots.txt формируется из записей, по две строки в каждой. Первая строка содержит имя робота, вторая перечень закрываемых каталогов, регистр (большие, маленькие буквы) имеет значения только для URL описываемых в строке Disallow. Имена каталогов и файлов на сервере рекомендуется всегда писать на нижнем регистре, в последствие не нужно будет угадывать, как набирать адрес. Так же в возможно использование строк комментариев, они должны начинаться с символа #. Пример, записи, которая нечего не запрещает: # Пример, который разрешает все User-agent: # относится ко всем роботам Disallow: # ни каких запретов Звездочка в строке User-agent говорит, что эта запись относится ко всем роботам. Строка Disallow не содержит записей, что означает отсутствие запретов. Запрещается использовать символы множественного выделения (1.gif) в строке Disallow. Единственный символ, который можно использовать в строке Disallow, это косая черта /, она означает, что доступ ко всем каталогам и файлам на этом сервере закрыт. Пример, записи, запрещающей, все и всем: User-agent: Disallow: / Первая строка говорит, что данная рекомендация относится ко всем роботам. Вторая строка блокирует (рекомендательно) доступ ко всем файлам и каталогам сервера. В строке User-agent вместо звездочки могут быть указаны имена конкретных роботов, через пробел. Тогда запрещающий тег будет выглядеть так: User-agent: Scooter Spidey T-Rex Disallow: / Для роботов Scooter, Spidey и T-Rex доступ на сервер закрыт, для всех остальных роботов ограничений нет. Пример, запрета индексации файлов в служебных каталогах: User-Agent: Disallow: /cgi-bin/ /img/ /news/img/ # новый стандарт Каталоги перечисляются через пробел, но возможно и построчное перечисление (старый стандарт). User-Agent: Disallow: /cgi-bin/ # старый стандарт Disallow: /img/ Disallow: /news/img/ Файл robots.txt может содержать несколько записей как для одного, так и для нескольких роботов. User-agent: WebCrawler Disallow: User-agent: Disallow: / Для робота WebCrawler ограничений нет, всем остальным роботам доступ закрыт. Записи должны бать разделены пустой строкой. Можно накладывать ограничения и на отдельные файлы: User-agent: Disallow: /my/my.html Disallow: /docs/mydoc.html
META тег ROBOTS
META тег ROBOТS может управлять индексацией, но только страницы, в которой он описан. Значение свойства Robоts может состоять из следующих директив, разделенных запятыми: Index - эта страница должна быть индексирована. Noindex - эта страница не должна индексироваться. Follow - прослеживать гиперссылки на странице. Nofollow - не прослеживать гиперссылки на странице. All - = index, follow (принято по умолчанию). None - = noindex, nofollow. Тег <META name=Robоts content="all"> ничего не меняет в работе робота поисковой машины, так как значение "all" принято по умолчанию. Но если эта страница создается динамически или очень часто обновляется, то нет смысла ее индексировать, так как информация о странице в поисковой машине и ее истинное содержание будут разными. В этом случае можно рекомендовать поисковой машине не индексировать эту страницу, а только отслеживать на ней гиперссылки, что бы проиндексировать остальную часть сайта <META name=Robоts content="noindex,follow">. При использовании тега, запрещающего отслеживание гиперссылок <META name=Robоts content="index,nofollow"> часть сайта может остаться не проиндексированной, так как внутри сайта роботы перемещаются по гиперсылкам. И те страницы, переход на которые заблокирован, роботы найти не смогут. META-тег Robots имеет приоритет над директивами управления, заданными в файле robots.txt. То есть, если в директивы управления в файле robots.txt разрешают индексировать все файлы в каталоге, то блокирующей META тег может запретить индексирование страницы, находящейся в этом каталоге. Обратное не возможно, так как робот просто не узнает, что рекомендует META тег странички в заблокированном каталоге. Не все роботы воспринимают директивы, META тега ROBOTS, в полном объеме. В основном возникают проблемы с директивами Follow и Nofollow.
Часто встречающиеся ошибки
Публикация данной статьи возможна только при наличии ссылки на источник: http://www.woweb.ru/
|