Меню

Контакты

+ 996 312 46 07 70
(прямой)
+ 996 555 55 03 11
Мы рады вашему звонку!

Авторизация




Особенности SAPE
Как работать в системе Sape?
Как заработать на продаже ссылок?
Здесь рассказывается как с помощью Sape увеличить ссылочную популярность вашего рессурса, повысить ТИЦ и PR. Соответственно стоимость ссылки на вашем сайте станет существенно дороже.
Как правило новые сайты сначала выводятся на некоторый уровень, например PR=2, Тиц=100 и только потом с этого сайта начинают продавать ссылки. При этом придерживаясь правила, 30-50% дохода от продажи ссылок должно идти на покупку ссылок.
 

Регистрируемся в системе Sape.
Появилось две аналогичные активно развивающийся системы ссылок, одна называется SetLinks, вторая Linkfeed. Рекомендую зарегистрироваться в обоих системах:

Система SetLinks кроме продажи ссылок предлагает бесплатную систему регистрации в каталогах.
C++ 1.10.2008 SAPE стала удерживать с физических лиц подоходный налог 13% и ЕСН 24%, таким образом комиссия и налоги составляют 10+13+24+0.8=47.8%. Система становиться привлекательной только для юридических лиц и Индивидуальных Предпринимателей на упрощенное системе налогооблажения "Доходы 6%".

 

Создаем новый проект, добавляем урлы продвигаемых страниц.

Золотой закон оптимизатора - одна страница - один запрос. В частности, это связано с неоднозначным поведением нескольких запросов на одной странице - кореллирующие запросы поднимают общую часть, некореллирующие - выталкивают друг друга (речь идет о высококонкурентных запросах).

    Поясню на примере - вы можете продвигать одну страницу по запросам
  • офисная мебель
  • недорогая офисная мебель
  • офисная мебель Москва
  • продажа офисной мебели
  • интернет магазин офисной мебели
    Но не сможете вывести одну страницу по запросам
  • офисная мебель
  • мягкая мебель

Данный принцип актуален для всех поисковых систем.

 

Составляем анкоры (тексты ссылок)

    Несколько тонкостей:
  • для конкурентных запросов не советую составлять тексты состоящие только из прямого вхождения запроса
  • можно выделить 3 вида текстов:
  • запросы разбавленные незначащими словами (к примеру, "офисная мебель" -> "качественная российская офисная мебель")
  • запросы, имитирующие газетные заголовки (к примеру, "Компания Test-Мебель предлагает офисную мебель и недорогие офисные кресла.")
  • запросы-перечисления (к примеру "офисная мебель, офисные кресла, офисные стулья")
    Примерное соотношение количества таких текстов 2:2:1
  • не забываем оформлять анкоры ссылок текстом (желательно с вхождением запросов) (к примеру "Офисная мебель ООО "Mebel" - #a#качественная офисная мебель#/a# от производителя.")
Для генерации можете использовать генератор AllSubmitter-a, генератор SePack или любой другой. В системе регистрации в каталогах Reg.SetLinks есть встроенный генератор названий и описаний.
 

Покупка ссылок

Основной способ покупки, используемый большинством опытных оптимизаторов - "лесенка" автофильтров. Т.е. создание каскада автофильтров исходя из качественной и ценовой категории площадок.

Самая простая лесенка выглядит так:
Filter1: PR, CY, уровень вложенности не имеют значения, внешних ссылок(BC) до 7,
цена до 0.04$
Filter2: PR от 0 до 9 | CY от 100 до 20000 уровень вложенности не имеет значения,
ВС < 10, цена до 0.06$
Filter3: PR от 0 до 9 | CY от 300 до 20000 уровень вложенности не имеет значения,
ВС < 10, цена до 0.16$
Filter4: PR от 0 до 9 | CY от 500 до 20000 | уровень вложенности=2, ВС < 10,
цена до 0.26$
Filter5: PR от 1 до 9 | CY от 500 до 20000 | уровень вложенности=2, ВС < 10,
цена до 0.69$
Filter6: PR от 2 до 9 | CY от 900 до 20000 | уровень вложенности=2, ВС < 10,
цена до 1.00$  

 

Тематические:

Filter1t: PR, CY, уровень вложенности не имеют значения, ВС < 7, цена до 0.04$
Filter2t: PR от 0 до 9 | CY от 100 до 20000 | уровень вложенности не имеет значения,
ВС < 10, цена до 0.06$
Filter3t: PR от 0 до 9 | CY от 300 до 20000 | уровень вложенности не имеет значения,
ВС < 10, цена до 0.16$
Filter4t: PR от 0 до 9 | CY от 500 до 20000 | уровень вложенности=2, ВС < 10,
цена до 0.26$
Filter5t: PR от 1 до 9 | CY от 500 до 20000 | уровень вложенности=2, ВС < 10,
цена до 0.69$
Filter6t: PR от 2 до 9 | CY от 900 до 20000 | уровень вложенности=2, ВС < 10,
цена до 1.2$
Данный пример не является лучшим, это просто образец для составления собственной системы фильтров.
Несколько слов о фильтрах Filter*t - используем возможность Sape покупки ссылок только со страниц содержащих выбранные слова. Эффективность данного метода на порядок выше обычной покупки, но количество свободных "тематических" страниц относительно невелико.
Распределение бюджета по фильтрам вещь тоже сугубо индивидуальная (кто-то предпочитает много слабых страниц, тем самым имитируя линкатор, кто-то немного, но помощнее, имитирую биржу). Я советую распределять бюджет равномерно, в первую очередь покупая "тематические" страницы, затем все остальное.
 

Индексация ссылок

Внутренние страницы индексируются много медленнее чем главные, а самые слабые, нулевые странички вообще могут не индексироваться месяцами. Наша цель - исправить ситуацию, ускорив индексацию купленных ссылок.

    Способов решения много, самые популярные:
  • экспорт всех урлов ссылок в один файл (т.н. "простыня ссылок"), публикация ее на фрихосте и проставление нескольких ссылок на данный документ. Плюсы - простота метода. Минус - поисковики плохо относятся к подобным страницам ;-)
  • Добавление URL в поисковую систему с помощью сервиса, предоставляемого поисковой системой. Например здесь можно добавить URL Яндексу. Но этот метод достаточно долгий, т.к. Яндекс ссылки добавленные подобным образом индексирует в последнюю очередь. И эта очередь может растянуться до месяца.
  • Наиболее быстрый и эффективный метод, создание псевдо-сайта, с размещением 5-10 ссылок на страницу в тексте.

Описывать подробно инструментарий нет смысла (делается все автоматом - от экспорта из Sape до заливки на FTP), дорвейщики меня поймут.

 

Поддержка проекта

Созданный проект постоянно нуждается в мониторинге - удалению страниц с большим числом внешних ссылок (кстати, причина не в самом количестве, а в потенциальной возможности наложения санкций на такие страницы) - BL и GBL вам в помощь, докупке дополнительных ссылок, добавлению текстов.

 

Продажа ссылок

После того, как сайт хорошо подрос можно начать продавать ссылки. Проверить проиндексированность удобно с помощью бесплатной программы YCCY, которая через анонимные прокси обращается к поисковым системам Яндекс и Гугл и возвращает, какие страницы сайта проиндексированны.

После обхода сайта пауком, вы проверяете на проиндексированность в Яндексе то, что он нашел и удаляете лишнее, после этого модерация будет гарантированно успешной.
Не делайте из сайта помойку, установите схему пролдаж 4-3-2 (количество ссылок на 1, 2 и 3 уровне вложенности) или 5-4-3. Когда ТИЦ у сайта подрастет до 200, можно поставить на главной до 10 ссылок. Цены ставьте выше средних по системе на 10-20%. Главную можно продавать на 20-40% дороже, чем в среднем по системе. Лучше продавать меньше ссылок по более высокой цене, чем пытаться продать много ссылок по средней цене. Главную страницу можно продавать вручную, например, через SEO-форумы. Как правило, цена выше и нет комиссии биржи. По моему опыту, в Sape лучше продавать внутренние страницы, а в SetLinks и на форумах главную.
 
И напоследок несколько нюансов:

добавьте в проект урл продвигаемого документа (только вместо HTTP://www.sait.ru/ добавьте http://www.sait.ru), тексты к нему составьте следующим образом

    www.sait.ru
http://www.sait.ru/
http://sait.ru
sait.ru


И купите сотню ссылок по фильтру Filter1. Зачем это делать? В двух словах - делаем анкор-лист более "естесственным".

Самые дорогие ссылки (от $1 и выше) лучше покупать вручную, сразу проверяя на санкции.

Довольно часто встречаются недобросовестные вебмастера, неадекватно увеличивающие цену на площадках, устанавливающие код ссылок вне основного контекста сайта, закрывающие страницы от индексации, устанавливающие огромное количество внешних ссылок. Использование GBL(глобальный черный список) сэкономит вам бюджет и нервы.

не используйте знаки разделители ("." , "!" и "?") в текстах ссылок - Яндекс учтет текст ссылки до разделителя. Обратите внимание запятой в указанном списке нет!

 

Как избежать бана при продаже ссылок?
Советы как продавать ссылки через биржи с минимальным риском забанивания сайта поисковыми системами.
  • Первое правило - обязательная модерация ссылок. Если вы ссылаетесь на сайты сомнительного или вредоносного содержания - ваш сайт зачисляется в список некачественных проектов и на него накладываются фильтры понижающее его позиции и в результате возможно выпадание из поискового индекса. Самое простое решение - проверять проиндексирован ли сайт, на который вы ссылаетесь Яндексом. Если не проиндексирован - надо смотреть почему не проиндексирован. Особоенно это важно для ссылок с главной страницы
  • Второе правило - Естественность ссылок. Редко какой вебмастер разместит в подвале страницы десять ссылок мелким шрифтом для посетителей. Самый лучший вариант оформления - использование только контекстных ссылок, из текста сообщения.
  • Не забываем и про количество ссылок. Тут понятно, меньше ссылок - меньше вероятность бана. На своих проектах я ставлю не более 5-7 ссылок на странице. Большее количество ссылок может вызвать подозрения у поисковикых систем.
  • Обновление сайта. Если у вас на сайте не меняется контент, а меняются ссылки, согласитесь, это подозрительно. Если хотите привлечь внимание посетителей, а не только поисковиков наполняйте сайт новым интересным контентом.

 

Проверка "продажных ссылок"

Все биржи ссылок для ускорения размещения используют дополнительный GET запрос, который отрабатывает код, внедренный на вашем сайте. Другая прчина, что страница с дополнительным параметром кодом биржи воспринимается как другая страница, и ссылки для этой, "псевдо другой" страницы снимаются. Это может с легкостью использоваться поисковыми системами для санкций против вашего сайта. Проверить продажность можно, например с помощью сервиса детектор продажных ссылок.

Защититься можно, удаляя из строки $_SERVER['REQUEST_URI'] все лишнее. Для этого можно или в начале сайта до вызова кода бирж ссылок убрать все лишнее из строки запроса или поправить код бирж.
Для Sape в файле sape. PHP находим блок кода:
if (isset($options['request_uri']) && strlen($options['request_uri'])) {
$this->_request_uri = $options['request_uri'];
} else {

$this->_request_uri = $_SERVER['REQUEST_URI'];
}


и дописываем сразу после него строчку:

 if ((strpos( $this->_request_uri, "?" )!==false))
 {$this->_request_uri=substr($this->_request_uri, 0, strpos($this->_request_uri, "?")); }

 

Для Setlinks в файле slclient.php находим блок кода

if(!empty($uri)) 
$this->uri = $uri;
else
$this->uri = (isset($_SERVER['REQUEST_URI']) ? $_SERVER['REQUEST_URI'] : $HTTP_SERVER_VARS['REQUEST_URI'])
;


и дописываем сразу после него строчку:

if (!(strpos( $this->uri, "?" )==false))
  {$this->uri=substr($this->uri, 0, strpos($this->uri, "?")); }
 

Это все будет работать, на сайтах без движков, передающих параметры единственному модулю, когда все страницы динамически зависят от параметров GET запроса. В этом случае, вам нужно более аккуратно вычистить из строки запроса всё, кроме используемых у вас переменных.

 

 
Каталоги и поисковики
Каталоги Rambler TOP100, Яндекс Каталог, каталог Aport, MSN, Google, Yahoo,...
Яндекс-Каталог

http://catalog.yandex.ru

Влияние Яндекс каталога на результаты поиска этого сайта в Яндексе в 2000-2004 г. было велико, сейчас такое влияние достаточно сильно снижено. В Яндекс-Каталоге ресурсы описываются достаточно большим количеством характеристик:
  • название ресурса;
  • его описание;
  • тема, т.е. основная категория каталога, в которой он находится;
  • регион;
  • сектор экономики;
  • степень достоверности (источник) информации;
  • потенциальная аудитория (адресат информации);
  • жанр (художественная литература, научно-техническая литература);
  • цель ресурса (предложение товаров и услуг, интернет-представительство);
Большинство этих характеристик служат лишь для организации навигации в каталоге. Каталог имеет фасетную структуру, т.е. описание сайта может располагаться одновременно в нескольких местах - прежде всего в своей категории, а также в уточняющих подкатегориях (регион, сектор экономики, степень достоверности информации, адресат информации, жанр и цель ресурса).
На результаты же поиска влияние оказывают только название ресурса и его описание. Действуют они по схеме ссылочного ранжирования, только в качестве ранга (в данном случае - ВИЦ) ссылающейся страницы используется установленный для каталога коэффициент. Вполне возможно, что этот коэффициент может зависеть от рубрики каталога, от положения сайта в своей рубрике, или даже вручную выставляться документу модератором каталога. При расчете ВИЦ документа, судя по всему, факт наличия его в каталоге, не учитывается. Особое внимание я хочу обратить на тот факт, что хотя описание ресурса в каталоге Яндекса ссылкой не является, учитывается оно именно как ссылка при ссылочном ранжировании. Правда, гораздо меньше, чем ссылка-название: видимо, для описания существует некий понижающий коэффициент.
В случае, если слова из поисковой фразы отсутствуют в тексте документа, но присутствует в названии или описании его в Яндекс-каталоге, в выдаче по этому запросу приводятся каталожное название и описание документа.
Существуют два варианта регистрации в каталоге ( HTTP://www.yandex.ru/advertising/catalog. Html): бесплатная и платная "ускоренная",
Цены (без учета НДС): для сайтов, содержание которых связано с деятельностью, направленной на получение дохода, и/или политической рекламой: Регистрация - 12 500 руб. Изменение описания - 4 500 руб.Для остальных сайтов: Регистрация - 1 500 руб. Изменение описания - 1 200 руб. Ниже представлен анализ динамики развития крупнейших каталогов Рунета.
После августа 2007 на Яндекс каталог стало ходить на 40% меньше людей, в связи с тем, что на главной странице ему было отведено в 2.5 раза меньше места чем раньше.
Видимо, владельцы Яндекса справедливо решили, что чем меньше людей будут пользоваться Яндекс каталогом и перейдут на использование поиска, тем больше они получат доходы от контекстной рекламы. Кроме того, целая колонка была освобождена под собственные проекты Яндекса, рекламы Яндекс Директа и партнерской рекламной сети.
Имеет ли смысл регестрироваться в Яндекс каталоге?
При ускоренной регистрации ваш сайт может быть внесён в Яндекс каталог в течение 3-х дней, при бесплатной - может, никогда и не будет. Кроме того, с новым дизайном Яндекса из каталога исчезло часть "бесплатных" ресурсов.
Модераторы каталога самостоятельно отбирают ресурсы, и даже если заявка не подавалась, ресурс может оказаться в каталоге. Как утверждают представители Яндекса, ресурсы отбираются по принципу интересности и уникальности информации, а также по цитируемости другими сайтами. В случае бесплатного добавления данные из формы бесплатной заявки являются не более чем рекомендацией модераторам. В случае, если описание вашего ресурса, сделанное модераторами каталога, вас по каким-либо причинам не устраивает, то вы можете подать заявку на изменение описание. Эта услуга платная и стоит 4500 руб. для любого ресурса (1200 руб. для некоммерческого). Этот способ можно использовать для того, чтобы добиться появления в заголовке или описании нужных вам ключевых фраз, а следовательно, улучшить ранжирование ресурса в основном поиске по этим фразам. Однако пользоваться этой возможностью надо весьма осторожно, и при этом надо суметь аргументированно убедить модераторов каталога в том, что эти изменения действительно необходимы.
  • Полугодовой бюджет контекстной рекламы по Вашим словам сравним с тем трафиком, которые прийдет с Янедкс каталога. К примеру на один из наших проектов ежемесячно с Яндекс каталога приходит 80 человек, а стоимость клика (по слову "создание сайтов" по которому они приходят) - 360 руб. То есть регистрация в Яндекс каталоге окупается меньше чем за месяц (если у Вас коммерческая тематика в которой высокая цена клика и узкая аудитория, к примеру по тематике "Доставка обедов").
  • Ссылка с Яндекс каталога придает ссылочный вес (улучшает ранжирование сайта). Ссылка с Яндекс каталога может стоить примерно 3$ в месяц (если ее считать по общим меркам). То есть от регистрации в ЯК тоже есть такая польза.

 

Rambler Top100

http://top100.rambler.ru

Примесь - это несколько позиций в результатах поиска Рамблера по определенному запросу, ссылки для которых выбираются из заголовков и описаний ресурса, данных при регистрации в рейтинге Rambler Top100, релевантных этому запросу (т.е. содержащих слова из запроса). Сайты из примеси в результатах поиска можно отличить по свежей дате индексации (чаще всего это текущая дата) и отсутствию ссылки "Восстановить текст". Причем, один и тот же документ может присутствовать в выдаче дважды, если текст самого документа релевантен запросу и если его заголовок или описание в Top100 релевантно запросу, и этот документ, благодаря этому, попал в примесь, и оба этих результата никак не связаны между собой.
В работе с примесью есть очень приятный момент - изменения в описании вступают в силу уже на следующий день. Если быть точнее, то не всегда на следующий (это можно определить по дате индексации), но в любом случае несоизмеримо быстрее, чем обычно при индексации. Вы меняете описание вечером, а уже после полуночи ваш сайт может оказаться в основной выдаче Рамблера.
Одно время примесь играла исключительно важную роль в ранжировании результатов поиска Рамблера, так как ей было отведено до 5 первых мест в результатах поиска. Так как на попадание в примесь довольно сильное влияние оказывала посещаемость ресурса, то это привело к тому, что многие владельцы стали <накручивать> посещаемость своих сайтов, ведь это, зачастую, это был очень эффективный путь попасть в первую пятерку результатов поиска по нужному запросу. Однако, с июня 2003 года жесткое закрепление за примесью первых пяти позиций было снято и она <размазалась> по всей выдаче, причем таким образом, что встретить на первой странице результатов поиска по довольно конкурентным запросам документ из примеси теперь очень сложно. Поэтому позиционирование ресурса в Рамблере через примесь практически потеряло свое прежнее значение.
 
Апорт-Каталог

http://catalog.aport.ru/ Апорт-Каталог во многом схож с каталогом Яндекса, но, пожалуй, в несколько меньшей степени оказывает влияние на результаты поиска. Действие каталожного листинга также происходит по схеме ссылочного ранжирования, однако помимо названия и описания, учитывается и список ключевых слов, задающийся при регистрации, но не отображаемый в каталоге.

Ресурсы могут заноситься одновременно в несколько категорий каталога, при условии соответствия их содержанию.
Ещё одной особенностью можно назвать тот факт, что в результатах поиска Апорта для главных страниц сайтов, присутствующих в каталоге, всегда выводится название и описание ресурса именно из каталога.
Регистрационные данные для каталога подаются одновременно с регистрацией в поисковой системе (http://catalog.aport.ru/rus/reg/add.ple). При включении ресурса в каталог на указанный при регистрации почтовый адрес высылается уведомление.
 
Каталог Google

http://dmoz.org Каталог Google (http://www.google.com/dirhp). Построен на основе каталога ODP - Open Directory Project (http://dmoz.org) Это крупнейший модерируемый каталог в интернете и практически единственный путь для попадания в каталог Google. ODP интересен ещё и тем, что редакторами в нём являются волонтёры, т.е. люди, для которых это занятие является хобби. При желании редакторами в этом каталоге можете стать и вы. Ресурсы в каталоге Google сортируются по PageRank и имеют название и описание, причём название является текстовой ссылкой. По сравнению с влиянием каталогов Яндекса и Апорта, влияние каталога Google можно назвать менее значительным. Влияет лишь заголовок ресурса, который собственно и является обычной текстовой ссылкой, и влияние это целиком укладывается в схему ссылочного ранжирования. Ещё одним небольшим аргументом за регистрацию в каталоге служит наличие в результатах поиска под ссылкой на ресурс ссылки на категорию каталога и части каталожного описания, что, может положительно повлиять на решение пользователя перейти по этой ссылке. Ресурсы добавляются именно в том разделе, в котором им предстоит находиться. Найдите подходящую для вас категорию и перейдите по ссылке вверху страницы "Предложить URL".

 

MSN

MicroSoft News - Одна из расшифровок аббревиатуры MSN

У поисковой системы МSN (msn.com) никогда не было собственного паука или каталога. С 1997 года система МSN для выдачи результатов поиска использовала разные базы данных, такие как: Yahoo!, LookSmart, Altavista, DirectHit, Inktomi и RealNames. Сейчас результаты поиска берутся из Inktomi, LookSmart, Direct Hit.
Но, все-таки, MSN.com один из самых популярных порталов Интернета. Там же есть и поисковая система search.mns.com. Система МSN особенно важна, т.к. именно этот поисковик по умолчанию используется, когда пользователи Internet Explorer'а вводят в адресную строку поисковый запрос. Система МСН также является информационным узлом, и по данным MediaMetrix, является одним из наиболее посещаемых сайтов.
Поисковая система МСН (msn.com) локализована примерно для 30 стран, таких как: Великобритания, Дания, Бельгия, Новая Зеландия, Япония и др. Также эта система предоставляет пользователям возможность сортировать результаты поиска: по дате, по алфавиту, по релевантности.
Недавно, в конце 2004 года, портал MSN.com объявил о запуске официальной версии своего поиска, спустя два года после объявления о начале разработки собственного поисковика. Ранее продемонстрированная бета-версия поиска выкачена на всех сайтах портала и потеряла отметку "beta". По сравнению с уже знакомой бета-версией, нынешний поиск приобрел несколько новых возможностей, а в частности:
  • Интеграция с MSN Direct Answers - службы, базирующейся на электронной Microsoft Encarta и расширенной теперь до 1,5 миллионов статей.
  • Выдача результатов поиска в RSS-формате - при этом существует ограничение на использование этих результатов и запрет на их использование в коммерческих целях.
  • Поиск по RSS.

Хотя при создании поисковика MSN.com использовалось большинство принципов оптимизации, которые и в других поисковых системах не будут сюрпризом для большинства профессиональных участников он-лайн рынка.

В связи с запуском поиска проведен также редизайн всего сайта MSN.com, а на портале опубликовано обращение Билла Гейтса к пользователям. В ближайшее время MSN планирует запустить также поиск по блогам, несколько специализированных поисков (можно предположить, что это будет поиск по видеофайлам - он уже есть у Yahoo и Google) и собственную программу контекстной и поисковой рекламы.
Сейчас основная масса рекламы, демонстрируемой на результатах поиска, является рекламой Overture, которая принадлежит одному из конкурентов новой системы MSN - Yahoo! Inc.
Но, поисковик уже приобрел значительное влияние и, если верить слухам, MSN Search все-таки бросил вызов Google и Yahoo в борьбе за первенство на рынке.
 
Yahoo!
В 1994 году, студенты Стэндфордского университета, Джерри Янг и Дэвид Фило, готовились к защите диссертации в области компьютерного проектирования интегральных схем. Для этого им приходилось много времени проводить в сети Интернет, в поисках нужной информации и копить ссылки. Списки со ссылками росли, потом Янг и Фило забросили диссертацию и принялись исключительно коллекционировать ссылки. К середине 1994 года их стало много, они отсортировали ссылки по категориям, потом в категориях ссылок стало тоже много, появились подкатегории.
И кто бы мог подумать, что у самого успешного Интернет проекта www.yahoo.com собственный поиск появился совсем недавно! Но список Джерри и Дэвида не был предназначен для всеобщего обозрения - он составлялся исключительно для друзей. Время шло, а посещаемость все росла и росла. Адрес сайта пошел по рукам....
Первым шагом к успеху стало новое, запоминающееся название - Yahoo!. Следуя пожеланиям пользователей, создатели www.Yahoo.com, стали преобразовывать сайт. Появились новые категории, и разделы "What's New" и "What's Cool". К концу 1994 Янг и Фило забросили свои диссертации и полностью отдались работе над поисковиком Яху.
В это время на дороге появилась компания Netscape, предложившая ресурсы для содержания поисковой системы Yahoo!. В результате у Yahoo! появился свой домен - yahoo.com, и каталог переехал на 10 станций Silicon Graphics Indy. Примерно в это же время Yahoo! получил и первого инвестора - инвестиционный фонд "Seqouia Capital". Джерри и Янг обзавелись офисами и наняли энергичную команду web-серферов. Темп роста составил, в среднем, 1000 страниц в день.
12 апреля 1996 года www.Yahoo.com выпустил свои акции. При номинальной цене в 12 долларов за штуку к концу дня они продавались уже по 33 доллара. Создатели Яху первыми стали применять рекламу своего ресурса в печатных СМИ и на телевидении. Новый управляющий поисковой системы Yahoo! - Тим Кугл решил развить Яху из простого перечня упорядоченных линков до настоящего портала. А из финансовых новостей сделать аукционы, добавляя к ядру Yahoo.com элементы онлайнового доступа.
Следующие вложения в поисковик Yahoo! составили 560 миллионов долларов. Yahoo.com взрослеет и начинает действовать на рынке как самостоятельная акула капиталистического мира. Конкуренты, в лице America Online и Microsoft, сбиваются в различные корпоративные альянсы, чтобы укреплять свои позиции в бизнесе. Подсмотрев у "врагов" методы, Yahoo в 1999 году покупают поставщика бесплатной электронной почты rocketmail.com. В то время на просторах Интернета появляются различные сайты, претендующие на звание Портал. С конкурентами расправляются по-разному. Webring.com покупают, с остальными ведут войну на бирже.
Таким образом Yahoo представляет из себя в первую очередь портал (ранее - каталог сайтов с поиском по этому каталогу - аналогично Rambler TOP100), предоставляющий любому все что он захочет, с очень хорошей персонализацией (возможностью пользователю настроить сайт <под себя> и большим количеством сервисов). Как таковой Поиск Yahoo использует ядро поисковика www.overture.com (компанию, которую он приобрел, чтобы качественно улучшить свой поиск). Сейчас Overture в рамках корпорации Yahoo занимается разработкой системы контекстной рекламы в поиске Yahoo.
Но в истории компании были не только взлеты. Первая публичная эмиссия акций Yahoo состоялась в апреле 1996 года и совпала с началом бума дот-комов - количество маленьких и больших интернет-компаний росло с каждым днем. Большая часть денег, вырученных от IPO, была истрачена на рекламу портала. Ежегодный доход Yahoo достиг 1 млрд. долларов США, а рыночная стоимость компании превысила 120 млрд. долларов США.
Затем последовал крах дот-комов. Выручка Yahoo сократилась на две трети, несколько кварталов подряд были убыточными, рыночная стоимость компании упала до 4,6 млрд. долларов США. Янг и Файло начали бороться за выживание. В мае 2001 года на место Кугла был приглашен Терри Семел, который и вытащил Yahoo из кризиса. Портал стал предлагать пользователям новые сервисы, причем за некоторые услуги взималась плата. Yahoo возродился - объемы продаж выросли до 3,57 млрд. долларов США, прибыль увеличилась до 840 млн. долларов США, а рыночная стоимость компании поднялась до 50 млрд. долларов США.
Сегодня в спину Yahoo дышат конкуренты, главный из которых - компания Google, которая, кстати, в пору своего становления финансировалась именно фирмой Yahoo. Немного меньшую опасность представляют Microsoft MSN и AOL, принадлежащий Time Warner. Янг и Файло относятся к этому философски: "Люди не давали нам шансов еще десять лет назад. У нас всегда было много конкурентов, однако сейчас наш будущий успех зависит только от нас".
В настоящее время аудитория интернет-портала Yahoo насчитывает 345 миллионов человек, из них 165 миллионов являются зарегистриованными пользователями. Более 30 представительств компании действуют в Северной Америке, Европе, Азии и тихоокеанском регионе.
В середине 2005 года, компания Yahoo, официально объявила о достижении важного преимущества в борьбе со своим главным конкурентом на рынке сетевого поиска - компанией Google. Менеджеры считают, что поисковик Yahoo позволяет найти в два раза больше документов, чем Google. По их мнению, база данных поисковой системы Yahoo включает в себя 20,5 млрд объектов - 19 миллиардов текстовых документов и 1,5 миллиардов изображений. Таким образом, ее поисковый индекс (число объектов, которые пользователь может найти в интернете при помощи поисковика), почти в два раза превышает аналогичный показатель поисковой системы интернет-корпорации Google - 11,3 миллиардов объектов, из которых 8,2 миллиардов текстовых документов и 3,1 миллиардов изображений.
 
Google (Гугл)

www.google.com (google.ru)

"Googol (гугол)" - это математический термин, обозначающий единицу со 100 нулями. Этот термин был придуман Милтоном Сироттой, племянником американского математика Эдварда Каснера, и впервые описан в книге Каснера и Джеймса Ньюмена "Математика и воображение" (Mathematics and the Imagination). Использование этого термина компанией Google отражает нашу задачу организовать огромные объемы информации в Интернете.
Поисковик Google был основан двумя аспирантами Стэндфордского университета Лари Пейджем (Larry Page) и Сергеем Брином (Sergey Brin), выходцем из Бывшего СССР. Их основной работой был поиск нужной информации в массивах данных.
В 1996 г. они начали сотрудничать с поисковым сервером BackRub, который работал по принципу "back links" (т.н. обратные ссылки). Эта формула определяла количество ссылок ведущих на заданный сайт. Создатели справедливо решили, что на популярный и интересный сайт ссылаться будут гораздо чаще, чем на скучный и полумертвый ресурс.
Уже в сентябре 1998г. Пейдж и Брин, собрав около одного миллиона долларов инвестиций, регистрируют поисковую систему Google как юридическое лицо. Даже в бета-версии поисковик Google обрабатывал 10 000 запросов в день, показывая высокую релевантность запросам. Дальнейшая история развития поисковой системы Google, по своей стремительности, напоминает взлет ракеты.
Февраль 1999-го года - 500 000 запросов в день. На популярный поисковик обращает внимание мастодонт Интернета AOLNetscape выбрав Google своим поисковым сервером. Поисковик Гугл преодолел барьер в 3 миллиона запросов в день. 26 июня Google и Yahoo объявляют о своем сотрудничестве, результат - 18 миллионов запросов в день. К концу 2000 года - 100 млн.
Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д. Например, поиск intitle: Google Site: SEO-miheeff.ru даст все статьи расположенные на этом ресурсе, на всех языках, в заголовке которых встречается слово .
В активах компании сотрудничество с крупнейшими Интернет-корпорациями, множество наград, и любовь пользователей. Слагаемых успеха поисковой системы Google - три.
Первое - крайне релевантный алгоритм поиска. В отличие от большинства поисковых систем Google не использует программы с механизмом мета поиска. Она анализирует все содержание каждой web-страницы, шрифт и место расположения всех заданных слов. В случае запроса фразой несущей смысловую нагрузку, выдается ссылка на главную страницу сайта, посвященного указанной теме. А не просто на статьи, содержащие отдельные слова из текста запроса.
Второе - крайне дружелюбный к пользователям интерфейс. Пользователь, впервые попавший на сайт поисковой системы Google, удивится чистому окну, не содержащему ничего кроме строки поиска. Это позволяет загружать его гораздо быстрее конкурирующих поисковиков. Следуя современным традициям, Google разрешает любому познакомиться с исходным текстом его программного обеспечения и предложить свои улучшения.
Третье - поисковая система Google подчеркнуто некоммерческий проект. Задумывался и создавался он без всякого бизнес-плана, реклама никогда не была основной статьей доходов. Выступая всегда очень ненавязчиво и контекстуально. А основной целью создателей поисковой системы Google была и остается мечта - создать бесконечно огромную базу данных для поиска.
Поисковая система Google 19 августа 2004 года, начала продажу своих акций на фондовом рынке (IPO), то есть стала публичной. Разошлись почти 20 миллионов акций на общую сумму в 1,67 млрд. долларов США. Собственно Google достались только $1,2 миллиарда. Компания продала не все принадлежащие ей ценные бумаги: у поисковика Google есть ещё более 250 миллионов акций, которыми она вольна распоряжаться по своему усмотрению. Google выпустила акции двух типов: обычные (Class A, всего 33,6 миллионов штук), которые перепродаются теперь в системе NASDAQ, и привилегированные (Class B - 237,6 миллионов штук), хождение которых ограничено <стенами> компании. Каждая привилегированная акция при голосовании может уравновесить десять обычных. 30 августа 2004 года, на специализированных торговых площадках начались торги опционами компании Google.
    Для удобства пользователей Google постоянно создает новые плагины и сервисы, вот некоторые из них:
  • Google Toolbar для IE - Этот плагин для браузера Internet Explorer представляет собой панель поискового сервиса Google. Кроме поиска Google, Toolbar добавляет браузеру и другие полезные функции: автоматическое заполнение web-форм, подсветка найденных результатов при поиске на открытой на web-странице, блокирование всплывающих окон. Поиск по категориям (графика, софт, музыка и др.). Панель можно настроить по своему усмотрению, добавить или убрать с неё кнопки, выбрать регион поиска.
  • Русская версия Google Toolbar для IE.
  • Google Toolbar для Firefox.
  • Google Deskbar.
  • LostGoogles - эта маленькая программка значительно расширяет функциональность самого популярного поискового сайта. Мало того, что LostGoggles выдает больше информации, так она ещё и показывает фотографии искомых страниц. Она размером 300 КБ и устанавливается на браузер IE 5.0 или более поздних версий.
  • Google Earth - модель планеты Земля, созданная при помощи спутниковых снимков.
  • Picasa - это программа, созданная Google, для работы с цифровыми фотографиями. Аналог Adobe Photoalbum, Elements, но главное отличие Picasa в том, что она бесплатна.
  • Google Talk - интернет-пейджер и интернет-телефон.
  • Google Maps - картографический сервис предоставляемый Google по адресу http://maps.google.com/. Сервис представляет собой карту и спутниковые снимки всего мира (а такжеЛуны). С сервисом интегрирован бизнес-справочник и карта автомобильных дорог. Включающая в себя поиск маршрутов, охватывающая США, Канаду, Японию, Гонконг, Китай, Великобританию, Ирландию и некоторые районы Европы.
С историей существования поисковика Google, как и с историей любой другой крупной компании, связано большое количество скандалов. Конечно, большинство этих скандалов преследуют чисто рекламные цели, но такова - уж история почти всех поисковых систем.
29 января2004 года адвокаты компании Google отправили письмо владельцам поисковика <для взрослых> Booble с требованием закрыть пародийный сервис. В заявлении представителей Google говорится о том, что Booble нарушает авторские права компании. Booble - это поисковик по эротическим сайтам и товарам, интерфейс которого в точности повторяет интерфейс Google, за исключением логотипа, который, хоть и напоминает лого Google, но сделан с отражением <особенностей> поисковика. На данный момент дизайн сайта не имитирует Google.
20 июля 2004 года бывший операционный директор Google Брайан Рид обвинил поисковую компанию в дискриминации по возрастному признаку. В феврале этого года Рид был уволен, как он утверждает, из-за того что не соответствует корпоративной культуре, главными элементами которой являются молодость и энергичность. Рид, которому сейчас 54 года, в эту картину не вписывался. Потеряв работу, менеджер лишился зарплаты в 200 тысяч долларов в год, а также 119 тысяч опционов, которые можно было превратить в акции из расчета по 30 центов за штуку. Учитывая, что цена акций Google на аукционе составит от 108 до 135 долларов за штуку, Рид лишился неплохого состояния, поэтому в своем гражданском иске он просит суд обязать Google возместить ему нанесенный материальный и моральный ущерб.
7 апреля 2004 года новый почтовый сервис Google, ещё не успев приступить толком к работе, столкнулся с претензиями на собственное имя. Бренд Gmail оказывается уже на протяжение 2 лет используется одной английской фирмой. Представители компании Market Age заявляют о том, что ещё в июне 2000-ого года они начали использовать брэнд Gmail. В связи с очевидным преимуществом на право владения имени, английская компания собирается отстаивать его вплоть до судебного разбирательства. Это обстоятельство, впрочем, нисколько не смущает юристов Google. Перед открытием почтового сервиса они тщательно изучили вопрос регистрации, и не обнаружили, что брэндом Gmail владеет какая-либо фирма.
В мае 2004 года иск к компании вчинили родственники американского математика Эдварда Казнера, который придумал термин googol, обозначающий число единицу со ста нулями. Именно от этого термина произошло название Google.
6 июля 2004 - Продолжается судебная тяжба между крупнейшим поисковиком Google и небольшой фирмой по производству программного обеспечения Affinity Engines за права на использование некоторых программных технологий. Бывший сотрудник Affinity Engines Оркут Бюйюккоктен (Orkut Buyukkokten), работающий ныне в Google, обвиняется в том, что использовал разработанный им ранее программный код для создания социальной сети Orkut.com. Данный сервис принадлежит Google и предназначен для онлайнового общения. В качестве доказательств истцы приводят похожие по тексту строки в оформлении Orkut.com и в продукции Affinity Engines. Замечено также около 10 технологических ошибок, совпадающих с ошибками в продуктах Affinity Engines. Тем временем, представители Google утверждают, что не раз предлагали привлечь независимых экспертов, чтобы провести анализ программных кодов. Однако, Affinity Engines ни разу не согласилась с этим предложением.
23 марта 2004 года жителю Калифорнии Майклу Брэдли придется предстать перед судом по обвинению в вымогательстве. Как сообщает Silicon.com, мужчина требовал от поискового гиганта Google выплаты 100 тысяч долларов США. В случае невыполнения требований подозреваемый угрожал разослать спамерам программу, генерирующую фальшивые клики на рекламных баннерах Google.
31 марта 2004 года малоизвестная компания Digital Envoy подала в суд на корпорацию Google, обвинив поискового интернет-гиганта в нарушении лицензионного соглашения от 2000 года. Соответствующее исковое заявление было зарегистрировано в начале этой недели в окружном суде северной Джорджии. Фирма Digital Envoy занимается разработкой и продажей программного обеспечения, посредством которого владельцы тех или иных веб-ресурсов могут по IP-адресу посетителей устанавливать их географическое местонахождение (термин Геолокация (geolocation)). Это позволяет динамично изменять содержимое страницы и отображать рекламу, соответствующую каждому конкретному региону.
29 января 2004 года. В США начато очередное судебное разбирательство, касающееся рекламной технологии поисковика Google, предусматривающей вывод рекламы в результатах поиска по определенным ключевым словам. На этот раз иск с целью защиты прав на торговую марку подал американский производитель обоев и жалюзи, компания American Blind and Wallpaper Factory. Эту компанию, как и другие в аналогичных судебных исках, не устраивает то, что в результатах поиска Google по ключевым словам Amеrican Wallpaper и American Blind выводится реклама конкурирующих фирм.
Сейчас поисковая система Google регистрирует ежедневно около 50 млн. поисковых запросов и индексирует около 8 168 684 336 web-страниц. Google может давать информацию на 101 языке. На конец августа 2004 года, компания состояла из 132 тыс. машин, расположенных в разных точках планеты.

 

 
meta Robots
МЕТА-тег robots
МЕТА тег robots служит для того, чтобы разрешать или запрещать роботам, приходящим на сайт, индексировать данную страницу. Кроме того, этот тег предназначен для того, чтобы предлагать роботам пройтись по всем страницам сайта и проиндексировать их. Кроме того, этим тегом могут воспользоваться те, кто не имеет доступа к корневому каталогу сервера и изменить файл robots.txt, но хочет запретить к индексированию свои файлы и директории.
Формат мета-тега Robots
МЕТА тег robots помещается в тег Html-документа (внутри тега <HEAD>). Формат достаточно прост (регистр букв значения не играет)
<META NAME="ROBOTS" CONTENT="value">
Данному мета-тегу можно присвоить варианта четыре значений. Атрибут CONTENT может содержать следующие значения:
Index (индексировать), noindex (не индексировать), follow (следовать по ссылкам), nofollow (не следовать по ссылкам)
Например, не индексировать данный документ:
<META NAME="ROBOTS" CONTENT="NOINDEX>

 

Робот поисковой машины не должен идти по ссылкам с данной страницы.

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

 

Для одновременного запрета индексирования страницы и обхода ссылок с нее используйте

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">


Если значений несколько, то они разделяются запятыми.
Чтобы запретить индексирование страницы на вашем сайте только роботам Google и разрешить ее индексирование другим роботам, используйте следующий тег:

<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">

 

Чтобы разрешить роботам индексировать страницу, но запретить индексирование картинок на странице, используйте следующий тег:

<META NAME="ROBOTS" CONTENT="NOIMAGEINDEX">

 

Google автоматически создает и архивирует "снимок" каждой сканируемой страницы. Версия, сохраненная в кэше, позволяет показывать вашу страницу конечным пользователям, даже если исходная страница недоступна (из-за временной технической проблемы на веб-сервере). Сохраненная в кэше страница представляется пользователям в том виде, в котором ее в последний раз просканировал робот Google, при этом вверху страницы мы показываем сообщение о том, что это версия из кэша. Пользователи могут получить доступ к кэшированной версии, нажав на ссылку "Сохранено в кэше", расположенную на странице результатов поиска.

Чтобы запретить всем поисковым системам выводить эту ссылку на ваш сайт, добавьте в раздел <HEAD> следующий тег:
<META NAME="ROBOTS" CONTENT="NOARCHIVE">


Чтобы запретить выводить ссылку "Сохранено в кэше" только системе Google, а остальным разрешить, используйте следующий тег:

<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">

 

Примечание. Этот тег удаляет только ссылку "Сохранено в кэше" на соответствующую страницу. Google продолжит индексировать страницу и выводить ее фрагмент.

 

Предотвращение сканирования или удаление фрагментов

Фрагмент - это текст, который показывается под названием страницы в списке результатов поиска и описывает содержание страницы.

Чтобы запретить Google выводить фрагменты с вашей страницы, добавьте в раздел <HEAD> следующий тег:
<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET">


Примечание. При удалении фрагментов удаляются также и сохраненные в кэше страницы.

Как сделать так, чтобы поисковые системы не использовали данные DMOZ в результатах поиска для вашего сайта

Одним из источников, которые используются при создании фрагментов описаний, является Open Directory Project. Чтобы никакие поисковые системы (поддерживающие метатеги) не использовали эту информацию для описания страницы, добавьте следующий тег:

<META NAME="ROBOTS" CONTENT="NOODP">

 

Чтобы только для Google запретить использовать эту информацию в описании страницы, добавьте тег:

<META NAME="GOOGLEBOT" CONTENT="NOODP">

 

Если метатег "robots" используется для других команд, их можно объединить. Пример:

<META NAME="GOOGLEBOT" CONTENT="NOODP, NOFOLLOW">

 

Пример использования описания:

<META NAME="Description" CONTENT=" Информация для WEB-разработчиков,
программистов и студентов ВУЗ-ов, изучающх WEB-технологии.">

 

Поисковые запреты

Как сказать поисковой машине, что определенный участок кода не нужно индесировать или что по определенной ссылке не нужно следовать?

Каждый поисковик тут изобретает свой велосипед: Yandex рекомендует заключать подобный текст в теги <noindex>, Google дописывать у ссылок атрибут rel="nofollow", Yahoo добавлять класс class="robots-nocontent".

Тег NOINDEX

Запретить индексирование можно не только для файлов, но также и для их частей. Для того, чтобы запретить индексирование определенных частей файлов (текстовых), необходимо пометить их специальными тегами <NOINDEX></NOINDEX>.
При этом, тег NOINDEX не должен нарушать вложенность других тегов. Понимает только ПС Яндекс.

 

rel="nofollow"
Чтобы указать поисковой системе не идти по ссылке, в теге A можно задать атрибут rel="nofollow":
<a rel="nofollow" href="htmlweb.ru>WEB-технологии</a>


Данный атрибут не влияет на индексацию ссылки. В большинстве поисковиков (кроме Google) переход по ней все-таки осуществляется. Единственная задача данного атрибута - сообщить поисковой системе, что рейтинг со страницы, на которой ссылка размещена, не должен передаваться странице, на которую данная ссылка ведет.

Если вам необходимо уменьшить количество внешних ссылок на странице, заключите их в теги <NOINDEX></NOINDEX>

Использованны материалы с сайтов поисковых систем: Google
 
class="robots-nocontent"

Применение "class=robots-nocontent" атрибут:
Ниже приводятся несколько примеров того, как применять этот атрибут для различных целей и различных вариантов синтаксиса:

<div class="robots-nocontent">
Это навигационного меню сайта и является общим на всех страницах. Она содержит много терминов и слов, не связанных с сайтом </ div>
<span class="robots-nocontent">
Это сайт заголовок, который присутствует на всех страницах сайта и не связан с какой-либо конкретной страницы 
</ span>
<p class="robots-nocontent">
Это стереотипных Юридическая информация требуется на каждую страницу сайта 
</ р>
 
Как часто индексировать документ поисковому роботу?

Вебмастер может "сказать" поисковому роботу или файлу Bookmark пользователя, что содержимое того или иного файла будет изменяться. В этом случае робот не будет сохранять URL, а броузер пользователя внесет или не внесет это файл в bookmark. Пока эта информация описывается только в файле /robots.txt, Пользователь не будет знать о том, что эта страница будет изменяться.

Мета-таг DOCUMENT-STATE может быть полезен для этого. По умолчанию, этот мета-таг принимается с CONTENT=STATIC.
<META NAME="DOCUMENT-STATE" CONTENT="STATIC">
<META NAME="DOCUMENT-STATE" CONTENT="DYNAMIC">

 

Зеркала
Как исключить индексирование поисковой системой генерируемых страниц или дублирование документов, если есть зеркала сервера?
Генерируемые страницы - страницы, порождаемые действием CGI-скриптов. Их наверняка не следует индексировать, поскольку если попробовать провалиться в них из поисковой системы, будет выдана ошибка. Что касается зеркал, то негоже, когда выдаются две разные ссылки на разные сервера, но с одним и тем же содержимым. Чтобы этого избежать, следует использовать мета-таг URL с указанием абсолютного URL этого документа (в случае зеркал - на соответствующую страницу главного сервера).
<META NAME="URL" CONTENT="absolute_url">

 

 
Robots.txt
Создание Robots.txt

Последовательно заполняйте все необходимые поля. По мере ваших указаний, Вы будете видеть наполнение вашего Robots.txt директивами. Ниже подробно описаны все директивы файла Robots.txt.

Адрес вашего сайта: HTTP://
Для каких поисковых систем будем создавать следующие правила:
User-agent:
Укажите директории и файлы, которые НЕ НУЖНО индексировать и посещать поисковым системам:
Disallow:
Главное зеркало сайта:
Host:
Расположение карты сайта в формате XML:
Sitemap:
Вставить:

Результат - Robots.txt:
 
Пометьте, скопируйте и вставьте текст в текстовый редактор. Сохраните файл как "robots.txt" в корневой директории Вашего сайта.
 
Описание формата файла robots.txt
Файл robots.txt состоит из записей, каждая из которых состоит из двух полей: строки с названием клиентского приложения ( User-agent), и одной или нескольких строк, начинающихся с директивы Disallow:

Директива ":" значение

Robots.txt должен создаваться в текстовом формате UNIX. Большинство хороших текстовых редакторов уже умеют превращать символы перевода строки Windows в Unix. Либо ваш FTP-клиент должен уметь это делать. Для редактирования не пытайтесь пользоваться Html-редактором, особенно таким, который не имеет текстового режима отображения кода.
 
Директива User-agent:

Для Рамблера:

User-agent: StackRambler

Для Яндекса:

User-agent: Yandex

Для Гугла:

User-Agent: googlebot

Вы можете создать инструкцию для всех роботов:

User-agent:   *

 

Директива Disallow:

Вторая часть записи состоит из строк Disallow. Эти строки - директивы (указания, команды) для данного робота. В каждой группе, вводимой строкой User-agent, должна быть хотя бы одна инструкция Disallow. Количество инструкций Disallow не ограничено.Они сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Вы можете запретить индексацию файла или каталога.

Следующая директива запрещает индексацию каталога /cgi-bin/:
Disallow: /cgi-bin/


Обратите внимание на / в конце названия директории! Чтобы запрещать посещение именно каталога "/dir", инструкция должна иметь вид: "Disallow: /dir/". А строка "Disallow: /dir" запрещает посещение всех страниц сервера, полное имя которых (от корня сервера) начинается с "/dir". Например: "/dir.html", "/dir/index.html", "/directory.html".

Внимание: точно так же и инструкции "Disallow: *", "Disallow: *.doc", "Disallow: /dir/*.doc" не запрещают ничего, поскольку файлов, имя которых начинается со звездочки или содержит ее, не существует! Использование регулярных выражений в строках Disallow, равно как и в файле robots.txt вообще, не предусмотрено.

Записаная следующим образом директива запрещает индексацию файла index.htm находящегося в корне:
Disallow: /index.htm

 

Директиву Allow понимает только Яндекс.

User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц начинающихся с '/cgi-bin'


Для остальных поисковиков вам придется перечислять все закрытые документы. Продумайте структуру сайта, чтобы закрытые для индексирования документы были собраны по возможности в одном месте.

Если директива Disallow будет пустой, это значит, что робот может индексировать ВСЕ файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Робот Рамблера понимает * как любой символ, поэтому инструкция Disallow: * означает запрещение индексации всего сайта.

Директивы Allow, Disallow без параметров. Отсутствие параметров у директив Allow, Disallow трактуется следующим образом:

User-agent: Yandex
Disallow: # тоже что и Allow: /
User-agent: Yandex
Allow: # тоже что и Disallow: /

 

Использование спецсимволов "*" и "$".
При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов. Примеры:

User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx'
и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private',
но и '/cgi-bin/private'

 

Спецсимвол '$'. По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*', например:

User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое

чтобы отменить '*' на конце правила, можно использовать спецсимвол '$', например:

User-agent: Yandex
Disallow: /example$ # запрещает '/example', но не запрещает '/example.html'
User-agent: Yandex
Disallow: /example # запрещает и '/example', и '/example.html'
User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example'
		       запрещает и /example.html и /example

 

Директива Host.

Если ваш сайт имеет зеркала, специальный робот зеркальщик определит их и сформирует группу зеркал вашего сайта. В поиске будет участвовать только главное зеркало. Вы можете указать его при помощи robots.txt, используя директиву 'Host', определив в качестве ее параметра имя главного зеркала. Директива 'Host' не гарантирует выбор указанного главного зеркала, тем не менее, алгоритм при принятии решения учитывает ее с высоким приоритетом. Пример:

#Если www.glavnoye-zerkalo.ru главное зеркало сайта, то robots.txt для 
#www.neglavnoye-zerkalo.ru выглядит так
User-Agent: *
Disallow: / Forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru

 

В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву 'Host' необходимо добавлять в группе, начинающейся с записи 'User-Agent', непосредственно после директив 'Disallow'('Allow'). Аргументом директивы 'Host' является доменное имя с номером порта (80 по умолчанию), отделенным двоеточием. Параметр директивы Host обязан состоять из одного корректного имени хоста (т.е. соответствующего RFC 952 и не являющегося IP-адресом) и допустимого номера порта. Некорректно составленные строчки 'Host:' игнорируются.

# Примеры игнорируемых директив Host
Host: www.myhost-.ru
Host: www.-myhost.ru
Host: www.myhost.ru:100000
Host: www.my_host.ru
Host: .my-host.ru:8000
Host: my-host.ru.
Host: my..host.ru
Host: www.myhost.ru/
Host: www.myhost.ru:8080/
Host: http://www.myhost.ru
Host: 213.180.194.129
Host: www.firsthost.ru,www.secondhost.ru
Host: www.firsthost.ru www.secondhost.ru
 
Директива Crawl-delay

Задает таймаут в секундах, с которым поисковый робот закачивает страницы с вашего сервера (Crawl-delay).

Если сервер сильно нагружен и не успевает отрабатывать запросы на закачку, воспользуйтесь директивой "Crawl-delay". Она позволяет задать поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей. В целях совместимости с роботами, которые не полностью следуют стандарту при обработке robots.txt, директиву "Crawl-delay" необходимо добавлять в группе, начинающейся с записи "User-Agent", непосредственно после директив "Disallow" ("Allow").
Поисковый робот Яндекса поддерживает дробные значения Crawl-Delay, например, 0.5. Это не гарантирует, что поисковый робот будет заходить на ваш сайт каждые полсекунды, но дает роботу больше свободы и позволяет ускорить обход сайта.
Пример:
User-agent: Yandex
Crawl-delay: 2 # задает таймут в 2 секунды
User-agent: *
Disallow: /search
Crawl-delay: 4.5 # задает таймут в 4.5 секунды 

 

 
Пустые строки и комментарии

Пустые строки допускаются между группами инструкций, вводимыми User-agent.

Инструкция Disallow учитывается, только если она подчинена какой-либо строке User-agent - то есть если выше нее есть строка User-agent.
Любой текст от знака решетки "#" до конца строки считается комментарием и игнорируется.
Пример:
Следующий простой файл robots.txt запрещает индексацию всех страниц сайта всем роботам, кроме робота Рамблера, которому, наоборот, разрешена индексация всех страниц сайта.
# Инструкции для всех роботов
User-agent:   *
Disallow:	/
# Инструкции для робота Рамблера
User-agent:	StackRambler
Disallow:
 
Распространенные ошибки:

Перевернутый синтаксис:

User-agent: /
Disallow: StackRambler

А должно быть так:

User-agent: StackRambler
Disallow:  /

Несколько директив Disallow в одной строке:

Disallow: /css/ /cgi-bin/ /images/

Правильно так:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

 

Недопустимо наличие пустых переводов строки между директивами 'User-agent' и 'Disallow' ('Allow'), а также между самими 'Disallow' ('Allow') директивами.

В соответствии со стандартом перед каждой директивой 'User-agent' рекомендуется вставлять пустой перевод строки.

Комментарии рекомендуется писать отдельной строкой, чтобы одни однозначно воспринимались поисковыми роботами

Пробел в начале строки разрешается, но не рекомендуется.

Не указывайте несколько директив в одной строке. Различные почтовые роботы могут понять эту директиву по-разному. Некоторые проигнорируют пробелы и поймут директиву, как запрет на индексацию каталога, состоящего из всех записей строки, либо возьмут только один каталог и проигнорируют все остальное

Не редактируйте файл robots.txt в формате DOS. Всегда редактируйте свой robots.txt в режиме UNIX и закачивайте файл на сайт в режиме ASCII. Многие FTP-клиенты умеют при закачке в текстовом режиме переводить символы строки из DOS-формата в UNIX-формат.

Google - первый поисковый сервер, который поддерживает в директивах регулярные выражения. Что позволяет запрещать индексацию файлов по их расширениям.

User-agent: googlebot
Disallow: *.cgi

 

 
Создание Sitemap

Файл Sitemap - это файл с информацией о страницах сайта. С помощью файла Sitemap вы можете сообщить поисковой системе, какие страницы вашего сайта нужно индексировать, как часто обновляется информация на страницах, а также индексация каких страниц наиболее важна.

  1. Выберите кнопку "Загрузить Sitemap. XML" или скопируйте сгенерированный для Вашего сайта код и вставьте его в чистый текстовый файл блокнота ( Notepad)
  2. Сохраните этот файл под именем sitemap.xml
  3. Загрузите этот файл в корневую директорию Вашего сайта (туда, где находится главная страница сайта)
  4. В адресной строке браузера наберите полный путь к сгенерированному файлу: http://домен/sitemap.xml.
    Если Вы всё сделали правильно, то Вы увидите список URL'ов и никаких ошибок
    После загрузки файла в корневую директорию вашего сайта вы можете:

 

Sitemap: http://домен/sitemap.xml

 

  1. Проделывайте эти шаги применительно к каждому своему сайту.

 

 
<< Первая < Предыдущая 1 2 3 Следующая > Последняя >>

Страница 1 из 3

Новости антивируса Dr. Web


Наши партнёры