Составление файла robots.txt - <noindex><a href="/search/%D1%84%D0%B0%D0%B9%D0%BB%D0%B0/" rel="nofollow" class="eTag">файла</a>, <a href="/search/%D1%81%D0%BE%D1%81%D1%82%D0%B0%D0%B2%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5/" rel="nofollow" class="eTag">составление</a>, <a href="/search/robots.txt/" rel="nofollow" class="eTag">robots.txt</a></noindex>

Скрипты в разработке [193]

Скрипты для ucoz [1]

Шаблоны для ucoz [14]

Статьи вебмастеру [72]

Другое [17]

Жалобы

Считаем до 100

Каким браузером ты пользуе...

Общение

Нужен Баннер !

Набор модераторов

Предложения для сайта

Продаётся ?

Срочно)

Правила

Кнопки вверх для сайта

Уникальный вид коментариев...

Вид комментариев для юкоз

Цветная статистика для Uco...

Светящаяся гирлянда для са...

Новогодние украшения на са...

Скрипт снег на сайт для uC...

Красивый информер для файл...

Кнопка Вверх и вниз для са...

Красивый Мини чат для юкоз

Скрипт рассылка на e-mail модуля "Каталог файлов"

Написать администратору в лс

Сегментация целевой аудитории в копирайтинге

Кнопка вверх (плавный скролл)

Иконка темы для форума

Иконка темы для форума

Иконка темы для форума

Несколько дизайнов. Cookies

Кнопка вверх (плавный скролл)

Иконка темы для форума

Как вы запоминаете свой пароль?

1. На бумажку записываю

2. На компе в блокноте

3. В уме

4. У меня пароль "qwerty"

5. А что такое пароль?

[ Результаты · Архив опросов ]

Всего ответов: 165

Главная » Файлы » Статьи вебмастеру

Составление файла robots.txt

Жаловаться на материал \| Прямая ссылка на материал	05.04.2010, 04:46
Как известно, файл robots.txt используется для запрета индексации части или всего сайта всевозможными роботами. Правильное составление этого файла позволит избежать индексации документов, для индексации не предназначенных. Формат файла robots.txt Robots.txt — простой текстовый файл1, который должен находиться в корневой директории сервера. Имя файла должно быть в нижнем регистре (ROBOTS.TXT, Robots.txt — неправильно). В файле содержатся записи, отделяемые одной или несколькими пустыми строками (разделяемыми CR, CRNL, NL или r, rn, n). Каждая запись, в свою очередь, состоит из строк следующего вида: имя_поля[необязательные пробелы]:[необязательные пробелы]значение[необязательные пробелы] Поле является нечувствительным к регистру (case insensitive). Каждая запись начинается одной или несколькими строками, где имя_поля=User-agent, после чего следует одна или несколько строк, где имя_поля=Disallow, имена полей, которые отличаются от двух указанных, игнорируются2. Знак «#» означает, что пробелы перед ним и все символы до конца строки являются комментарием. Строки, содержащие только комментарий, игнорируются и не могут использоваться для разделения записей. User-agent * Значением этого поля является имя робота, к которому применяются правила доступа; * Если строк с User-agent несколько, то для всех роботов применяются одинаковые правила, которые содержаться в текущей записи; * Если значение поля равно «», то правила применяются к любому роботу, для которого нет отдельной записи. В файле robots.txt может быть только одна запись с User-agent: . Disallow * В записи должно быть хотя бы одно поле Disallow; * в поле Disallow указывается частичный или полный путь (URL), который не будет посещен; * пустое значение (Disallow: ) интерпретируется как разрешение на посещение любой страницы; * регулярные выражения и символы подстановки запрещены3. Практика В процессе обработки сайта роботы имеют массив ссылок для посещения и набор правил исключения из файла robots.txt. Для каждой ссылки выделяется путь (http://www.site.com/path/to/file.html), после чего к этому пути применяются по очереди правила исключения. Пусть в файле есть строка Disallow: /path/to, она сравнивается с соответствующей подстрокой ссылки: http://www.site.com/path/to/file1.html — посещение запрещено; http://www.site.com/path/to/file2.html — посещение запрещено; http://www.site.com/path/file3.html — посещение разрешено. Чтобы запретить роботу посещение динамических страниц, можно использовать частичный путь. Например, чтобы запретить посещение страниц для печати вида http://www.site.com/index.php?action=print&id=1, но разрешить посещение страниц вида http://www.site.com/index.php?action=view&id=1, необходимо в robots.txt написать следующее: Disallow: /index.php?action=print Однако следует учитывать порядок параметров в ссылке. Так, следующие страницы робот посетит: http://www.site.com/index.php?id=1&action=print http://www.site.com/?action=print&id=1 Пример файла robots.txt User-agent: * Disallow: /news # запретить всем роботам индексировать ссылки, #которые начинаются с /news User-agent: StackRambler User-agent: Aport Disallow: /eng Disallow: /news #Рамблеру и Апорту запретить индексацию ссылок, #которые начинаются с /news и /eng User-agent: Yandex Disallow: #Яндексу разрешить все. Следует заметить, что файл robots.txt не является панацеей, так как его правила исключения используют только «культурные» роботы, а наряду с ними существует целый список роботов, сервисов и программ, которые не следуют правилам исключения, либо игнорируют существование файла robots.txt на сайте. Кроме этого в файл исключений не стоит добавлять пути к файлам, о существовании которых не следует знать посторонним людям. Файл robots.txt доступен всем, поэтому присутствие там строк, вроде Disallow: /admin, только подзадорит некоторых посетителей к совершению вредоносных действий. Примечания 1. В некоторых случаях используется динамическое формирование файла robots.txt, для сайтов с зеркалами. 2. Некоторые системы поддерживают дополнительные поля. Яндекс, например, использует поле Host для определения основного зеркала сайта. 3. Некоторые системы разрешают использование регулярных выражений. Так Гугл, который имеет поиск по изображениям, файлам PDF и другим, поддерживает в поле Disallow символы «» (любая последовательность символов) и «$» (окончание строки ссылки). Это позволяет запретить индексирование определенного типа файлов: User-agent: Googlebot Disallow: .pdf$ #Запрет индексации файлов PDF По мнению автора это избыточное расширение, так как с тем же успехом можно вынести все документы PDF в отдельный каталог и запретить его индексирование: User-agent: * Disallow: /pdf/ Автор - Владимир Чернышов aka Cherny
1 2 3 4 5 Категория: Статьи вебмастеру \| Добавил: remus \| Теги: файла, составление, robots.txt
Просмотров: 1100 \| Загрузок: 0 \| Рейтинг: 1.0/1

Всего комментариев: 0

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]

Пожалуйста пройдите быструю регистрацию или войдите в свой аккаунт.

Зарег. на сайте:

Всего: 618

Новых за месяц: 0

Новых за неделю: 0

Новых вчера: 0

Новых сегодня: 0

Из них:

Администраторов: 1

Модератор форума: 0

Vip пользователей: 1 (Стать)

Проверенных: 2

Обычных юзеров: 614

Из них:

Парней: 586

Девушек: 32

Онлайн всего: 1

Гостей: 1

Пользователей: 0

[ Онлайн пользователи ]
[ Посетители за сегодня ]

Показать теги