главная (main)   карта сайта   написать письмо (e-mail)  
 
 
главная   о нас   работы   цены на услуги   технологии   статьи   отзывы   контакты  
   
   
   
Заказать прямо сейчас создание сайта

Заказать прямо сейчас разработку логотипа

Заказать разработку фирменного стиля

Заказать прямо сейчас создание бренда

Р Е К Л А М А:


Создание бренда, Создание торговой марки

Студия дизайна интерьера APRIORY, Киев, Украина: дизайн интерьера Киев, дизайн интерьера квартиры, дизайн проекты интерьера, студии дизайна интерьера, дизайн интерьера офиса дома кухни 3d дизайн интерьера

Всеукраинский стоматологический портал. Стоматолог дантист, лечение зубов, стоматологическая клиника, стоматология цены, лечение кариеса, добрый детский стоматолог.

Формат файла robots.txt. Секреты и правила составления файла robots.txt.


20.09.07 09:09 | Раздел: Поисковые системы

Не секрет, что индексирование страниц поисковыми серверами порой происходит против желания владельцев этих серверов. В частности, иногда работа роботов затрудняет работу с сервером обычных пользователей (создают излишнюю нагрузку), иногда одни и те же файлы индексируются несколько раз. В других случаях, роботы индексируют не то, что надо, например, приватные файлы, очень "глубокие" виртуальные директории, временную информацию или CGI-скрипты. Использование файла robot.txt призвано решить подобные проблемы.

Поисковые роботы всегда перед индексацией ресурса ищут в корневом каталоге домена файл с именем "robots.txt" (http://ваш_домен/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.

Для того, чтобы регламентировать посещение сервера или его частей роботом необходимо создать на сервере файл, содержащий информацию для управления поведением поискового робота. Этот файл должен быть доступен по протоколу HTTP по локальному URL /robots.txt.

Формат файла robots.txt

Файл Robots.txt должен создаваться в текстовом формате Unix. Несмотря на то, что стандарт безразлично относится к регистру букв в robots.txt, в именах каталогов и файлов регистр все-таки важен.

Файл должен содержать одну или несколько записей, разделенных одной или несколькими пустыми строками (оканчивающимися CR, CR/NL или NL). Каждая запись должна содержать строки в форме:

" : ".

Поле является регистронезависимым.

Комментарии могут быть включены в файл: начало комментария обозначьте символом # , конец строки обозначает конец комментария.

Запись должна начинаться с одной или нескольких строк User-Agent, следом должна быть одна или несколько строк Disallow, формат которых приведен ниже. Нераспознанные строки игнорируются.

User-Agent

Данная строка содержит название робота Значением этого поля должно являться имя поискового робота, которому в этой записи устанавливаются права доступа. Если в записи указано более одного имени робота, то права доступа распространяются на всех указанных поисковых роботов. Если в качестве значения этого поля указан символ "*", то права доступа, заданные в этой записи, будут применены для любых поисковых роботов, запросивших файл /robots.txt

Названия роботов можно найти в логах веб-сервера. Большинство поисковых серверов присваивают короткие имена своим паукам-индексаторам

Disallow

Эти строки - директивы для данного робота. Они сообщают поисковому роботу какие файлы и/или каталоги ему запрещено индексировать. Значением этого поля должен являться частичный URL, который не должен индексироваться. Любой URL, полный или частичный путь; начинающийся с такого значения индексирован не будет. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы файл robots.txt считался верным

Например, Disallow: /help закрывает и /help.html, и /help/index.html, тогда как Disallow: /help/ только /help/index.html.

Если значение Disallow не указано, то это означает, что индексируется все дерево каталогов сервера

Следующая директива запрещает паукам индексировать файл mail.htm:

Disallow: mail.htm

Директива может содержать и название каталога: Следующая директива запрещает роботам индексировать каталог "cgi-bin".

Disallow: /cgi-bin/

Если файл /robots.txt пуст, или не отвечает заданному формату и/или синтаксису, или же его вообще не существует, то любой поисковый робот будет работать по своему алгоритму.

МЕТА-тег robots

МЕТА тег robots служит для того, чтобы разрешать или запрещать роботам, приходящим на сайт, индексировать данную страницу. Кроме того, этот тег предназначен для того, чтобы предлагать роботам пройтись по всем страницам сайта и проиндексировать их. Кроме того, этим тегом могут воспользоваться те, кто не имеет доступа к корневому каталогу сервера и изменить файл robots.txt, но хочет запретить к индексированию свои файлы и директории.

Формат мета-тега Robots

МЕТА тег robots помещается в тег html-документа (внутри тега ). Формат достаточно прост (регистр букв значения не играет)

Данному мета-тегу можно присвоить варианта четыре значений. Атрибут CONTENT может содержать следующие значения: Index (индексировать), noindex (не индексировать), follow (следовать по ссылкам), nofollow (не следовать по ссылкам)

Например,

указывает, что данный документ не будет проиндексирован.

А

означает, что робот поисковой машины не должен идти по ссылкам с данной страницы.

Для одновременного запрета индексирования страницы и обхода ссылок с нее используйте

Если значений несколько, то они разделяются запятыми.

Запретить индексирование можно не только для файлов, но также и для их частей. Для того, чтобы запретить индексирование определенных частей файлов (текстовых), необходимо пометить их специальными тегами . При этом, тег NOINDEX не должен нарушать вложенность других тегов.

Пример 1 - закрывается от индексации содержимое директорий /help/my/ и /tmp/.

robots.txt for http://www.mysite.com

User-Agent: * Disallow: /help/my/

this is an infinite virtual URL space

Disallow: /tmp/

these will soon disappear

Пример 2 - от индексации закрывается содержимое директории /help/my/, однако поисковому роботу google все разрешено

robots.txt for http://www.mysite.com

User-Agent: * Disallow: /help/my/

this is an infinite virtual URL space

Google knows where to go

User-Agent: googlebot Disallow:

Пример 3 - любому поисковому роботу запрещается индексировать сервер

robots.txt for http://www.mysite.com

User-Agent: * Disallow: /

Примечания: 1. Комментарии рекомендуется писать отдельной строкой, чтобы одни однозначно воспринимались поисковыми роботами 2. Пробел в начале строки разрешается, но не рекомендуется. 3. Не указывайте несколько директив в одной строке. Различные почтовые роботы могут понять эту директиву по-разному. Некоторые проигнорируют пробелы и поймут директиву, как запрет на индексацию каталога, состоящего из всех записей строки, либо возьмут только один каталог и проигнорируют все остальное 4. Не редактируйте файл robots.txt в формате DOS. Всегда редактируйте свой robots.txt в режиме UNIX и закачивайте файл на сайт в режиме ASCII. Многие FTP-клиенты умеют при закачке в текстовом режиме переводить символы строки из DOS-формата в UNIX-формат. 5. Google - первый поисковый сервер, который поддерживает в директивах регулярные выражения. Что позволяет запрещать индексацию файлов по их расширениям.

User-agent: googlebot Disallow: *.cgi

В поле user-agent вам следует использовать имя "googlebot".

Адрес источника: http://hosteng.info/node/24


Комментарии:

Kennethhic:
Как часто Ваша партнёрша кричит в постели и рвёт Вам спину, изнемогая от оргазма? Сайт: https://eroctive2.blogspot.ru/

Stromectol:
ivermectin horse paste human dosage https://stromectolns.com/

Amoxil:
cheap amoxicillin 500mg https://amoxilus.fun/

johnansaz:
http://imrdsoacha.gov.co/silvitra-120mg-qrms

Sildenafil:
viagra without a doctor prescription usa https://viagrasus.com/

Sildenafil:
viagra price https://sildenafilmg.com/ over the counter viagra

ErectionPills:
medications for ed https://erectionpills.best/ ed remedies

gabapentin:
neurontin medicine https://gabapentin.icu/ prescription price for neurontin

diflucan:
diflucan australia otc https://diflucan.icu/ diflucan 200 mg cost

Ciproik:
ciprofloxacin 500mg buy online https://cipro.best/ ciprofloxacin 500mg buy online

CanadaRx:
ed meds online without doctor prescription https://withoutprescription.store/ best non prescription ed pills

OnlinePha:
viagra online canadian pharmacy https://onlinepharmacy.men/

CanadaDr:
canadian drugstore online https://canadiandrugs.best/

Stromectol:
ivermectin covid studies https://stromectolbestprice.com/

Tadalafil:
tadalafil 10 mg canadian pharmacy https://tadalafil.pro/ tadalafil tablets 20 mg online

Stromectol:
ivermectin overdose in cats https://stromectol.pro/ what is stromectol

Paxlovid:
paxlovid and molnupiravir https://paxlovid.best/ pilule anti covid

Stromectol:
can you get ivermectin over the counter https://stromectol1st.com/

Stromectol:
stromectol buy online uk https://stromectol1st.com/

Sildenafil:
can you buy sildenafil without a prescription https://buysildenafil.best/ sildenafil price in usa

CanadaPharm:
the canadian drugstore https://pillswithoutprescription.xyz/ the canadian drugstore

Добавить комментарий:

Имя:

E-mail (не отображается):

Текст комментария (использование тэгов запрещено):

Next |  Previous

 

   
   
Студия фито-дизайна Музыка цветов: оформление свадеб, торжеств, декор интерьера
   
   
Copyright © 2002-2013. Все права защищены и принадлежат FloMaster ® Web & Design Studio.
Использование материалов допускается только с предварительного согласия студии.