Раздел: Поисковые системы
 20.09.07 09:09
Не секрет, что индексирование страниц поисковыми серверами порой происходит против желания владельцев этих серверов. В частности, иногда работа роботов затрудняет работу с сервером обычных пользователей (создают излишнюю нагрузку), иногда одни и те же файлы индексируются несколько раз. В других случаях, роботы индексируют не то, что надо, например, приватные файлы, очень "глубокие" виртуальные директории, временную информацию или CGI-скрипты. Использование файла robot.txt призвано решить подобные проблемы.
Поисковые роботы всегда перед индексацией ресурса ищут в корневом каталоге домена файл с именем "robots.txt" (http://ваш_домен/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.
Для того, чтобы регламентировать посещение сервера или его частей роботом необходимо создать на сервере файл, содержащий информацию для управления поведением поискового робота. Этот файл должен быть доступен по протоколу HTTP по локальному URL /robots.txt.
Формат файла robots.txt
Файл Robots.txt должен создаваться в текстовом формате Unix. Несмотря на то, что стандарт безразлично относится к регистру букв в robots.txt, в именах каталогов и файлов регистр все-таки важен.
Файл должен содержать одну или несколько записей, разделенных одной или несколькими пустыми строками (оканчивающимися CR, CR/NL или NL). Каждая запись должна содержать строки в форме:
" : ".
Поле является регистронезависимым.
Комментарии могут быть включены в файл: начало комментария обозначьте символом # , конец строки обозначает конец комментария.
Запись должна начинаться с одной или нескольких строк User-Agent, следом должна быть одна или несколько строк Disallow, формат которых приведен ниже. Нераспознанные строки игнорируются.
User-Agent
Данная строка содержит название робота
Значением этого поля должно являться имя поискового робота, которому в этой записи устанавливаются права доступа. Если в записи указано более одного имени робота, то права доступа распространяются на всех указанных поисковых роботов.
Если в качестве значения этого поля указан символ "*", то права доступа, заданные в этой записи, будут применены для любых поисковых роботов, запросивших файл /robots.txt
Названия роботов можно найти в логах веб-сервера. Большинство поисковых серверов присваивают короткие имена своим паукам-индексаторам
Disallow
Эти строки - директивы для данного робота. Они сообщают поисковому роботу какие файлы и/или каталоги ему запрещено индексировать.
Значением этого поля должен являться частичный URL, который не должен индексироваться. Любой URL, полный или частичный путь; начинающийся с такого значения индексирован не будет. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, чтобы файл robots.txt считался верным
Например,
Disallow: /help
закрывает и /help.html, и /help/index.html,
тогда как Disallow: /help/
только /help/index.html.
Если значение Disallow не указано, то это означает, что индексируется все дерево каталогов сервера
Следующая директива запрещает паукам индексировать файл mail.htm:
Disallow: mail.htm
Директива может содержать и название каталога:
Следующая директива запрещает роботам индексировать каталог "cgi-bin".
Disallow: /cgi-bin/
Если файл /robots.txt пуст, или не отвечает заданному формату и/или синтаксису, или же его вообще не существует, то любой поисковый робот будет работать по своему алгоритму.
МЕТА-тег robots
МЕТА тег robots служит для того, чтобы разрешать или запрещать роботам, приходящим на сайт, индексировать данную страницу. Кроме того, этот тег предназначен для того, чтобы предлагать роботам пройтись по всем страницам сайта и проиндексировать их. Кроме того, этим тегом могут воспользоваться те, кто не имеет доступа к корневому каталогу сервера и изменить файл robots.txt, но хочет запретить к индексированию свои файлы и директории.
Формат мета-тега Robots
МЕТА тег robots помещается в тег html-документа (внутри тега ). Формат достаточно прост (регистр букв значения не играет)
Данному мета-тегу можно присвоить варианта четыре значений. Атрибут CONTENT может содержать следующие значения:
Index (индексировать), noindex (не индексировать), follow (следовать по ссылкам), nofollow (не следовать по ссылкам)
Например,
указывает, что данный документ не будет проиндексирован.
А
означает, что робот поисковой машины не должен идти по ссылкам с данной страницы.
Для одновременного запрета индексирования страницы и обхода ссылок с нее используйте
Если значений несколько, то они разделяются запятыми.
Запретить индексирование можно не только для файлов, но также и для их частей. Для того, чтобы запретить индексирование определенных частей файлов (текстовых), необходимо пометить их специальными тегами .
При этом, тег NOINDEX не должен нарушать вложенность других тегов.
Пример 1 - закрывается от индексации содержимое директорий /help/my/ и /tmp/.
robots.txt for http://www.mysite.com
User-Agent: *
Disallow: /help/my/
this is an infinite virtual URL space
Disallow: /tmp/
these will soon disappear
Пример 2 - от индексации закрывается содержимое директории /help/my/, однако поисковому роботу google все разрешено
robots.txt for http://www.mysite.com
User-Agent: *
Disallow: /help/my/
this is an infinite virtual URL space
Google knows where to go
User-Agent: googlebot
Disallow:
Пример 3 - любому поисковому роботу запрещается индексировать сервер
robots.txt for http://www.mysite.com
User-Agent: *
Disallow: /
Примечания:
1. Комментарии рекомендуется писать отдельной строкой, чтобы одни однозначно воспринимались поисковыми роботами
2. Пробел в начале строки разрешается, но не рекомендуется.
3. Не указывайте несколько директив в одной строке.
Различные почтовые роботы могут понять эту директиву по-разному. Некоторые проигнорируют пробелы и поймут директиву, как запрет на индексацию каталога, состоящего из всех записей строки, либо возьмут только один каталог и проигнорируют все остальное
4. Не редактируйте файл robots.txt в формате DOS. Всегда редактируйте свой robots.txt в режиме UNIX и закачивайте файл на сайт в режиме ASCII. Многие FTP-клиенты умеют при закачке в текстовом режиме переводить символы строки из DOS-формата в UNIX-формат.
5. Google - первый поисковый сервер, который поддерживает в директивах регулярные выражения. Что позволяет запрещать индексацию файлов по их расширениям.
User-agent: googlebot
Disallow: *.cgi
В поле user-agent вам следует использовать имя "googlebot".
Адрес источника: http://hosteng.info/node/24
 19.09.07 10:09
Яндекс установил новую точку отсчета бесконечности для пользователей Яндекс.Почты — с сегодняшнего дня базовый размер их почтовых ящиков увеличился до 10 гигабайт. Этого объема хватит для хранения более трех миллионов обычных пользовательских писем.
Новый базовый размер ящика является достаточным для работы с электронной корреспонденцией в течение долгого времени — теперь пользователи могут не задумываться, сколько места занимает каждое новое письмо. Как и раньше, в случае заполнения почтового ящика, его можно увеличивать неограниченное количество раз, но уже с шагом в 1 гигабайт.
Вместе с увеличением минимального размера ящика увеличился максимальный размер для одного принятого или отправленного письма — теперь он составляет 20 Мб. Такой размер позволит передать одним письмом несколько mp3-файлов или фотографий в высоком разрешении.
«Скорость роста современного интернета и размеров среднего письма привели нас к желанию сделать единицы измерения бесконечности более современными, — говорит Антон Забанных, руководитель сервиса Яндекс.Почта. — Именно поэтому мы в 500 раз увеличили базовый размер почтового ящика, а также изменили предельную величину одного письма. Впрочем, отправляя письмо размером 15-20 Мб, надо помнить, что другие почтовые системы пока не всегда готовы принять такие большие сообщения».
Яндекс
 19.09.07 10:09
Владимир Парамонов
Компания Yahoo заключила соглашение о покупке фирмы Zimbra, основанной в 2003 году.
Zimbra является разработчиком оригинальной почтовой системы с веб-интерфейсом и уникальными возможностями. Клиентская часть сервиса выполнена на основе технологии AJAX (Asynchronous JavaScript and XML), благодаря чему многие действия пользователи могут выполнять без перезагрузки страницы. При этом почтовая система связана с некоторыми другими онлайновыми сервисами, в частности, с картографической службой Google Maps и сетью Skype.
По условиям договора, Yahoo заплатит за Zimbra 350 миллионов долларов США наличными. Предполагается, что наработки Zimbra будут интегрированы в собственную почтовую службу Yahoo, что позволит увеличить пользовательскую базу и укрепить позиции по отношению к основным конкурентам в лице Microsoft и Google. Кроме того, после завершения сделки компания Yahoo будет получать прибыль от предоставления услуг существующим клиентам Zimbra, в число которых входят провайдер Comcast, фирмы H&R Block, Raytheon, Калифорнийский университет в Лос-Анджелесе и др.
В настоящее время штат компании Zimbra насчитывает немногим больше ста человек. Как сообщает Associated Press, ежегодный доход Zimbra, по оценкам аналитиков, составляет от 10 до 20 миллионов долларов США. Таким образом, Yahoo платит за свое очередное приобретение весьма неплохие деньги. Завершить сделку планируется в течение следующего квартала. После слияния Сатиш Дхармарадж, исполнительный директор и один из основателей Zimbra, продолжит работать в объединенной компании.
Компьюлента
 19.09.07 10:09
Сергей и Марина Бондаренко
Компания Yahoo начала тестирование нового сервиса Mash, аналога MySpace и Facebook. Сервис дает пользователям возможность заводить друзей, оставлять записи, которые касаются их жизни, обмениваться фотографиями и другой информацией. Пока тестирование нового сервиса является закрытым, и доступ к нему могут получить только некоторые пользователи, отобранные в группу тестеров.
Mash интегрируется с другими сервисами Yahoo. для этого используются мини-приложения – виджеты. Новый сервис не имеет никакого отношения к Yahoo 360 degree – более старому подобному сервису, который был представлен более двух лет назад.
3DNews
 19.09.07 10:09
ОАО «ВымпелКом» (торговая марка «Билайн») объявляет о продолжении сотрудничества с компанией Google. Теперь абоненты «Билайн» могут пользоваться новым интерактивным сервисом - Google Картами, адаптированными специально для мобильных телефонов в виде java-приложения.
С помощью сервиса «Карты Google», абоненты «Билайн» могут путешествовать, просматривая на мобильном телефоне карты местности и спутниковые изображения объектов, находить нужные адреса и подбирать маршруты проезда.
Карты Google имеют удобную навигацию, изображение можно приближать, удалять и перемещать в любом направлении - и при этом не перезагружать страницу.
Также для удобства абонентов «Билайн» при пользовании услугой «Карты Google», предусмотрен счетчик трафика: он отображается в верхнем правом углу экрана.
Чтобы воспользоваться услугой, необходимо скачать wap-ссылку на java-приложение, пройти по ней и загрузить приложение в мобильный телефон. Для этого абонент может сам выбрать более удобный для себя способ загрузки приложения.
Ссылка на загрузку доступна:
по номеру 0684300 (ссылка придет в sms),
по номеру 06500 (ссылка придет в sms),
по номеру 120466453# (ссылка придет в sms),
на WAP-портале «Билайн» (канал «День за днем», раздел «Полезно»),
в USSD-меню *111# (раздел «Полезно»).
Пользоваться услугой «Карты Google», могут абоненты «Билайн» всех систем расчетов, всех тарифных планов и всех регионов (с централизованным биллингом), являющиеся пользователями телефонов с поддержкой java-приложений.
Картами можно пользоваться в любых населенных пунктах, покрытых сетью GPRS, но осуществлять поиск адресов возможно по следующим городам России: Москва и МО, Санкт-Петербург, Брянск, Волгоград, Воронеж, Екатеринбург, Казань, Комсомольск – на – Амуре, Кострома, Липецк, Ливны и Мценск (Орловская область), Набережные Челны, Нижний Новгород, Орел, Пермь, Рязань, Саратов, Самара, Тамбов, Тольятти, Тула, Тверь, Ульяновск.
ВымпелКом
|