english

главная

о нас

работы

цены на услуги

технологии

статьи

отзывы

контакты

Заказать прямо сейчас создание сайта

Заказать прямо сейчас разработку логотипа

Заказать разработку фирменного стиля

Заказать прямо сейчас создание бренда

Р Е К Л А М А:

Создание бренда, Создание торговой марки

Студия дизайна интерьера APRIORY, Киев, Украина: дизайн интерьера Киев, дизайн интерьера квартиры, дизайн проекты интерьера, студии дизайна интерьера, дизайн интерьера офиса дома кухни 3d дизайн интерьера

Всеукраинский стоматологический портал. Стоматолог дантист, лечение зубов, стоматологическая клиника, стоматология цены, лечение кариеса, добрый детский стоматолог.

Раздел: Поисковые системы

Google открыла сервис по обмену закладками

24.09.07 12:09

Владимир Парамонов

Компания Google без громких анонсов открыла новый сервис под названием Google Shared Stuff, предназначенный для обмена закладками.

Служба Google Shared Stuff позволяет отправить ссылку и изображение той или иной веб-страницы по электронной почте, разместить закладку на сайте социальной сети или в персональном разделе Shared Stuff (потребуется зарегистрированный в Google аккаунт). Для работы с новым сервисом необходимо добавить на панель инструментов браузера специальную кнопку Email/Share. При нажатии на эту кнопку на экране появится всплывающее окно с несколькими разделами. Пользователю, в частности, будет предложено отправить ссылку на просматриваемый ресурс по нужному почтовому адресу или же разместить ее на сайте Facebook, Digg, Delicious, Furl, Social Poster или Reddit.

Список материалов, которыми пользователи Google Shared Stuff обмениваются чаще всего, отображается на специальной странице. Кстати, при необходимости можно настроить получение уведомлений об обновлении этой страницы по каналу RSS.

Нужно добавить, что Google также предлагает пользователям интернета сервис по хранению закладок Google Bookmarks. Данная служба позволяет добавлять к закладкам комментарии и работать с ними с любого компьютера, подключенного к Сети.

Компьюлента

Поисковику Yandex исполнилось 10 лет

24.09.07 12:09

Поисковой системе компании Яндекс вчера исполнилось 10 лет. Разработкой первой версии системы занималась компания CompTek, которая и открыла первую версию поисковой машины http://yandex.ru.

"Яndex-Web представляет собой естественное развитие программных продуктов серии Яndex (Яndex.Site, Яndex.CD, Яndex.Dict, Яndex.Lib). Как и все Яndex-системы, Яndex-Web является полнотекстовой поисковой системой с учетом морфологии русского и английского языка. В отличие от популярной морфологической надстройки к поисковой системе AltaVista , Яndex-Web является полностью оригинальной разработкой CompTek", - говорится в сообщении компании от 23 сентября 1997 года.

На момент открытия робот успел обойти 5 000 серверов (около 4 Гб текстов). Уже в первой версии системы при индексировании проверялась уникальность документов - это значит, что, если документ существует в нескольких кодировках и/или на нескольких зеркалах, в списке найденного он будет указан один раз (и, соответственно, один раз учтен в статистике).

Алгоритмы морфологического разбора, основанные на грамматическом словаре, умели нормализовать слова, то есть находить их начальную форму. Для неизвестных Яndex'у слов строится гипотетическая словарная статья, позволяющая обрабатывать (анализировать и синтезировать) такие слова аналогично известным.

Язык запросов (как и в других продуктах Яndex), помимо стандартных логических операторов (И, ИЛИ), включает оператор исключения (И НЕ), а также позволяет осуществлять поиск внутри абзаца, внутри документа, в заголовках и других полях, а также с указанием расстояния между словами. В дополнение к обычной практике Яndex - нормализации слов при индексации и поиске, реализован также запрос по точной словоформе. Язык запросов более подробно описан на странице http://yandex.ru/ya_detail.html.

Презентация поисковой машины Яndex-Web состоялась в четверг, 25 сентября 1997 года в 16.00 на выставке Softool.

CyberSecurity.ru

Google проложит кабель по дну Тихого океана

24.09.07 12:09

Американский интернет-гигант Google принимает участие в переговорах с рядом телекоммуникационных компаний об участии в проекте прокладки нового высокоскоростного кабеля. Кабель планируется прокладывать по дну Тихого океана от западного побережья США до Азии.

По данным издания Wall Street Journal, Google намеревается стать довольно крупным инвестором в данном проекте.

По мнению специалистов, интерес Google к прокладке кабеля по Тихому океану довольно объясним и логичен. Компания намерена улучшить доступность собственных интернет-ресурсов в бурно растущем азиатском регионе. Особенно это будет актуально в сфере начала работы нового поколения интернет-сервисов компании - для надежной и быстрой работы онлайнового офисного пакета Google Apps, а также для корпоративных сервисов электронной почты и видеоресурсов, таких как YouTube, необходимы надежные и высокоскоростные каналы связи, которые будут иметь как можно меньше ветвлений и проходов через многочисленных провайдеров.

Кроме того, специалисты отмечают, что если трансатлантические каналы связи, объединяющие США и Европу, довольно современны и имеют хорошую полосу пропускания, то тихоокеанские магистрали куда менее современны. Ситуация усугубляется и тем, что в ближайшие 5-7 лет именно азиатские страны станут самыми многочисленными по количеству пользователей. Помимо этого, специалисты по телекоммуникациям сходятся во мнении, что сетевая архитектура азиатского сегмента интернета довольно уязвима - так во время землетрясения, произошедшего в декабре прошлого года на Тайване, был поврежден магистральный кабель. В результате большая часть сетевых ресурсов на территории Китая мгновенно оказалась в офлайне.

Чтобы обеспечить доступность своих ресурсов в приоритетном порядке, Google необходимо протянуть свою "выделенку" в азиатские страны.

На сегодня нет официального подтверждения позиции Google по статусу переговоров, однако наиболее вероятно, что компания намерена принять участие в строительстве так называемого "Транс-Пасифик-Экспресс", который будет курировать американский оператор связи Verizon Communications. Помимо самой компании Verizon, в строительстве принимают участие пять азиатских операторов из Кореи и Китая. Стоимость проекта составит 500 млн долларов, а протяженность более 10 000 км.

Тем временем, еще один западный гигант - AT&T ведет переговоры с компанией Telekom Malasya и сингапурским консорциумом Starhub о создании телекоммуникационной магистрали между США и юго-восточными азиатскими странами. По словам людей, близких к переговорам, стоимость данного проекта также составляет порядка 500 миллионов долларов.

В AT&T говорят, что главная цель данного проекта - провести мощные каналы связи между США, Малазией и Филиппинами. Напомним, что последние две страны стали одними из главных как для аутсорсинга программных продуктов, так и для аутсорсинга электронного производства почти всех хайтек-компаний США.

CyberSecurity.ru

Google официально зарегистрировал четырёх лоббистов

21.09.07 09:09

Текст: Юрий Ильин

Компания Google официально зарегистрировала своих лоббистов, которые теперь будут отстаивать интересы компании в Конгрессе США. Закон обязывает коммерческие организации официально оповещать, кто именно занимается лоббированием в их пользу.

В документе, выложенном в общий доступ Архивным управлением Сената США, приводятся четыре имени - это Алан Дэвидсон, основатель вашингтонского офиса компании, Рик Уитт, советник по вопросам СМИ и телекоммуникаций Google, Джоанна Шелтон, бывший советник комитета Палаты представителей по энергетики и коммерции, и Пабло Чавес, бывший главный советник сенатора Джона Маккейна.

Ранее для осуществления лоббистской деятельности, Google прибегал к помощи сторонних компаний, в частности, King & Spalding LLP и Podesta Group. В общей сложности на лоббистскую деятельность Google израсходовал более полумиллиона долларов только за первые шесть месяцев 2007 года.

В опубликованном Архивным управлением документе, в списке предполагаемых областей заинтересованности приводятся как вопросы, напрямую связанные с основной сферой деятельности Google, так и куда более широкие, - например, иммиграционное законодательство и привлечение иностранной трудовой силы и реформа патентного права.

Компьюлента

Как поисковые боты индексят сайты.

20.09.07 09:09

Итак. В ответ на запрос пользователя бот выдает результат поиска. Ищет он в собственном индексе. В индексе у него лежат сайты в том виде, в каком бот их понимает. У каждого бота это понимание свое, но общие черты прослеживаются.

Индекс образуется двумя путями.

Первый - web-маз сам просит бот проиндексить его сайтец. Так поступают чаще всего с популярными и уважаемыми ботами. Для Рунета это: Яндекс, Рамблер и Апорт. Причем именно в такой последовательности. Хотя Рамблер с Яндексом соперничают в этом плане. На остальные боты можно не тратить время. Это мое мнение.

Второй путь - боты сами в «свободное от работы время» ползают по Инету и вынюхивают изменения. С новыми сайтами они поступают по разному. Чаще всего они принюхиваются к ним какое-то время, а потом, если, по мнению бота, со страницей все в порядке (посетители иногда появляются, спама нет и др.) - они его индексят. То есть заносят информацию о нем в свой индекс (базу данных). Самый тормозной в плане принюхивания - это Рамблер. Он принюхивается по несколько месяцев. Самый непридирчивый - Яндекс. Можно создать левый сайт и посмотреть, как скоро он самопроизвольно появится в том или ином поисковике. В Яндексе… ну, через месяц-два.

Кроме этого, боты следят за состоянием своего индекса. То есть за его соответствием реальному положению дел в Инете. Сайт может измениться, исчезнуть и т.д. Поэтому боты его обычно реиндексируют. Правда, можно запретить это мета-тегами и цивилизованные боты не будут этого делать. Самый скоростной по реиндексированию - Яндекс. Скорость реиндекса - несколько дней, а то и чаще, если ресурс популярный. Самый тормозной - Апорт. Скорость реиндекса страниц с посещаемостью 50-100 хостов в сутки - до полугода! У меня был сайт, который переехал. Так Апорт по запросу старый адрес еще несколько месяцев выдавал, хотя по этому адресу уже несколько месяцев ничего не было! И соответственно, посещаемость - 0. А Апорту все равно!

Дальше. Результат поиска по запросу пользователя чаще всего выдается по релевантности. Чем выше релевантность, тем выше позиция страницы в результате работы поисковика. Страница с наиболее высокой (по мнению бота) релевантностью отображается первой. Релевантность - это степень соответствия содержимого индекса бота запросу пользователя. Например, пользователь вводит «анекдоты». Бот выдает страницы проиндексированных сайтов, где встречается это слово. Причем не просто встречается, а встречается в тех местах, которые бот индексит. Но об этом позже. Яндекс, например, чаще всего выдает только одну страницу с сайта и ссылки на то, что есть еще страницы с того же сервера. Замечали, наверное. Другие боты могут по несколько страниц с одного сервака на один запрос выдавать. Это не очень образованные боты, но их тоже юзают.

Продолжим с примером про «анекдоты». Бот выдает результат поиска по релевантности. То есть, если на странице имеется 100 слов и 4 из них - «анекдоты» (в именительном падеже, множественном числе), то релевантность страницы по запросу «анекдоты» 0.04. Четыре процента. Соответственно, если слов будет 10, и 4 из них - «анекдоты», то релевантность будет 40 %. То есть в 10 раз выше. Это грубоватый пример, так как слова в заголовке (то что между ) и в тексте страницы имеют для бота разный вес, равно как слова в падеже и числе, указанном в запросе и имеющемся на странице. Но для понимания понятия «релевантность» вполне сойдет.

Поясню про падежи и числа. Если запрос «анекдоТЫ», а на странице встречаются только слова «анектоТ, анекдоТОВ» и т.д. то релевантность страницы по этому запросу будет ниже, чем тех страниц, на которых прямо написано слово «анекдоТЫ». Но в любом случае страница все равно найдется по запросу «анекдоТЫ» (но в с конце списка ответа поисковика).

Из сказанного следует, что страница должна содержать поменьше слов, и слова должны быть, в основном, ключевые.

Куда же девать инфу, которая в 10-20 слов никак не поместится? Ответ - страницы с инфой и страницы для ботов - это «две большие разницы».

Страницы с инфой- это те страницы, на которые попадаешь по ссылке со стартовой страницы. А стартовая страница (другие названия - индексная, заходная, doorway и др.) - это страница которая как раз и содержит 10-20 слов (включая заголовок и мета-теги). То есть эта страница, созданная специально для бота. И больше ни для кого.

Обычно, на стартовой странице размещают лого, иногда еще несколько слов - чтобы пользователь понял, куда попал, и кнопочку «Вход». Иногда вместо кнопочки «вход» - ссылки на разные разделы сайта. То есть несколько входов. Если без текста на индексной странице, ну, никак не обойтись, можно запихнуть его в картинки. Так Мелкософт (www.microsoft.com) поступает, например. Правда, им-то чего о релевантности заботиться?

Важно, чтобы бот по запросу нашел хоть какую-то страницу на сайте. Важно также, чтобы навигация на ВСЕХ страницах позволяла попасть в КРАТЧАЙШИЙ срок в любое место сайта. По крайней мере, ссылка на главную страницу, по моему мнению, должна стоять на каждой странице. Если бот начнет индексить, он надет одну страницу и дальше пойдет по ссылкам на ней. Нужно облегчить ему эту задачу. Причем, чем больше ссылок на ту или иную страницу (с разных страниц, ясен тетя), тем выше ее «ценность» с точки зрения бота.

Итак. Стартовая страница делается для бота. На ней нет инфы, только ссылка (ссылки) и куча хитростей (см. ниже) для заманивая ботов. Страницы с инфой должны содержать ссылки друг на друга, нормальный информативный заголовок и приемлемые мета-теги. Все. Их цель - дать инфу и не препятствовать боту запихнуть их в свой индекс. Они не должны первыми появляться по запросу пользователя. Так как в данном случае это как раз те два зайца, за которыми никак не угнаться, да и не надо.

Дальше. Понятное дело, что есть не одно, а несколько ключевых слов, по которым web-маз хочет, чтобы искался сайт. Чтобы этого добиться, по хорошему, нужно делать столько стартовых страниц, сколько желаемых web-мазом ключевых слов. Внешне эти страницы ничем не должны отличаться. Ну, может, title`ом. Отличаться должна служебная инфа, о которой речь пойдет ниже.

Например, у меня есть сайт для фирмешки, продающей стартеры для иномарок. Я сделала с десяток-два индексных страниц для наиболее популярных моделей иномарок. Внешне страницы отличаются только тем, что на одной в заголовке написано «Стартеры для Мерседеса», а на другой - «Стартеры для Вольво». Все. Конечно, отличаются мета-теги, alt`ы (подписи к картинкам) и т.д. Об этом ниже. Каждую индексную страницу я индексила в ботах отдельно.

Итак. Что же индексит бот? У каждого бота свой характер, но в целом примерно так. Во-первых title. Это самая важная часть. Слова в titleе имеют самый большой вес. Большой вес имеют слова в altах (подписях к картинкам), слова между

и т.д. в порядке убывания значимости, слова между . Кроме того, слова, расположенные ближе (выше) к title`у, имеют больший вес, чем слова расположенные ниже. То есть, чем выше слово, тем выше его вес при определении релевантности. Полнотекстовые боты (то есть практически все современные) индексят еще и сам текст. В основном, на предмет наличия в тексте слов, указанных в заголовке и метах. Но если текста нет или очень мало - соответственно.

Итого, как заставить бот выдавать твою страницу первой по запросу, например, «варез»?

Пишем:

Лучший варез Софт Варез Нелегальный софт

То есть пишем второй title. После второго title`a нужно поставить знак неразрывного пробела - или . Так как Яндекс, например, выдаст оба заголовка как один и без пробела последнее слово первого заголовка сольется с первым словом второго заголовка. Разумеется, ключевые слова (2-6) можно выдумать и другие.

На той же странице пишем дальше:

В keywords`ах должно быть не более 10-ти слов, необходимо использовать варианты (не более трех) наиболее частых падежей и чисел: (например: программы, программ, программа), чередуя их с другими словами (например: программы, софт, программ, варез, программа).

В description - несколько слов (5-8 слов, не более 170 символов), емко характеризующих сайт. В Апорте и Рамблере это описание появится рядом с результатом поиска по запросу. В настоящее время при индексировании содержимое description на релевантность не влияет. По крайней мере, в рассмативаемых поисковиках.

Главное: МЕНЬШЕ СЛОВ! Преимущественно ключевые.

Name и http-equiv должны полностью совпадать. Одни боты понимают name, другие - http-equiv.

Дальше на той же странице:

Роботам - индексировать страницу и идти дальше по ссылкам на ней.

Аналогично сработает:

Дальше:

  <meta name="resourse-type" content="document">

Если бот видит, что ресурс - это документ,

он приступает (должен) к его индексации.

 <meta name="document-state" content="dynamic">

Если тип документа - динамический - бот запомнит что сюда

нужно периодически возвращаться.

 <meta name="revisit-after" content="10 days">

Это пожелание боту, как часто реиндексировать документ.

Пожелание - не более. Бот может послушаться, а может и нет.

Если, например, он разок вернется через 10 дней и увидит,

что страница и впрямь изменилась, может и еще разок вернется

через 10 дней. А если написать revisit-after 1 day и не менять

страницу вообще - бот может обидеться и посчитать это попыткой

его спама. Он занесет такую страницу в черный индекс

(точнее, сначала - в "серый"). Это плохо.

Дальше для Рамблера (только):

То есть в тегах комментария в заголовке первого уровня пишем ключевые слова. Яндекс то, что в тегах комментария не индексит, а Рамблер ест как миленький.

Потом, все картинки, что ни есть, должны содержать alt`ы с ключевыми словами.

Можно даже в неприметном месте страницы однопиксельных прозрачных гифов запихать (не очень много - 3-4) и altы к ним нужные прикрутить. Это считается спамом поисковика (как и два titleа, впрочем), но по опыту - они (боты) этого в упор не видят.

Вообщем, «легальные» способы кончились дальше идут «нелегальные».

Можно сделать для IE:

Программы, варез, софт, программа

Для NN:

Программы, варез, софт, программа

Это не очень удобно. Нужно ставить скриптину, определяющую тип браузера. Но боты глотают эту наживку и в «черный» список не запихивают.

Проще:

Варез программа

Но это боты грозятся определять. Ничего не знаю по этому поводу. Может, и определяют - они сейчас умные пошли.

Еще можно вот что сделать. Где-нибудь неприметненько запихиваем прозрачные gif-чики и делаем из них ссылки. Бот и alt`ы проиндексит и по ссылкам пойдет, особенно, если сами ссылки по дизайну на страницу никак не поместить.

Примерно так:

и т.д.

Ну, и нужен специально обученный человек, который будет следить за эволюцией ботов, изменениями позиции страницы в поисковиках и предпринимать сответствующие действия. Не каждый день, но раз в недельку-две тестирование в поисковиках своим страницам нужно устраивать.

И вот еще что! Если релевантность слишком высока, Яндекс обижается и не выдает страницу по запросу. За остальными не замечала. Другие страницы того же сайта с меньшей релевантностью может выдавать («серый» список). Так что, если на странице только слова «варез варез варез» - это не выход. Релевантность должна быть не более 30 %. И одинаковые слова подряд лучше не повторять.

А Батва меня навел на мысль, что можно делать по 2 страницы на одно ключевое слово. На одной странице релевантность по ключевому слову 10 % (для подозрительного Яндекса), на другой - порядка 30 % (для остальных).

И вот когда все это извращение готово - 10-15 стартовых качественно написанных страниц - идешь на http://www.design.ru/free/addurl/ и каждую страницу индексишь одной пимпой в нескольких наиболее популярных поисковиках. При этом видишь ответы серверов, и, если не прошло - идешь индексить вручную. Об остальных поисковиках спокойно забываешь, толку от них… Работы больше. Описание к каждой странице - разное, ясен тетя. Емкое, краткое состоящее из ключевых слов.

Можно, и вручную добавлять сайт в каждый поисковик, но это геморройно и не сильно выгодней. Впрочем, это мое мнение.

И последнее. В корень (только в корень) помещаешь файт robots.txt (именно так и никак иначе) со следующим содержимым:

User-agent: * # Первая строка. # Комментарии, понятное дело, убрать # Строка говорит, что любой бот может индексить ресурс # Между первой и последующими - # не должно быть переводов строк Disallow: /cgi-bin/ #Не индексировать то, что в каталоге cgi-bin Disallow: /images/ #Не индексировать то, что в каталоге images Disallow: /scripts/ #Не индексировать то, что в каталоге scripts

И далее по смыслу. В конце каждого имени каталога - слеш.

Нече там ботам ползать. Нагрузку на сервак повышать. :)

Постоянный адрес: http://karman.com.ua/_kak_poiskovye_boty_indeksjat_0_0_0_1243_1.html

Previous Next

Page 1 ... 23 24 25 26 27 28 29 ... 36