URL (регистрация сайта в google): http://www.google.com/addurl.html
Описание Google
Google появился сравнительно недавно, в 1998 г. Его создатели, сотрудники Стенфордского университета (США) Сергей Брин и Лоуренс Пейдж, постарались сделать его механизм более гибким и расширяемым, чем существовавшие на то время у грандов поиска - Аltavista и Inktomi. На данный момент Google и Fast (еще одна ИПС, www.alltheweb.com) имеют самый большой объем проиндексированных страниц - более двух миллиардов (данные на июль 2002 г.). Речь идет не только о собственно html- и xml-документах, но и pdf, doc и даже флэш-анимации. Причем только Google, в отличие от других иностранных ИПС (кроме конечно "Яндекс", "Рамблер> и <Апорт>), хорошо индексирует русскоязычные Web-ресурсы в зоне.ru.
В Google система оценки качества называется PageRank (PR). Суть ее заключается в том, что при решении о порядке выдачи пользователю списка страниц, попадающих под его запрос, во внимание принимается некий коэффициент, зависящий от количества ссылок с других сайтов на эту страницу и от их популярности. На самом деле в этом есть рациональное зерно. Ведь если рассматриваемая страница действительно такая важная, что ее стоит прочитать, скорее всего, на нее уже ссылаются другие источники. Верно и обратное: если на документ никто не ссылается - кому он тогда нужен?! Причем PageRank - это не просто общая сумма ссылок, это нормализованное отношение количества ссылок, приводящих на данную страницу, к количеству исходящих c нее.
Еще одна важная черта поисковой системы google заключается в том, что в google хранятся описания ссылок на проиндексированные страницы. Эта особенность позволяет более адекватно проводить поиск в накопленной базе данных. Скажем, автор странички забыл указать ее название между тегами <title></title>. Любая поисковая система при выдаче результатов поиска ставит высокий приоритет словам, указанным именно в названии. В этом случае Google будет ориентироваться по текстам ссылок на эту страничку, справедливо основываясь на предположении, что если кто-то ставит ссылку на что-то, то уж, по крайней мере, он эту страничку изучил и постарался наиболее емко отобразить ее содержание в тексте ссылки. Именно поэтому во всех наставлениях по правильному оформлению содержимого документов имеется следующий совет.
Никогда не ставьте ссылку под словами <здесь>, <тут>, <сюда> (например: полную версию постановления смотри >здесь). Попробуйте написать так: <на сайте есть также и >полная версия постановления>. Кстати, сказанное верно еще и потому, что почти во всех браузерах текст внутри тега <a> подсвечивается тем или иным образом (выделяется подчеркиванием, цветом). Глаз при беглом просмотре странички более вероятно зацепится за выделенные информативные слова, чем за неконкретное краткое наставление <вам сюда>.
Кроме расчетов PageRank и запоминания текста ссылок, Google хранит шрифтовой размер и смещение каждого слова относительно начала документа. Благодаря тому что система знает конкретное место каждого слова в документе, становится возможен так называемый поиск по наиболее близкому расположению слов друг относительно друга. Например, по запросу <слово1 слово2> ИПС найдет много документов у себя в базе данных, но в отчет в первых строках пойдут только те, в которых <слово1> находится максимально близко слева от <слова2>.
Всю основную работу по просеиванию сквозь себя содержимого Сети выполняют Интернет-роботы. Каждый из них берет один адрес из базы данных URL-сервера, скачивает и передает содержимое странички на сервер хранения документов поисковой системы google. Необходимо отметить, что все содержимое сервера хранится в заархивированном виде для увеличения его вместимости.
Другая программа - индексатор - занимается тем, что разлагает текст документа на составляющие его слова, запоминая при этом местонахождение, шрифтовой вес, а также написано ли слово заглавными или строчными буквами и принадлежит ли оно к категории «особенных» (названия документов, метатеги, URL'ы и тексты ссылок). Вся эта информация складывается в набор контейнеров, именуемых прямым индексом.
Идентификаторы слов берутся из словаря, который постоянно пополняется в поисковой системе google. Одновременно с этим индексатор просматривает содержимое тегов <a></a> и проверяет корректность всех ссылок в службе разрешения имен DNS (domain name service). Если ему встретился URL, которого нет в базе данных поисковой системы google по doc_id, он пополняет не только ее, но и коллекцию ссылок. В дальнейшем этот Интернет-адрес попадает в URL-сервер и круг замыкается. Система поиска google новых документов, при условии, что на них хоть кто-нибудь ссылается, становится самодостаточной - она сама себя подпитывает.
Для разрешения этой проблемы обновления разработчики предусмотрели ручную форму регистрации ресурсов в поисковой системы google. Введенные в нее адреса после проверки на корректность также попадают в URL-сервер.
Описанная выше структура прямого индекса не очень удобна при поиске документов на основании встречающихся в них слов. Чтобы решить эту проблему, был введен так называемый инверсный, или обратный, индекс. В нем любому слову из словаря соответствует набор doc_id-документов, в которых это слово встречается. Работой по постоянному формированию инверсного индекса занимаются сортировщики. Так как, во-первых, всегда появляются новые документы и, во-вторых, обновляются старые, индекс приходится постоянно перестраивать.
Качество поисковой системы google, как уже было отмечено, зависит не только от количества проиндексированных документов, правил их отбора в итоговый список, но и от того, как часто Интернет-роботы заново проверяют содержимое ранее обработанных сайтов. Google распараллеливает работу между несколькими роботами, причем каждый из них при скачивании может «отвлекаться» на другие дела.
Особенности Google
• Поисковая система google полностью поддерживает фреймы
• Поисковая система google индексирует следующие типы файлов - PDF, CGI, ASP, JSP, CFM, PHP.
• Поисковая система google поддерживает метатэги - самый важный тэг - title.
• Google обновлет базы - раз в 60 дней.
• Среднее время индексации в google - от 48 часов до 2 недель.
• В google нет быстрой индексации.
• Google предоставляет данные для - Topclick.com, Yahoo, Netscape, EarthLink.net
• Ключевые слова должны упоминаться в первой трети документа. Необходимо использование синонимов и слов по выбранной теме по всему сайту.
• Для поисковой системы google рекомендуемая частота ключевых слов - от 0 до 12%.
• При отсутствии внешних ссылок google не будет индексировать документ.
• Зарегистрируйте домен, содержащий ключевые слова.
• Каждая страница должна иметь ссылки, ведущие на другие страницы сайта.
• Нет необходимости регистрировать саму страницу - в базу она попадет только, если Google знает хотя бы одну страницу, ссылающуюся на вашу.
• Изучите запросы, на которые вы ориентируетесь - совпадение порядка слов на странице с порядком слов в запросе очень важно.
• Используйте точную фразу запроса в тексте и тэге title. Для большего эффекта удостоверьтесь, что alt-тэги и имена графических файлов на странице содержат ключевые слова или их синонимы.
• Используйте текстовые ссылки. Текст ссылок учитывается при определении релевантности.
• Старайтесь ставить ссылки на другие сайты, только если они совпадают с вашим по тематике.
• Для google оптимальное число внешних ссылок на ваш сайт - не менее 50.