Google PageRank – теоретические основы
Алгоритм первой системы учета внешних ссылок получил название PageRank. Этот алгоритм был разработан компанией Google.
PageRank рассчитывается для каждой веб-страницы отдельно, и определяется PageRank’ом (по-другому - цитируемостью)
ссылающихся на нее страниц.
Основной критерий, оценивающий важность страницы, у PageRank была выбрана теоретическая посещаемость страницы.
Предполагается, что пользователь начинает просмотр сайтов с некоторой случайно выбранной страницы. После этого
предполагается, что он переходит на другие ресурсы по ссылкам. При этом есть вероятность того, что посетитель,
покинув текущий сайт, вновь начнет просмотр документов со случайной страницы (в алгоритме PageRank вероятность
такого действия на каждом шаге переходов принята 0.15). Это значит, что с вероятностью 0.85 он продолжит
перемещаться по одной из ссылок, находящихся на странице (при этом все ссылки равноправны). Продолжая путешествие
до бесконечности, он побывает на популярных страницах чаще, чем на малоизвестных.
Это значит, что PageRank веб-страницы рассчитывается как вероятность нахождения пользователя на данной веб-странице;
при этом сумма вероятностей по всем веб-страницам сети равна единице, так как пользователь обязательно находится
на какой-либо странице.
Поскольку оперировать вероятностями не очень удобно, то после ряда преобразований PageRank, можно получить конкретное
число (как, например в Google ToolBar, где каждая страница имеет PageRank от 0 до 10).
Согласно описанной выше модели получаем, что:
- каждая страница в сети (даже если на нее нет внешних ссылок) изначально имеет ненулевой PageRank (хотя и
очень маленький, так как есть вероятность начала работы пользователя с этой страницы);
- каждая страница, на которой есть исходящие ссылки, передает часть своего PageRank страницам, на которые
ссылается. При этом передаваемый PageRank обратно пропорционален числу ссылок на странице – чем больше ссылок,
тем меньший PageRank передается на каждую;
- PageRank страницы передается не полностью, на каждом шаге переходов происходит затухание (та вероятность
15%, когда пользователь начинает просмотр с новой, случайно подобранной, страницы).
Рассмотрим теперь, каким образом PageRank может влиять на ранжирование результатов поиска (говорим «может»,
так как в чистом виде PageRank уже давно не участвует в алгоритме Google, как это было раньше, но об этом ниже).
Влияние PageRank на ранжирование страницы определяется следующим образом – после обнаружения поисковой системой
ряда релевантных документов (используются текстовые критерии), их можно отсортировать по PageRank – так как
логично что документ, имеющий большее число качественных внешних ссылок, содержит наиболее ценную информацию.
Далее>>>