企业博客网bokee.net www.bokee.net http://zmdxyboyandy.blog.bokee.net/  浅析Google Page Rank 打印此页

浅析Google Page Rank

http://zmdxyboyandy.blog.bokee.net    2007-10-26

Google 的page rank通过模拟用户的访问流来计算每个网页的价值。即,认为初始的时候
每个网页都会被用户访问到,之后,用户有一定的可能性从网页上给的链接进入另一个网
页。这样就形成了一个马尔可夫链。假设每个网页的初始价值都是1,通过不断的迭代,即
将自己手里的价值,均匀的分给自己链接去的网页,不断的进行这种操作,最终会近似的
趋于稳定,即自己手中的价值不论怎样的向下传递,和从上游获取。这个值都近似不变。
当所有的节点都稳定下来。就认为迭代收敛。每个节点手里的值就是这个网页的价值。即
pagerank。
在google使用page rank的时候,整个互联网的规模,规范,都很好,所以pagerank能起到
很好的效果。但是今天的互联网,已经很难用pagerank去概括了。原因一方面有大量的商
业链接存在。另一方面,pagerank本身是和查询无关的“一般价值”。而互联网的发展,
决定了一个网页的价值,很大程度上取决于用户的查询内容。

Pagerank是一种与查询无关的一般价值,目前单纯的pr需要各种参数去修正。具体怎样修
正,各家se都是有自己的算法的。
Pr的作用:指引spider的爬行轨迹。当两个网页内容相同的时候,怎样确定哪个应该保留。