ペイジとブリンは、PageRankのアイディアを、スタンフォード大学のサーバーで1996年からテストし始め、その成果を1998年に論文にした[3]。その段階では、すでにGoogleの原型が動作しており、AltaVistaなど既存の検索エンジンに比べて、ランキング上位に表示されるWebサイトの適切さ、という観点で非常に優れていることが主張されていた。
たとえば「大学」と検索すると既存の検索エンジンではなぜか「オレゴン大学光物性研究室」という下層のページが1位にくるが、Googleでは「スタンフォード大学ホームページ」と公式の入り口ページが1位にくる(図1[3])。
PageRankは、学術論文の信頼性を計測する「計量書誌学」ですでに研究されていた「インパクト・ファクター理論」を参照しつつ、被引用数、すなわち、バックリンクの数(そのページが他のページからリンクされている数)と、引用元の「権威」、すなわち、リンク元のサイトのスコアを再帰的に重みづけすることによって、重要性の高いサイトが上位にくるように定義された(図2[3])。
図2では、長方形がWebページを、矢印がリンクをあらわしており、長方形内の数値がそのページの重要性をあらわすPageRankのスコアを、そして矢印上の数値がリンクによって、リンク先のページへと配分されるPageRankのスコアをあらわしている。
たとえば左上のページは100のスコアをもっており、このページからのリンクは2本、右上と右下のページへと接続されている。このとき左上のページのもっていたスコアは、それぞれのリンクへと等分され、右上のページには50のスコアが、右下のページにも50のスコアがそれぞれ加算される。
この計算をくりかえすことで、各ページの重要性を評価していくのである。これによって、バックリンクの数(≒被引用数)が多ければ評価が高くなること、そしてそのリンク元の評価(≒権威)が高ければリンク先の評価も高くなることを同時に実現した。
[3] Page, L., Brin, S., Motwani, R., & Winograd, T. (1998) The PageRank Citation Ranking: Bringing Order to the Web. World Wide Web Internet And Web Information Systems, 54(1999–66), 1–17.