Googleがアメリカでサービスを開始した1997年以前、Webサイトの検索サービスには大きくわけて2種類のタイプがあった。第一は、「Webディレクトリ」と呼ばれる様態であり、第二は、「ロボット型」と呼ばれる様態である。
第一の様態、Webディレクトリの代表格は1994年に登場したYahoo!である。「Webディレクトリ」とは、Webサイトのカテゴリーを人の目で分類し階層化されたカタログとして一覧化するサイトであり、今日の「検索エンジン」よりも「ポータルサイト」と呼ばれるサービスの源流である。
ユーザーはキーワードで検索するのではなく、「アート」「ビジネスと経済」「ニュース」などのあらかじめ用意されたカテゴリー別の階層をたどって目的のWebサイトを探すものであった。Yahoo!の登録は、人手による審査を介していたため一定の信頼性があったが、Webサイトの数が急激に増大した1990年代後半には、審査が追いつかずに新しいWebサイトがなかなか掲載されなかったという。
第二の様態、ロボット型とは、まさに「ロボット」の名の通り自動化されたプログラムによって、Webページを機械的に収集し、インデックス(=索引)を自動生成してデータベース化するものだ。ユーザーが「クエリー」と呼ばれるキーワード群を入力すると、それに合致するページを自動的にリストアップするようなサービスである。こちらが今のGoogleの源流にあたる。
しかしGoogle自体の登場は先述の通り1997年と、かなり後発の検索エンジンであった。すでにそれ以前の1994年頃から、WebCrawler、Lycos、Excite、Infoseek、AltaVistaなど多数のロボット型検索エンジンが出現し、激しい競争が繰り広げられていた。
当時アメリカの検索エンジンは日本語の自然言語処理がうまくなかったこともあり、日本でも千里眼、ODIN、TITAN、gooなど、国産の検索エンジンが多数活躍していた。
当初のロボット型検索エンジンの基本的なアルゴリズムは、収集したWebページに含まれる単語の組み合わせと、クエリーに含まれるキーワードの組み合わせが、どの程度類似しているかによって適合度を計算し、その適合度が高い順に検索結果をランキングするものである。
つまり、検索されているキーワードに合致する単語が多く含まれているWebページほど、上位に表示されるような仕組みになっていた。たとえば、「車」というクエリーで検索すると、Webページ内に「車」という単語がより多く含まれる自動車会社のカタログページなどが上位に出てくる(はず)、という論理であった(もちろん単語の含有率だけを評価していたわけではなく、単語の特異度やHTMLタグによる重みづけ、表示位置などが加味された)。