ユーザーが検索する前から、ウェブクローラは膨大な数のウェブページから情報を収集し、検索インデックスに登録して整理しています。

検索の基本

クロールのプロセスは、過去のクロールから得られたウェブアドレスとウェブサイトの所有者から提供されたサイトマップで構成されるリストから始まります。クローラはこれらのウェブサイトにアクセスし、そのサイト上のリンクを使って他のページを探します。特に、新しいサイトの情報、既存のサイトの変更点、無効なリンクについて重点的に確認します。クロールするサイト、クロールの頻度、各サイトから取得するページ数はコンピュータ プログラムによって決定されます。

Google では、Google によるサイトのクロール方法をサイト所有者が細かく指定できるように、Search Console を提供しています。たとえば、サイト上のページを処理する方法について具体的に指定したり、再クロールをリクエストしたり、「robots.txt」というファイルを使用してクロールを無効にしたりすることができます。Google では、有料でサイトのクロール頻度を増やすことは行っていません。すべてのウェブサイトに同じツールを提供し、ユーザーにとって最適な検索結果を表示できるようにしています。

クロールによる情報の検出

ウェブは、一括で管理されないまま、絶えず書籍が増え続けている図書館のようなものです。Google では、ウェブクローラと呼ばれるソフトウェアを使用して、公開されているウェブページを探します。クローラは、ユーザーがウェブ上でコンテンツを閲覧するときと同じように、ウェブページを見て、ページ上のリンクをたどります。リンクからリンクへ移動し、ウェブページに関するデータを Google のサーバーに蓄積していきます。

インデックスによる情報の整理

クローラが特定のウェブページを見つけると、Google のシステムがブラウザと同様にページのコンテンツを表示します。Google ではキーワードやウェブサイトの新しさといった主要なシグナルに注目し、検索インデックスにそのすべての情報を記録しています。

Google 検索のインデックスには何千億ものウェブページが登録されており、その容量は優に 1 億 GB を超えます。Google のインデックスには、本の巻末にある索引と同じように、各ウェブページに含まれているすべての語が 1 つずつ追加されています。つまり、インデックスにウェブページが登録されると、そのページに含まれるすべての語がインデックスに追加されるということです。

 

 

Google ではナレッジグラフを利用して、単にキーワードを照合するだけでなく、ユーザーが気になる人、場所、物事などを具体的に把握するための取り組みを続けています。そのため、ウェブページに関する情報のみならずその他の種類の情報も体系的に整理しています。Google 検索では現在、主要な図書館に所蔵されている何百万冊という書籍からテキストを検索したり、地域の公共交通機関の移動時間を調べたり、世界銀行などの一般公開されている情報のデータを検索したりすることができます。