検索アルゴリズムの仕組み

ウェブ上に存在する情報の量を考えると、何か情報の整理を助けてくれるものがなければ、必要な情報を見つけるのは不可能に近いでしょう。Google のランキング システムはそのために設計されています。検索インデックスに登録されている膨大な数のウェブページを分類し、最も関連性の高い有用な結果を瞬時に検索して、探している情報を見つけやすい形でユーザーに表示します。

このランキング システムは 1 つのアルゴリズムではなく、一連のアルゴリズムで構成されています。最も有用な情報を表示するため、検索アルゴリズムはさまざまな要因(検索クエリの単語、ページの関連性や有用性、ソースの専門性、ユーザーの位置情報や設定など)を検討します。各要因に適用される重み付けはクエリの性質によって異なります。たとえば、最新のニュース トピックに関するクエリに回答する場合は、言葉の定義に関するクエリに回答する場合よりも、コンテンツの鮮度がより大きな役割を果たします。

Google では、検索アルゴリズムが関連性や品質の高い基準を満たせるように、ライブテストや、世界各国にいる熟練した外部の検索品質評価者による評価など、厳正なプロセスを整備しています。品質評価者は、検索アルゴリズムに関する Google の目標が定義された厳しいガイドラインに準拠しています。このガイドラインは一般公開されており、誰でも見ることができます。

検索結果を決める主な要因について詳しくは、以下の項目をご覧ください。

  • 検索意図の把握

    検索意図を把握する

    最適な回答を返すためには、検索の意図を把握することが大切です。関連性の高い情報が含まれているページを見つけるために最初に行うのは、検索クエリに含まれる単語の意味の分析です。Google では、どの単語をインデックスで検索する必要があるのか解釈するための言語モデルを構築しています。

    ここでは、スペルミスを解釈するのと同じくらい単純に見える手順を行います。さらに、自然言語理解に関する最新の調査結果の一部を適用することで、入力されたクエリのタイプを理解しようと試みるのです。たとえば、1 つの単語に複数の定義がある場合でも検索がユーザーの意図を理解できるのは Google の類義語システムのおかげです。このシステムは開発に 5 年以上かかりましたが、さまざまな言語の検索の 30% 以上で大きな成果を上げています。

    Google では、ユーザーがどのような種類の情報を探しているのかについても理解しようとします。特定のことに関する検索か、幅広い検索か。「口コミ」、「画像」、「開店時間」など、具体的な情報が必要なことを示す検索キーワードはあるか。その日に公開されたコンテンツを探していることを示す、急上昇ワードの検索をしているか。付近のお店や現在地の情報を検索しているか。こうしたことも、アルゴリズムで分析します。

    この情報カテゴリに関して特に重要なのが、ユーザーが鮮度の高い情報を求めているかどうかの分析です。急上昇中のキーワードを検索すると、フレッシュネス アルゴリズムによって最新の情報が求められていると解釈され、より鮮度の高いページが古いページより上位に表示されます。たとえば「J リーグの試合結果」、「M-1 グランプリの優勝者」、「トヨタの決算発表」などが検索されたときは、できるだけ新しい情報を表示するようにしています。

  • ウェブページの関連性

    ウェブページの関連性

    次に、クエリに一致する情報が含まれるウェブページを探します。ごく基本的な検索を行った場合、アルゴリズムはインデックス内で検索キーワードを探して適切なページを見つけます。そして、そのキーワードが登場する頻度やページ上の場所(タイトル、見出し、本文中など)について分析します。

    情報の関連性を評価するための最も基本的な要因は、検索クエリと同じキーワードがウェブページに含まれているかどうかです。キーワードがページに出現する(特に見出しや本文に含まれている)場合、そのページの情報は関連性が高い可能性があります。このようなキーワードの単純な一致に加え、匿名化して集計したインタラクション データに基づいて検索クエリと検索結果の関連性を評価することもしています。インタラクション データを関連性要因に変換して機械学習することで、関連性をより正しく推定できるようになります。

    キーワードの照合に加えて、アルゴリズムでは、ユーザーが探している情報に十分合致する検索結果となるかどうかを評価するための手掛かりを見つけます。「犬」を検索する場合、必要なのは「犬」という単語が何百回も出現するページではありません。つまり、ただクエリの言葉を繰り返すだけでなく、クエリに対する答えが含まれているページかどうかを見極める必要があります。そこで検索アルゴリズムでは、犬の画像や動画、犬種のリストなど、関連するコンテンツがページに含まれているかどうか分析します。最後に、クエリと同じ言語で作成されたページかどうかを確認して、ユーザーが使用する言語のページを優先します。

    なお、Google 検索アルゴリズムではこうした定量化可能な要因に基づいて関連性を評価していますが、ページのコンテンツの主観的概念(視点や政治的な偏向)を分析するようには設計されていません。

  • コンテンツの品質

    コンテンツの品質

    一般的な検索クエリの場合、関連がありそうな情報を掲載しているウェブページは、数千件どころか、場合によっては数百万件も存在します。検索クエリに対して最適なページを検索結果の上位に表示できるように、これらのウェブページの有用性を評価するためのアルゴリズムも作成しています。

    これらのアルゴリズムでは、ウェブが提供できる最適な情報を特定するために、コンテンツの新しさ、検索キーワードが出現する回数、ページのユーザー エクスペリエンスの質など、さまざまな異なる要因を分析します。また、内容の信頼性や権威があるかどうかを評価するために、同様のクエリについて多数のユーザーに評価されているサイトを見つけます。検索内容に関連する他の著名なウェブサイトがそのページにリンクしている場合は、情報の質が高いことの確かな証拠となります。

    ウェブ上には、キーワードを何度も繰り返す、PageRank を転送するリンクを購入するなどの手法を使って、何とか検索結果の上位に入ろうとするスパムサイトが多数存在します。こうしたサイトは、利用価値がほとんどないばかりか、Google のユーザーに害を及ぼしたり誤解を与えたりする恐れもあります。そこで Google では、スパムサイトを特定したり、Google のウェブマスター向けガイドライン(品質に関するガイドライン)に違反するサイトを検索結果から削除したりするためのアルゴリズムを開発しています。

    ウェブをはじめ、あらゆる情報源のコンテンツは常に更新されています。Google では、システムの品質を継続的に測定、評価することで、情報の関連性と権威性のバランスを適正に保ち、検索結果の信頼性を高めていきたいと考えています。

  • ユーザビリティ

    ユーザビリティ

    検索結果を表示する前に、Google ではすべての関連情報に整合性があるかどうかを評価します。たとえば、検索結果に共通する話題は 1 つだけか、それとも複数あるのか、多数のページが限定的な 1 つの解釈に集中していないか、といったことです。Google は、検索のタイプに応じて最も利便性の高い形式でさまざまな情報を表示することに努めています。また、ウェブの発展に合わせて Google のランキング システムも進化させ、より多くのクエリに対して質の高い検索結果を提供できるようにしています。

    ユーザビリティを評価する際の要因としては、サイトを異なるブラウザで正しく表示できるか、パソコン、タブレット、スマートフォンなどタイプやサイズが異なるすべてのデバイスに最適化されているか、インターネットの接続速度が遅いユーザーでもページをスムーズに読み込めるかなど、すべての Google ユーザーが検索結果をストレスなく表示できるかどうかが重要となります。

    サイトのユーザビリティはサイト所有者が改善できるものであるため、対応が可能な重要な変更を検索アルゴリズムに加える場合は前もって周知するよう努めています。たとえば 2018 年 1 月には、検索アルゴリズムでサイトの Page Speed を考慮することを決定し、変更を実施する 6 か月前に発表しました。また、サイト所有者が適切に対応できるように、PageSpeed InsightsWebpagetest.org のような詳しいガイドやツールを提供し、サイトをよりモバイル フレンドリーにするには何を変更すべきかがわかるようにしました。

    サイト所有者向けのツールや参考情報について詳しくはこちらをご覧ください。

  • 文脈の考慮

    文脈の考慮

    現在地、過去の検索履歴、検索設定などの情報はすべて、検索の時点で最も有用で関連性が高い情報を検索結果として提供するのに役立っています。

    Google では、ユーザーの国などの位置情報を使用して、お住まいの地域に関連するコンテンツを提供します。たとえば、シカゴに住んでいるユーザーが「football」で検索すると、ほとんどの場合、アメリカン フットボールやシカゴベアーズに関する検索結果が上位に表示されます。一方、ロンドンにいるユーザーが「football」で検索した場合は、サッカーやプレミアリーグに関係のある検索結果が上位に表示されます。自分にとって役立ちそうな検索結果が表示されるようにするには、検索の設定も重要です。検索の設定では、使用する言語を指定したり、セーフサーチ(露骨な表現を含む検索結果を除外できるツール)を有効にしたりすることができます。

    場合によっては、ユーザーの最近の検索行動に関する情報に基づいて検索結果をカスタマイズすることもあります。たとえば、「バルセロナ」を検索しているユーザーが、その少し前に「バルセロナ対アーセナル」を検索していた場合、今検索しているのは都市ではなくサッカーチームについての情報だという重要な手掛かりになります。検索機能を向上させるために検索履歴を使用するかどうか(Google アカウントにどのデータを保存するかなど)は、ユーザー自身が myaccount.google.com で変更できます。

    Google 検索は、Google アカウント内でのアクティビティに基づいて検索結果をカスタマイズする機能も備えています。たとえば「近くのイベント」を検索すると、ユーザーの興味や関心に合わせてカスタマイズされたおすすめのイベントが表示されることがあります。こうした機能は、ユーザーの興味や関心に合った情報を提供するために開発されたもので、ユーザーに関するセンシティブな情報(人種、宗教、支持政党など)を推測することを目的とはしていません。

    検索結果を改善するために検索履歴を使用するかどうか(Google アカウントにどのデータを保存するかなど)は、ユーザー自身が myaccount.google.com で変更できます。アカウントでのアクティビティに基づく検索のカスタマイズを無効にするには、[ウェブとアプリのアクティビティ] をオフにします。