Google誕生とページランク
1990年代、インターネット上の情報を検索するためには、ディレクトリ型検索エンジンが主流でした。これはWebサイトやWebページを特定のカテゴリに分類し、そのカテゴリごとに整理する方法でした(例:Yahoo!カテゴリ)。しかし、1990年代後半には、WebサイトやWebページが爆発的に増え、手動での情報収集と分類とでは限界に達しました。
一方、同じ時期に、ロボット型検索エンジンも登場し始めました。これは、特定のキーワードを入力すると、そのキーワードに関連するWebサイトやWebページを探し出す方法でした。しかし、当時のロボット型検索エンジンに対し、不当な検索エンジン対策を施したWebサイトやWebページが多く、正確な検索結果が得られない場合がありました。そのため、非常に使いにくい状態が続いていました。
こうした状況の中、1997年にGoogleが登場しました。「ページランク」という概念を取り入れたGoogleは、従来のロボット型検索エンジンとは異なり、複数の要素を組み合わせることで正確な検索結果を得ることができました。具体的には、Webサイトの内容、リンクされているWebページの数、そしてそのリンクされているWebページの信頼性などを考慮して検索結果を表示することができたのです。このようなアルゴリズムにより、Googleは非常に正確な検索結果を提供し、瞬く間に人気を集めることになりました。
Googleがページランク技術を利用するようになったことで、より人気のあるWebページが検索結果の上位に表示されるようになりました。それに対して、以前はキーワードを詰め込むだけ(スパム行為)で有益な情報を提供していない不正なWebページは、Googleの検索結果上位には表示されなくなりました。結果、Google検索は他のロボット検索エンジンよりも高品質となり、多くのネットユーザーから支持を集めるようになりました。そのため、Googleは世界No.1のロボット検索エンジンとしての地位を不動のものとし、現在でもその地位を維持しています。なお、ページランクは2013年12月以降、最新の数値は一般公開されなくなりましたが、Googleは依然としてページランクを重要な指標であると公表しています。
Googleのアルゴリズムの仕組み
Googleは、Webページの情報をクローラーロボットで収集します。クローラーはWebページとWebページの間に張られたリンクをたどって、自動的にWebサイトを検出してスキャンします。クローラーが収集したデータは、リポジトリと呼ばれる場所に一旦置かれ、その後インデックスデータベース内で情報を分類し検索しやすいようにします。この「インデックス」とは、検索ユーザーが検索しやすいように、Webページの情報をデータベースに分類することを指します。そして、インデックスされた情報は検索サーバーに渡され、Googleを使う検索ユーザーによって検索可能な状態になります。このように、検索ユーザーがGoogleにアクセスする前に、膨大なデータ処理が実行されているのです。
Googleは、インデックスデータベースに登録された情報を検索する際、200以上のアルゴリズムを使用しています。これらのアルゴリズムは、検索キーワードを解析し、関連するWebページをランク付けしています。また、アルゴリズムとは、ある目的を達成するためにプログラムが実行する処理手順のことで、SEOにおいては検索エンジンロジックと呼ばれ、検索順位の算定方法のことを指します。
つまりGoogleは検索結果を算出するために、多数のアルゴリズムを使用しており、それぞれのアルゴリズムは、検索キーワードを解析することでWebページをランク付けしています。これによって、Googleは正確な検索結果を提供することができるようになっています。代表的なアルゴリズムは次の7つです。
- コンテンツの独自性
- 外部ドメインサイトからのリンクスの数と質
- ドメインの評価
- Webページ内のキーワードの書かれ方
- Webサイト全体でのキーワードの書かれ方
- URLにどのような単語が含まれているか
- Webサイトのトラフィック(アクセス数)
Googleの4つのアップデート
Googleのアップデートには次の4つがあります。
- パンダアップデート
- ペンギンアップデート
- ハミングバードアップデート
- コアアップデート
パンダアップデートとは、Googleが検索エンジンのアルゴリズムをアップデートした際に導入された、ウェブサイトのコンテンツ品質を評価するためのアルゴリズムの名称です。
パンダアップデートは、2011年から導入されており、主にコンテンツの品質に重点を置いた評価を行っています。具体的には、重複コンテンツや低品質のコンテンツ、スクレイピング(他サイトからのコピー)されたコンテンツ、文章の意味が不明確なコンテンツ、そして広告が多すぎるページなどに対して、ランキングを下げる傾向があります。
ペンギンアップデートは、2012年に導入されたリンクの品質を評価するためのアルゴリズムの名称です。主に不自然なリンクを評価することで、ランキングを調整することを目的としています。不自然なリンクとは、リンクスパム行為やリンク購入など、検索エンジンに不正な手段で影響を与えようとする行為によって獲得されたリンクを指します。
ハミングバードアップデートは、2013年に導入された検索クエリに対してより精度の高い検索結果を提供するため、自然言語処理技術をより効果的に活用するようになったアップデートです。簡単に言うと、長文の会話帳フレーズに対応しています。これにより、キーワードだけでなく、検索ユーザーが求める情報の意図(インテント)を理解し、それに合わせた検索結果を提供することが可能になりました。
また、ハミングバードアップデートは、検索結果の分類方法にも変更を加えました。従来の検索エンジンでは、検索クエリ(検索キーワード)に対して単語を検索し、マッチするページをランク付けしていました。しかし、ハミングバードアップデートでは、検索ユーザーの意図に基づいてトピックやテーマを抽出し、関連するページを検索することが可能になりました。よって、ハミングバードアップデートのお陰でキーワードのみに頼らないより質の高い検索結果が得られるようになりました。
コアアップデートとは2018年に初めて実施されました。コアアップデート実施後には2つの変化が起きました。
- クエリと関連性の高いページの検索順位が上がり、関連性の低いページの検索順位が下げられるようになった。
- 信頼性の高いページの検索順位が上がり、信頼性の引くページの順位が下げられた。
Googleは社会的影響のある企業へと成長したため、社会から求められる「情報の正確性」の要求を無視できなくなりました。そこでGoogleが重視したのがE-A-Tです。
- Expertise(専門性):それを書いた人がその分野でどの程度の知識やスキルを持っているか
- Authoritativeness(権威性):そのサイトがどの程度の信頼性を持っているか、どの程度の知名度を持っているか
- Trustworthiness(信頼性):そのコンテンツがどの程度正確であるか、どの程度偏りがないか
つまり、Googleで検索結果の上位に表示するためには、信頼性の高い情報を提供し続けることがますます重要になっているということです。