正規化とは

正規化とは、そのコンテンツを代表する正規 URL を選択するプロセスです。最終的に、重複するページの中で Google が最も代表的と考えるページの URL が正規 URL になります。重複除去とも呼ばれるこのプロセスにより、重複コンテンツの中から 1 つのバージョンのみを検索結果に表示できるようになります。

1 つのサイトで重複コンテンツが発生する原因には、以下のようなさまざまなものがあります。

地域の違い: たとえば、米国と英国向けのコンテンツは異なる URL からアクセスできるが、実質的には同じ言語の同じコンテンツである場合
デバイスの違い: たとえば、1 つのページにモバイル版と PC 版がある場合
プロトコルの違い: たとえば、1 つのサイトに HTTP バージョンと HTTPS バージョンがある場合
サイトの機能: たとえば、カテゴリページの並び替え機能やフィルタ機能で結果が生成される場合
意図的でないバリエーション: たとえば、クローラーがアクセスできる状態のままサイトのデモ版が残っている場合

サイト上で重複コンテンツが発生することは通常のことであり、Google のスパムに関するポリシーの違反にはなりません。ただし、同一のコンテンツが多数の異なる URL からアクセスできるようになっていると、ユーザーエクスペリエンスの悪化につながることがあります（たとえば、どれが正しいページなのか、2 つのページに違いがあるかどうかなどの疑問をユーザーが抱く可能性があります）。また、検索結果でのコンテンツのパフォーマンスを追跡することが難しくなる可能性もあります。

Google がインデックス登録で正規 URL を選択する方法

Google がページをインデックスに登録する際、各ページの主要コンテンツ（センターピース）が決定されます。同一のように見えるか、メインコンテンツが非常に似通っている複数のページを Google が見つけた場合、インデックス登録プロセスで収集された要素（シグナル）に基づいて、検索ユーザーにとって最も完成度が高く有用であると客観的に判断されるページを選択し、そのページを正規としてマークします。正規ページは最も高い頻度で定期的にクロールされます。重複ページについては、Google がサイトをクロールする負荷を軽減するため、正規ページより低い頻度でクロールされます。

正規化で重要となる要素は多くありません。HTTP と HTTPS のどちらでページが提供されているか、リダイレクト、サイトマップ内での URL の有無、rel="canonical" link アノテーションです。これらの手法を使って Google に希望を伝えることはできますが、さまざまな理由から Google が別のページを正規として選択する場合もあります。つまり、正規化の希望を伝えることはできますが、確実ではありません。

あるページの異なる言語のバージョンは、メインコンテンツが元の言語と同じである場合（つまり、ヘッダーやフッターなどの重要でないテキストのみが翻訳されていて、本文が翻訳されていない場合）にのみ、重複しているとみなされます。ローカライズされたサイトの設定について詳しくは、多地域、多言語のサイトの管理のドキュメントをご覧ください。

Google は正規ページをコンテンツと品質を評価するメインのソースとして使用します。Google 検索の検索結果では、通常は正規ページが表示されます。ただし、重複ページの中に明らかに検索ユーザーのニーズにより適しているものがある場合は別です。たとえば、ユーザーがモバイルデバイスで検索した場合は、パソコン用ページが正規とされていても、モバイルページが検索結果に表示される可能性が高くなります。

詳細については、正規 URL を指定する方法、指定すべき理由をご覧ください。