コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
正規化とは
正規化とは、そのコンテンツを代表する正規 URL を選択するプロセスです。最終的に、重複するページの中で Google が最も代表的と考えるページの URL が正規 URL になります。重複除去とも呼ばれるこのプロセスにより、重複コンテンツの中から 1 つのバージョンのみを検索結果に表示できるようになります。
1 つのサイトで重複コンテンツが発生する原因には、以下のようなさまざまなものがあります。
-
地域の違い: たとえば、米国と英国向けのコンテンツは異なる URL からアクセスできるが、実質的には同じ言語の同じコンテンツである場合
- デバイスの違い: たとえば、1 つのページにモバイル版と PC 版がある場合
- プロトコルの違い: たとえば、1 つのサイトに HTTP バージョンと HTTPS バージョンがある場合
- サイトの機能: たとえば、カテゴリページの並び替え機能やフィルタ機能で結果が生成される場合
- 意図的でないバリエーション: たとえば、クローラーがアクセスできる状態のままサイトのデモ版が残っている場合
サイト上で重複コンテンツが発生することは通常のことであり、Google のスパムに関するポリシーの違反にはなりません。ただし、同一のコンテンツが多数の異なる URL からアクセスできるようになっていると、ユーザー エクスペリエンスの悪化につながることがあります(たとえば、どれが正しいページなのか、2 つのページに違いがあるかどうかなどの疑問をユーザーが抱く可能性があります)。また、検索結果でのコンテンツのパフォーマンスを追跡することが難しくなる可能性もあります。
Google がインデックス登録で正規 URL を選択する方法
Google がページをインデックスに登録する際、各ページの主要コンテンツ(センターピース)が決定されます。同一のように見えるか、メイン コンテンツが非常に似通っている複数のページを Google が見つけた場合、インデックス登録プロセスで収集された要素(シグナル)に基づいて、検索ユーザーにとって最も完成度が高く有用であると客観的に判断されるページを選択し、そのページを正規としてマークします。正規ページは最も高い頻度で定期的にクロールされます。重複ページについては、Google がサイトをクロールする負荷を軽減するため、正規ページより低い頻度でクロールされます。
正規化で重要となる要素は多くありません。HTTP と HTTPS のどちらでページが提供されているか、リダイレクト、サイトマップ内での URL の有無、rel="canonical"
link
アノテーションです。これらの手法を使って Google に希望を伝えることはできますが、さまざまな理由から Google が別のページを正規として選択する場合もあります。つまり、正規化の希望を伝えることはできますが、確実ではありません。
あるページの異なる言語のバージョンは、メイン コンテンツが元の言語と同じである場合(つまり、ヘッダーやフッターなどの重要でないテキストのみが翻訳されていて、本文が翻訳されていない場合)にのみ、重複しているとみなされます。ローカライズされたサイトの設定について詳しくは、多地域、多言語のサイトの管理のドキュメントをご覧ください。
Google は正規ページをコンテンツと品質を評価するメインのソースとして使用します。Google 検索の検索結果では、通常は正規ページが表示されます。ただし、重複ページの中に明らかに検索ユーザーのニーズにより適しているものがある場合は別です。たとえば、ユーザーがモバイル デバイスで検索した場合は、パソコン用ページが正規とされていても、モバイルページが検索結果に表示される可能性が高くなります。
詳細については、正規 URL を指定する方法、指定すべき理由をご覧ください。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-08-04 UTC。
[null,null,["最終更新日 2025-08-04 UTC。"],[[["\u003cp\u003eCanonicalization is the process of choosing the best URL from a set of duplicate pages on a website.\u003c/p\u003e\n"],["\u003cp\u003eGoogle uses signals like HTTPS, sitemaps, and redirects to determine the canonical URL, aiming to show users the most relevant and complete version of a page.\u003c/p\u003e\n"],["\u003cp\u003eWhile website owners can suggest a preferred canonical URL, Google's algorithms may ultimately select a different URL based on various factors.\u003c/p\u003e\n"],["\u003cp\u003eDuplicate content arising from regional or device variations is common and not inherently problematic, but managing it can improve user experience and search performance.\u003c/p\u003e\n"],["\u003cp\u003eGoogle primarily uses the canonical version for content evaluation and search results, but may prioritize other versions (e.g., mobile) based on user context.\u003c/p\u003e\n"]]],["Canonicalization is the process of selecting a representative URL for duplicate content. Google chooses the most complete and useful page as the canonical URL, indexing it more regularly. Duplicate pages may arise from region, device, protocol variants, site functions, or accidents. Factors like HTTP/HTTPS, redirects, sitemaps, and `rel=\"canonical\"` annotations influence Google's choice, though it can differ from site preferences. The canonical page is the primary source for content evaluation unless a duplicate better serves a user's specific context.\n"],null,["# What is URL Canonicalization | Google Search Central\n\nWhat is canonicalization\n========================\n\n\nCanonicalization is the process of selecting the representative\n--**canonical**-- URL of a piece of content. Consequently, a canonical\nURL is the URL of a page that Google chose as the most representative from a set of duplicate\npages. Often called deduplication, this process helps Google show only one version of the\notherwise duplicate content in its search results.\n\nThere are many reasons why a site may have duplicate content:\n\n- **Region variants**: for example, a piece of content for the USA and the UK, accessible from different URLs, but essentially the same content in the same language\n- **Device variants**: for example, a page with both a mobile and a desktop version\n- **Protocol variants**: for example, the HTTP and HTTPS versions of a site\n- **Site functions**: for example, the results of sorting and filtering functions of a category page\n- **Accidental variants**: for example, the demo version of the site is accidentally left accessible to crawlers\n\n\nSome duplicate content on a site is normal and it's not a violation of\n[Google's spam policies](/search/docs/essentials/spam-policies). However, having the\nsame content accessible through many different URLs can be a bad user experience (for example,\npeople might wonder which is the right page, and whether there's a difference between the two) and\nit may make it harder for you to track how your *content* performs in search results.\n\n### How Google indexes and chooses the canonical URL\n\n\nWhen [Google indexes a page](/search/docs/fundamentals/how-search-works), it\ndetermines the primary content (or *centerpiece* ) of each page. If Google finds\nmultiple pages that seem to be the same or the primary content very similar, it chooses the\npage that, based on the factors (or *signals*) the indexing process collected, is\nobjectively the most complete and useful for search users, and marks it as canonical. The\ncanonical page will be crawled most regularly; duplicates are crawled less frequently in\norder to reduce the crawling load on sites.\n\n\nThere are a handful of factors that play a role in canonicalization: whether the page\nis served over HTTP or HTTPS, redirects, presence of the URL in a sitemap, and\n`rel=\"canonical\"` `link` annotations. You can\n[indicate your preference to Google](/search/docs/crawling-indexing/consolidate-duplicate-urls#define-canonical)\nusing these techniques, but Google may choose a different page as canonical than you do,\nfor various reasons. That is, indicating a canonical preference is a hint, not a rule.\n\n\nDifferent language versions of a single page are considered duplicates only if the primary\ncontent is in the same language (that is, if only the header, footer, and other non-critical\ntext is translated, but the body remains the same, then the pages are considered to be\nduplicates). To learn more about setting up localized sites, see our documentation about\n[managing multi-lingual and multi-regional sites](/search/docs/specialty/international/localized-versions).\n\n\nGoogle uses the canonical page as the main source to evaluate content and quality. A Google\nSearch result usually points to the canonical page, unless one of the duplicates is explicitly\nbetter suited for a search user. For example, the search result will probably point to the\nmobile page if the user is on a mobile device, even if the desktop page is the canonical.\n\n\nRead more about\n[how to indicate your preference for the canonical URL, and whether you need to](/search/docs/crawling-indexing/consolidate-duplicate-urls)."]]