URL の削除について、パート II: ページから機密性の高いテキストを削除する
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
2010 年 8 月 6 日(金曜日)
状況の変化に伴い、URL の削除に関する以前の投稿で説明したように、サイトからページを完全にブロックまたは削除することが必要になる場合があります。ページの一部のみを変更することや、特定のテキストを削除することが必要になる場合もあります。ページがクロールされる頻度によっては、こうした変更が Google の検索結果に反映されるまで時間がかかることがあります。このブログ投稿では、削除済みの古いコンテンツが、「スニペット」または検索結果からリンクされるキャッシュ ページという形で、検索結果に引き続き表示される場合に実施できる手順について説明します。これは、速やかに削除する必要がある機密情報が古いコンテンツに含まれている場合に役立ちます。ウェブサイトを通常どおりに更新するだけの場合、この手順を実施する必要はありません。
例として、次の架空の検索結果をご覧ください。
Walter E. Coyote |
< タイトル |
Chief Development Officer at Acme Corp 1948-2003: worked on the top
secret velocitus incalculii capturing device which has shown potential... |
< スニペット |
www.example.com/about/waltercoyote - Cached |
< URL + キャッシュ ページへのリンク |
スニペット(またはリンクされているキャッシュ ページ)に表示されるコンテンツを変更するには、まず実際のページ(ライブページ)のコンテンツを変更する必要があります。ページで一般に公開されているコンテンツが変更されない限り、Google の自動プロセスによって元のコンテンツの一部が引き続き検索結果に表示されます。
ページのコンテンツを変更したら、いくつかの方法で Google の検索結果に変更を反映させることができます。
-
Googlebot がページを再クロールしてインデックスに再登録するのを待ちます。これは、Google でほとんどのコンテンツが更新される自然な方法です。Googlebot が該当のページをクロールする頻度によっては、かなり長い時間がかかる場合があります。Google がページを再クロールしてインデックスに再登録すると、古いコンテンツは現在のコンテンツに置き換えられるため、通常は検索結果に表示されなくなります。Googlebot による該当ページのクロールが(robots.txt によって、またはサーバーに適切にアクセスできないことによって)ブロックされていなければ、何か特別なことをしなくてもそのような結果になります。これらのプロセスは完全に自動化されており、また多くの外的要因に依存しているため、通常、クロールとインデックス登録を早めることはできません。
-
Google の公開 URL 削除ツールを使用して、他の人のウェブページから削除されたコンテンツの削除をリクエストします。このツールを使用する場合は、変更されたページの正確な URL を入力し、[コンテンツはすでにページから削除されました] オプションを選択して、そのページから完全に削除された単語を 1 つ以上指定する必要があります。
なお、入力する単語はいずれもページに表示されていてはなりません。ある単語がページの特定の部分から削除されていても、ページの別の部分に表示されていれば、リクエストは拒否されます。ページのどこにも表示されなくなった単語を 1 つ以上選択してください。上記の例で「top secret velocitus incalculii capturing device」を削除した場合は、「my project」のような語句ではなく、それらの単語を送信する必要があります。しかし、「top」または「device」という単語がページのどこかに存在していると、リクエストは拒否されます。ほとんどの場合、リクエストの成功率を最大限に高める簡単な方法は、ページのどこにも表示されなくなったことが確実な単語を 1 つだけ指定することです。
リクエストが処理され、送信した単語がページに表示されなくなっていることが確認されると、スニペットが検索結果に表示されなくなり、キャッシュ ページもアクセスできなくなります。ページのタイトルと URL は引き続き表示されます。また、指定した単語がスニペットに表示されなくなっても、削除されたコンテンツに関連する検索(例: velocitus incalculii の検索)の検索結果にエントリが引き続き表示される可能性があります。しかし、ページが再クロールされてインデックスに再登録されると、新しいスニペットとキャッシュ ページが検索結果に表示されます。
Google が単語の削除を確認するには、ページを参照する必要があることにご注意ください。ページがすでに存在せず、サーバーが適切な HTTP 結果コード 404
または 410
を返す場合は、Google がページを参照できないため、完全にページを削除するようリクエストする方が適切です。
-
Google ウェブマスター ツールの URL 削除ツールを使用して、ウェブサイトからページの情報を削除するようリクエストします。該当のウェブサイトにアクセスすることができ、かつ Google ウェブマスター ツールでウェブサイトの所有権を確認済みである場合は、そのサイトで URL 削除ツールを使用して([サイト設定] > [クローラ アクセス])、ページが再クロールされるまでスニペットとキャッシュ ページが削除されるようリクエストできます。このツールを使用するために必要なのは、ページの正確な URL を送信することだけです(削除された単語を指定する必要はありません)。リクエストが処理されると、スニペットとキャッシュ ページが検索結果から削除されます。ページのタイトルと URL は引き続き表示されます。また、削除されたコンテンツに関連するクエリの検索結果にページが引き続き表示される可能性があります。ページが再クロールされてインデックスに再登録されると、新しいコンテンツに基づいて更新されたスニペットとキャッシュ ページが検索結果に表示されます。
Google は、ページのコンテンツだけでなく、その他の外的要因(URL への外部からのリンクなど)にも基づいて、アイテムをインデックスに登録し、ランク付けしています。このため、ページが再クロールされてインデックスに再登録された後でも、ページからなくなったコンテンツの検索結果に URL が引き続き表示される可能性があります。URL 削除ツールを使用した場合、スニペットとキャッシュ ページを検索結果から削除することはできますが、検索結果のタイトルは変更または削除されず、表示される URL は変更されません。また、現在あるいは過去のコンテンツに基づいてページが検索結果に表示されることは防止できません。それが重要な場合は、URL が Google の検索結果からの完全な削除の要件を満たすことを確認してください。
非 HTML コンテンツの削除
変更されたコンテンツが HTML または XHTML 形式でない場合(たとえば画像、Flash ファイル、PDF ファイルが変更された場合)、キャッシュ削除ツールは使用できません。したがって、古いコンテンツを検索結果から削除することが重要な場合、最も迅速な解決策は、ファイルの URL を変更して元の URL が HTTP 結果コード 404
を返すようにし、URL 削除ツールを使用して元の URL を削除することです。そうしないで、Google がページの情報を自然に更新するのを待つことにした場合、再クロールの後、非 HTML コンテンツ(PDF ファイルのクイックビュー リンクなど)のプレビューの更新にかかる時間が通常の HTML ページより長くなる可能性があります。
スニペットまたはキャッシュ バージョンの表示を積極的に防止する
自身がウェブマスターである場合は、Google の削除ツールを使用せずに、robots meta
タグを使用して、スニペットまたはキャッシュ バージョンの表示を積極的に防止できます。「nosnippet」robots meta
タグを使用すると、スニペットの表示を防止できます。また、「noarchive」robots meta
タグを使用すると、ページのキャッシュ保存を無効にできます。ただし、これらはデフォルトのアプローチとしてはおすすめしません(スニペットがあると、ユーザーは関連性の高い検索結果をすばやく認識できます。また、キャッシュに保存されたページがあると、予期しないイベントでサーバーが利用できなくなったときでも、ユーザーはコンテンツを参照できます)。なお、すでに Google に認識されている既存のページでこのような変更を行った場合、Googlebot がページを再クロールしてインデックスに再登録するまで、変更は検索結果に反映されません。
このブログ投稿が、更新したページに関する URL 削除ツールのプロセスの仕組みを理解するために少しでもお役に立てば幸いです。次回のブログ投稿では、自身が所有していないコンテンツの削除をリクエストする方法について説明します。更新をお待ちください。
ウェブマスター ヘルプ フォーラムでは、皆様からのご意見やご質問をお待ちしております。
このシリーズの他の投稿
オンラインで利用可能な情報の管理もお読みになることをおすすめします。
Posted by
John Mueller,
Webmaster Trends Analyst, Google Switzerland
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
[null,null,[],[[["\u003cp\u003eGoogle's search results may display outdated content even after a webpage has been updated.\u003c/p\u003e\n"],["\u003cp\u003eTo update Google's search results, you can wait for Google to recrawl the page, or request removal of the outdated content through Google's URL removal tool.\u003c/p\u003e\n"],["\u003cp\u003eIf you own the website, use Google Webmaster Tools to remove the snippet and cached page until Google recrawls the updated page.\u003c/p\u003e\n"],["\u003cp\u003eGoogle's URL removal tool does not prevent a page from ranking based on previous content, so for complete removal, consider the requirements for removal from search results altogether.\u003c/p\u003e\n"],["\u003cp\u003eTo prevent snippets or cached versions from appearing, use robots meta tags, but it's generally recommended to keep them for user experience.\u003c/p\u003e\n"]]],["To update outdated content in Google search results, first modify the live page. Then, either wait for Googlebot to re-crawl and re-index or use Google's URL removal tools. There are two options for URL removals: removing content from others' pages by specifying removed words or removing information from your own page via Google Webmaster Tools, without specifying removed words. For non-HTML content, change the file's URL. Lastly, webmasters can proactively prevent snippets and cached versions using robots meta tags.\n"],null,["# URL removals explained, part II: Removing sensitive text from a page\n\nFriday, August 06, 2010\n\n\nChange can happen---sometimes, as we saw in our\n[previous post on URL removals](/search/blog/2010/03/url-removal-explained-part-i-urls),\nyou may completely block or remove a page from your site. Other times you might only change parts\nof a page, or remove certain pieces of text. Depending on how frequently a page is being crawled,\nit can take some time before these changes get reflected in our search results. In this blog post\nwe'll look at the steps you can take if we're still showing old, removed content in our search\nresults, either in the form of a \"snippet\" or on the cached page that's linked to from the search\nresult. Doing this makes sense when the old content contains sensitive information that needs to\nbe removed quickly---it's not necessary to do this when you just update a website normally.\n\nAs an example, let's look at the following fictitious search result:\n\n|---------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------|\n| **Walter** E. **Coyote** | \\\u003c Title |\n| Chief Development Officer at Acme Corp 1948-2003: worked on the top secret velocitus incalculii capturing device which has shown potential**...** | \\\u003c Snippet |\n| www.example.com/about/**waltercoyote** - Cached | \\\u003c URL + link to cached page |\n\n\nTo change the content shown in the snippet (or on the linked cached page),\n**you'll first need to change the content on the actual (live) page**. Unless a page's publicly\nvisible content is changed, Google's automatic processes will continue to show parts of the\noriginal content in our search results.\n\n\nOnce the page's content has been changed, there are several options available to make those\nchanges visible in our search results:\n\n1.\n **Wait for Googlebot to re-crawl and re-index the page**: This is the natural method for\n how most content is updated at Google. Sometimes it can take a fairly long time, depending on\n how frequently Googlebot currently crawls the page in question. Once we've re-crawled and\n re-indexed the page, the old content will usually not be visible as it'll be replaced by the\n current content. Provided Googlebot is not blocked from crawling the page in question (either\n by robots.txt or by not being able to access the server properly), you don't have to do\n anything special for this to take place. It's generally not possible to speed up crawling and\n indexing, as these processes are fully automated and depend on many external factors.\n\n2.\n Use\n [Google's public URL removal tool](https://www.google.com/webmasters/tools/removals)\n to **request removal of content that has been removed from someone else's webpage** . Using\n this tool, it's necessary to enter the\n [exact URL of the page](https://www.google.com/support/webmasters/bin/answer.py?answer=63758)\n that has been modified, select the \"Content has been removed from the page\" option, and then\n specify one or more words that have been completely removed from that page.\n\n\n Note that *none* of the words you enter can appear on the page; even if a word has been\n removed from one part of the page, your request will be denied if that word still appears on\n another part of the page. Be sure to choose a word (or words) that no longer appear\n *anywhere* on the page. If, in the above example, you removed\n \"top secret velocitus incalculii capturing device\", you should\n submit those words and not something like \"my project.\" However, if the word\n \"top\" or \"device\" still exists\n anywhere on the page, the request would be denied. To maximize your chances of success, it's\n often easiest to just enter one word that you're sure no longer appears anywhere on the page.\n\n\n Once your request has been processed and it's found that the submitted word(s) no longer\n appear on the page, the search result will no longer show a snippet, nor will the cached page\n be available. The title and the URL of the page will still be visible, and the entry may still\n appear in search results for searches related to the content that has been removed (such as\n searches for\n [velocitus incalculii](https://www.google.com/search?q=velocitus+incalculii)),\n even if those words no longer appear in the snippet. However, once the page has been\n re-crawled and re-indexed, the new snippet and cached page can be visible in our search\n results.\n\n\n Keep in mind that we will need to verify removal of the word(s) by viewing the page. If the\n page no longer exists and the server is returning a proper\n [`404` or `410` HTTP result code](https://en.wikipedia.org/wiki/List_of_HTTP_status_codes),\n making us unable to view the page, you may be better off\n [requesting removal of the page](/search/blog/2010/03/url-removal-explained-part-i-urls)\n altogether.\n3. Use Google Webmaster Tools URL removal tool to **request removal of information on a page from your website** . If you have access to the website in question and have verified ownership of it in [Google Webmaster Tools](https://search.google.com/search-console), you can use the URL removal tool there (under *Site Configuration \\\u003e Crawler access* ) to request that the snippet and the cached page be removed until the page has been re-crawled. To use this tool, you only need to submit the [exact URL of the page](https://www.google.com/support/webmasters/bin/answer.py?answer=63758) (you won't need to specify any removed words). Once your request has been processed, we'll remove the snippet and the cached page from search results. The title and the URL of the page will still be visible, and the page may also continue to rank in search results for queries related to content that has been removed. After the page has been re-crawled and re-indexed, the search result with an updated snippet and cached page (based on the new content) can be visible.\n\n\nGoogle indexes and ranks items based not only on the content of a page, but also on other external\nfactors, such as the inbound links to the URL. Because of this, it's possible for a URL to\ncontinue to appear in search results for content that no longer exists on the page, even after\nthe page has been re-crawled and re-indexed. While the URL removal tool can remove the snippet\nand the cached page from a search result, it will not change or remove the title of the search\nresult, change the URL that is shown, or prevent the page from being shown for searches based on\nany current or previous content. If this is important to you, you should make sure that the URL\nfulfills the requirements for a\n[complete removal from our search results](/search/blog/2010/03/url-removal-explained-part-i-urls).\n\nRemoving non-HTML content\n-------------------------\n\n\nIf the changed content is not in (X)HTML (for example if an image, a Flash file or a PDF file has\nbeen changed), you won't be able to use the cache removal tool. So if it's important that the old\ncontent no longer be visible in search results, the fastest solution would be to change the URL\nof the file so that the old URL returns a `404` HTTP result code and use the URL\nremoval tool to remove the old URL. Otherwise, if you chose to allow Google to naturally refresh\nyour information, know that previews of non-HTML content (such as\n[Quick View links for PDF files](https://googleblog.blogspot.com/2009/10/quickly-view-formatted-pdfs-in-your.html))\ncan take longer to update after recrawling than normal HTML pages would.\n\nProactively preventing the appearance of snippets or cached versions\n--------------------------------------------------------------------\n\n\nAs a webmaster, you have the option to use robots\n[`meta` tags](/search/docs/advanced/crawling/special-tags)\nto proactively prevent the appearance of snippets or cached versions without using our removal\ntools. While we don't recommend this as a default approach (the snippet can help users recognize a\nrelevant search result faster, and a cached page gives them the ability to view your content even\nin the unexpected event of your server not being available), you can use the \"nosnippet\" robots\n`meta` tag to\n[prevent showing of a snippet](/search/docs/crawling-indexing/robots-meta-tag#nosnippet),\nor the \"noarchive\" robots `meta` tag to disable caching of a page. Note that if this is changed on\nexisting and known pages, Googlebot will need to re-crawl and re-index those pages before this\nchange becomes visible in search results.\n\n\nWe hope this blog post helps to make some of the processes behind the URL removal tool for updated\npages a bit clearer. In our next blog post we'll look at ways to request removal of content that\nyou don't own; stay tuned!\n\n\nAs always, we welcome your feedback and questions in our\n[Webmaster Help Forum](https://support.google.com/webmasters/community/label?lid=5489e59697a233d7).\n\nOther posts of this series\n--------------------------\n\n- [Part I: Removing URLs and directories](/search/blog/2010/03/url-removal-explained-part-i-urls)\n- [Part II: Removing and updating cached content](/search/blog/2010/04/url-removals-explained-part-ii-removing)\n- [Part III: Removing content you don't own](/search/blog/2010/04/url-removal-explained-part-iii-removing)\n- [Part IV: Tracking requests, what not to remove](/search/blog/2010/05/url-removal-explained-part-iv-tracking)\n\n\nFinally, you might be also interested to read about\n[managing what information is available about you online](/search/blog/2009/10/managing-your-reputation-through-search).\n\n\nPosted by\n[John Mueller](https://twitter.com/JohnMu),\nWebmaster Trends Analyst, Google Switzerland"]]