LinkedIn에서 Google 검색 확인하기:
LinkedIn에서 팔로우하고 검색 가능한 사이트를 만드는 방법에 관한 Google 검색 뉴스와 리소스를 확인하세요.
URL 삭제 설명, 파트 2: 페이지에서 민감한 텍스트 삭제
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
2010년 8월 6일 금요일
사이트를 변경해야 할 때가 있습니다. URL 삭제에 관한 이전 게시물에서 살펴보았듯이 사이트에서 페이지를 완전히 차단하거나 삭제하는 경우도 있고 페이지의 일부분만 변경하거나 특정 텍스트를 삭제하는 경우도 있습니다. 페이지가 크롤링되는 빈도에 따라 이러한 변경사항이 Google 검색결과에 반영되기까지 다소 시간이 걸릴 수 있습니다. 이 블로그 게시물에서는 Google 검색결과에 이미 삭제된 이전 콘텐츠가 표시될 때 취할 수 있는 단계를 다룹니다. 이러한 콘텐츠는 '스니펫' 또는 검색결과와 연결되어 캐시된 페이지라는 형태로 표시될 수 있습니다. 이전 콘텐츠에 민감한 정보가 포함되어 있어서 바로 삭제해야 한다면 이러한 조치를 취하면 되고, 웹사이트를 정상적으로 업데이트할 때는 반드시 이렇게 하지 않아도 됩니다.
예를 들어 다음과 같은 가상의 검색결과를 살펴보겠습니다.
월터 E. 코요테 |
< 직함 |
Acme Corp 최고 개발 책임자, 1948~2003: 잠재력을 증명한 기밀 프로젝트인
헤아릴 수 없는 속도 캡처 기기 개발에 참여했습니다.... |
< 스니펫 |
www.example.com/about/waltercoyote - 캐시됨 |
< URL + 캐시된 페이지 링크 |
스니펫(또는 연결 및 캐시된 페이지)에 표시되는 콘텐츠를 변경하려면 먼저 실제(실시간) 페이지의 콘텐츠를 변경해야 합니다. 페이지에 공개적으로 표시되는 콘텐츠가 변경되지 않는 한, Google의 자동 프로세스에서는 계속해서 검색결과에 원본 콘텐츠의 일부를 표시하기 때문입니다.
페이지의 콘텐츠가 변경되면 다음의 여러 가지 옵션을 사용하여 이러한 변경사항을 검색결과에 표시할 수 있습니다.
-
Googlebot이 페이지를 다시 크롤링하고 색인을 다시 생성할 때까지 대기: 이는 대부분의 콘텐츠는 Google에서 이런 방식으로 자연스럽게 업데이트됩니다. Googlebot이 현재 해당 페이지를 얼마나 자주 크롤링하느냐에 따라 업데이트되기까지 시간이 상당히 오래 걸릴 수도 있습니다. Googlebot이 페이지를 다시 크롤링하고 색인을 재생성하면 이전 콘텐츠는 일반적으로 표시되지 않습니다. 현재 콘텐츠로 대체되기 때문입니다. Googlebot이 문제가 있는 페이지를 크롤링하지 못하는 것이 아니라면(robots.txt에 의해 차단됨 또는 서버에 제대로 액세스할 수 없음) 특별히 취해야 할 조치는 없습니다. 이러한 프로세스는 완전히 자동화되어 있으며 외부 요인에 좌우되므로 일반적인 경우라면 크롤링 및 색인 생성 속도를 높이는 것은 불가능합니다.
-
Google의 공개 URL 삭제 도구를 사용하여 다른 사용자의 웹페이지에서 삭제된 콘텐츠의 삭제를 요청할 수 있습니다. 이 도구를 사용할 때는 수정된 페이지의 URL을 정확하게 입력하고 '콘텐츠가 페이지에서 삭제됨' 옵션을 선택한 다음 페이지에서 완전히 삭제된 하나 이상의 단어를 지정하세요.
입력한 단어 중 하나도 페이지에 표시되지 않을 수도 있습니다. 페이지의 한 부분에서 삭제된 단어라 하더라도 페이지의 다른 부분에 단어가 계속 표시되면 요청이 거부됩니다. 페이지의 어느 부분에도 더 이상 표시되지 않는 단어를 선택해야 합니다. 위의 예에서 'top secret velocitus incalculii capturing device'를 삭제했다면 '내 프로젝트'와 같은 단어가 아닌 해당 문구를 제출해야 합니다. 하지만 페이지에 'top' 또는 'device'라는 단어가 계속 있으면 요청이 거부됩니다. 요청이 수행될 가능성을 최대한 높이려면 페이지에 더 이상 표시되지 않는다고 확신하는 단어를 입력해 보는 것이 가장 쉬운 방법입니다.
요청이 처리되고 제출한 단어가 더 이상 페이지에 표시되지 않음이 확인되면 검색결과에 더 이상 미리보기가 표시되지 않으며 저장된 페이지도 보이지 않게 됩니다. 제출한 단어가 더 이상 미리보기에 표시되지 않더라도 페이지의 제목과 URL은 계속 표시되며, 단어가 삭제된 콘텐츠와 관련된 검색결과(velocitus incalculii와 같은 검색어)에 계속 표시될 수 있습니다. 하지만 페이지가 다시 크롤링되고 색인이 다시 생성되고 나면 Google 검색결과에 새 스니펫과 캐시된 페이지가 표시될 수 있습니다.
Google은 페이지를 확인하여 단어가 삭제되었는지 확인합니다. 페이지가 더 이상 존재하지 않고 서버가 적절한 404
또는 410
HTTP 결과 코드를 반환하여 Google에서 페이지를 볼 수 없는 경우 페이지 전체 삭제를 요청하는 것이 낫습니다.
-
Google 웹마스터 도구의 URL 삭제 도구를 사용하여 웹사이트에서 페이지 정보를 삭제해 달라고 요청합니다. 문제의 웹사이트에 액세스할 수 있으며 Google 웹마스터 도구에서 웹사이트 소유권을 확인한 경우 URL 삭제 도구(사이트 구성 > 크롤러 액세스)로 이동하여 페이지가 다시 크롤링될 때까지 스니펫과 캐시된 페이지를 삭제해 달라고 요청할 수 있습니다. URL 삭제 도구를 사용할 때는 페이지의 정확한 URL만 제출하면 되며, 삭제된 단어를 지정하지 않아도 됩니다. 요청이 처리되면 Google에서 스니펫과 캐시된 페이지를 검색결과에서 삭제합니다. 페이지의 제목 및 URL은 계속 표시되며, 삭제된 콘텐츠와 관련된 검색어의 검색결과에도 계속 페이지가 표시될 수 있습니다. 하지만 페이지가 다시 크롤링되어 색인이 생성되면 검색결과에 업데이트된 스니펫과 캐시된 페이지(새 콘텐츠 기반)가 표시될 수 있습니다.
Google은 페이지의 콘텐츠뿐 아니라 URL에 대한 인바운드 링크와 같은 다른 외부 요인도 고려하여 항목의 색인을 생성하고 순위를 지정합니다. 이로 인해 페이지가 다시 크롤링되고 색인이 다시 생성된 후에도 페이지에 더 이상 존재하지 않는 콘텐츠의 URL이 검색결과에 계속 표시될 수 있습니다. URL 삭제 도구를 통해 검색결과에서 스니펫과 캐시된 페이지를 삭제할 수는 있지만, 검색결과의 제목이 변경되거나 삭제되지는 않습니다. 또한 표시되는 URL이 변경되거나 현재 또는 이전 콘텐츠에 따라서 페이지가 특정 검색어에 대하여 표시되지 않도록 차단하지도 않습니다. 해당 콘텐츠를 완전히 삭제하는 것이 중요한 경우 URL이 Google 검색결과에서 완전히 삭제되기 위한 요구사항을 충족하는지 확인해야 합니다.
HTML이 아닌 콘텐츠 삭제
변경된 콘텐츠가 (X)HTML이 아닌 경우(예: 이미지, 플래시 파일 또는 PDF 파일이 변경된 경우) 캐시 삭제 도구를 사용할 수 없습니다. 따라서 이전 콘텐츠가 더 이상 검색결과에 표시되지 않는 것이 중요한 경우 가장 빠른 해결책은 이전 URL이 404
HTTP 결과 코드를 반환하도록 파일의 URL을 변경하고 URL 삭제 도구를 사용하여 이전 URL을 삭제하는 것입니다. 또는 Google에서 사용자의 정보를 자연적으로 새로고침하도록 선택한 경우 HTML이 아닌 콘텐츠의 미리보기(예: PDF 파일의 빠른 보기 링크)의 경우 재크롤링 후 업데이트하는 시간이 더 오래 걸릴 수 있음에 유의해야 합니다.
스니펫 또는 캐시된 버전이 표시되는 것을 사전에 방지
웹마스터는 삭제 도구를 사용하지 않고도 robots meta
태그를 사용하여 스니펫이나 캐시된 버전이 표시되는 것을 사전에 방지할 수 있습니다. 스니펫은 사용자가 관련 검색결과를 더 빠르게 인식할 수 있도록 해주며, 서버에서 예기치 않은 이벤트가 발생하더라도 사용자는 캐시된 페이지를 통해 콘텐츠를 볼 수 있습니다. 따라서 이 방법을 기본적인 접근방식으로 사용하지 않는 것이 좋습니다. 하지만 'nosnippet' robots meta
태그를 사용하여 스니펫이 표시되지 않게 하거나 'noarchive' robots meta
태그를 사용하여 페이지의 캐시가 저장되지 않도록 차단할 수는 않습니다. 기존 페이지 및 알려진 페이지의 robots 메타 태그가 변경되면 Googlebot이 페이지를 다시 크롤링하고 색인을 생성해야 변경사항이 검색결과에 표시됩니다.
이 블로그 게시물이 페이지 업데이트에 관한 URL 삭제 도구 프로세스를 좀 더 확실하게 파악하는 데 도움이 되기를 바랍니다. 다음 블로그 게시물에서는 소유하지 않은 콘텐츠의 삭제를 요청하는 방법을 알아보겠습니다. 다음 게시물을 기대해 주세요!
언제나 그렇지만 웹마스터 도움말 포럼에 의견과 질문을 올려 주시기 바랍니다.
이 시리즈의 다른 게시물
마지막으로 온라인에 표시되는 내 정보 관리하기를 읽어보는 것도 좋습니다.
게시자: 존 뮬러(웹마스터 트렌드 분석가, Google 스위스)
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
[null,null,[],[[["\u003cp\u003eGoogle's search results may display outdated content even after a webpage has been updated.\u003c/p\u003e\n"],["\u003cp\u003eTo update Google's search results, you can wait for Google to recrawl the page, or request removal of the outdated content through Google's URL removal tool.\u003c/p\u003e\n"],["\u003cp\u003eIf you own the website, use Google Webmaster Tools to remove the snippet and cached page until Google recrawls the updated page.\u003c/p\u003e\n"],["\u003cp\u003eGoogle's URL removal tool does not prevent a page from ranking based on previous content, so for complete removal, consider the requirements for removal from search results altogether.\u003c/p\u003e\n"],["\u003cp\u003eTo prevent snippets or cached versions from appearing, use robots meta tags, but it's generally recommended to keep them for user experience.\u003c/p\u003e\n"]]],["To update outdated content in Google search results, first modify the live page. Then, either wait for Googlebot to re-crawl and re-index or use Google's URL removal tools. There are two options for URL removals: removing content from others' pages by specifying removed words or removing information from your own page via Google Webmaster Tools, without specifying removed words. For non-HTML content, change the file's URL. Lastly, webmasters can proactively prevent snippets and cached versions using robots meta tags.\n"],null,["# URL removals explained, part II: Removing sensitive text from a page\n\nFriday, August 06, 2010\n\n\nChange can happen---sometimes, as we saw in our\n[previous post on URL removals](/search/blog/2010/03/url-removal-explained-part-i-urls),\nyou may completely block or remove a page from your site. Other times you might only change parts\nof a page, or remove certain pieces of text. Depending on how frequently a page is being crawled,\nit can take some time before these changes get reflected in our search results. In this blog post\nwe'll look at the steps you can take if we're still showing old, removed content in our search\nresults, either in the form of a \"snippet\" or on the cached page that's linked to from the search\nresult. Doing this makes sense when the old content contains sensitive information that needs to\nbe removed quickly---it's not necessary to do this when you just update a website normally.\n\nAs an example, let's look at the following fictitious search result:\n\n|---------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------|\n| **Walter** E. **Coyote** | \\\u003c Title |\n| Chief Development Officer at Acme Corp 1948-2003: worked on the top secret velocitus incalculii capturing device which has shown potential**...** | \\\u003c Snippet |\n| www.example.com/about/**waltercoyote** - Cached | \\\u003c URL + link to cached page |\n\n\nTo change the content shown in the snippet (or on the linked cached page),\n**you'll first need to change the content on the actual (live) page**. Unless a page's publicly\nvisible content is changed, Google's automatic processes will continue to show parts of the\noriginal content in our search results.\n\n\nOnce the page's content has been changed, there are several options available to make those\nchanges visible in our search results:\n\n1.\n **Wait for Googlebot to re-crawl and re-index the page**: This is the natural method for\n how most content is updated at Google. Sometimes it can take a fairly long time, depending on\n how frequently Googlebot currently crawls the page in question. Once we've re-crawled and\n re-indexed the page, the old content will usually not be visible as it'll be replaced by the\n current content. Provided Googlebot is not blocked from crawling the page in question (either\n by robots.txt or by not being able to access the server properly), you don't have to do\n anything special for this to take place. It's generally not possible to speed up crawling and\n indexing, as these processes are fully automated and depend on many external factors.\n\n2.\n Use\n [Google's public URL removal tool](https://www.google.com/webmasters/tools/removals)\n to **request removal of content that has been removed from someone else's webpage** . Using\n this tool, it's necessary to enter the\n [exact URL of the page](https://www.google.com/support/webmasters/bin/answer.py?answer=63758)\n that has been modified, select the \"Content has been removed from the page\" option, and then\n specify one or more words that have been completely removed from that page.\n\n\n Note that *none* of the words you enter can appear on the page; even if a word has been\n removed from one part of the page, your request will be denied if that word still appears on\n another part of the page. Be sure to choose a word (or words) that no longer appear\n *anywhere* on the page. If, in the above example, you removed\n \"top secret velocitus incalculii capturing device\", you should\n submit those words and not something like \"my project.\" However, if the word\n \"top\" or \"device\" still exists\n anywhere on the page, the request would be denied. To maximize your chances of success, it's\n often easiest to just enter one word that you're sure no longer appears anywhere on the page.\n\n\n Once your request has been processed and it's found that the submitted word(s) no longer\n appear on the page, the search result will no longer show a snippet, nor will the cached page\n be available. The title and the URL of the page will still be visible, and the entry may still\n appear in search results for searches related to the content that has been removed (such as\n searches for\n [velocitus incalculii](https://www.google.com/search?q=velocitus+incalculii)),\n even if those words no longer appear in the snippet. However, once the page has been\n re-crawled and re-indexed, the new snippet and cached page can be visible in our search\n results.\n\n\n Keep in mind that we will need to verify removal of the word(s) by viewing the page. If the\n page no longer exists and the server is returning a proper\n [`404` or `410` HTTP result code](https://en.wikipedia.org/wiki/List_of_HTTP_status_codes),\n making us unable to view the page, you may be better off\n [requesting removal of the page](/search/blog/2010/03/url-removal-explained-part-i-urls)\n altogether.\n3. Use Google Webmaster Tools URL removal tool to **request removal of information on a page from your website** . If you have access to the website in question and have verified ownership of it in [Google Webmaster Tools](https://search.google.com/search-console), you can use the URL removal tool there (under *Site Configuration \\\u003e Crawler access* ) to request that the snippet and the cached page be removed until the page has been re-crawled. To use this tool, you only need to submit the [exact URL of the page](https://www.google.com/support/webmasters/bin/answer.py?answer=63758) (you won't need to specify any removed words). Once your request has been processed, we'll remove the snippet and the cached page from search results. The title and the URL of the page will still be visible, and the page may also continue to rank in search results for queries related to content that has been removed. After the page has been re-crawled and re-indexed, the search result with an updated snippet and cached page (based on the new content) can be visible.\n\n\nGoogle indexes and ranks items based not only on the content of a page, but also on other external\nfactors, such as the inbound links to the URL. Because of this, it's possible for a URL to\ncontinue to appear in search results for content that no longer exists on the page, even after\nthe page has been re-crawled and re-indexed. While the URL removal tool can remove the snippet\nand the cached page from a search result, it will not change or remove the title of the search\nresult, change the URL that is shown, or prevent the page from being shown for searches based on\nany current or previous content. If this is important to you, you should make sure that the URL\nfulfills the requirements for a\n[complete removal from our search results](/search/blog/2010/03/url-removal-explained-part-i-urls).\n\nRemoving non-HTML content\n-------------------------\n\n\nIf the changed content is not in (X)HTML (for example if an image, a Flash file or a PDF file has\nbeen changed), you won't be able to use the cache removal tool. So if it's important that the old\ncontent no longer be visible in search results, the fastest solution would be to change the URL\nof the file so that the old URL returns a `404` HTTP result code and use the URL\nremoval tool to remove the old URL. Otherwise, if you chose to allow Google to naturally refresh\nyour information, know that previews of non-HTML content (such as\n[Quick View links for PDF files](https://googleblog.blogspot.com/2009/10/quickly-view-formatted-pdfs-in-your.html))\ncan take longer to update after recrawling than normal HTML pages would.\n\nProactively preventing the appearance of snippets or cached versions\n--------------------------------------------------------------------\n\n\nAs a webmaster, you have the option to use robots\n[`meta` tags](/search/docs/advanced/crawling/special-tags)\nto proactively prevent the appearance of snippets or cached versions without using our removal\ntools. While we don't recommend this as a default approach (the snippet can help users recognize a\nrelevant search result faster, and a cached page gives them the ability to view your content even\nin the unexpected event of your server not being available), you can use the \"nosnippet\" robots\n`meta` tag to\n[prevent showing of a snippet](/search/docs/crawling-indexing/robots-meta-tag#nosnippet),\nor the \"noarchive\" robots `meta` tag to disable caching of a page. Note that if this is changed on\nexisting and known pages, Googlebot will need to re-crawl and re-index those pages before this\nchange becomes visible in search results.\n\n\nWe hope this blog post helps to make some of the processes behind the URL removal tool for updated\npages a bit clearer. In our next blog post we'll look at ways to request removal of content that\nyou don't own; stay tuned!\n\n\nAs always, we welcome your feedback and questions in our\n[Webmaster Help Forum](https://support.google.com/webmasters/community/label?lid=5489e59697a233d7).\n\nOther posts of this series\n--------------------------\n\n- [Part I: Removing URLs and directories](/search/blog/2010/03/url-removal-explained-part-i-urls)\n- [Part II: Removing and updating cached content](/search/blog/2010/04/url-removals-explained-part-ii-removing)\n- [Part III: Removing content you don't own](/search/blog/2010/04/url-removal-explained-part-iii-removing)\n- [Part IV: Tracking requests, what not to remove](/search/blog/2010/05/url-removal-explained-part-iv-tracking)\n\n\nFinally, you might be also interested to read about\n[managing what information is available about you online](/search/blog/2009/10/managing-your-reputation-through-search).\n\n\nPosted by\n[John Mueller](https://twitter.com/JohnMu),\nWebmaster Trends Analyst, Google Switzerland"]]