지난 며칠 동안 Googlebot 관련 문서 최신 업데이트에 관한 질문을 많이 받았습니다.
다시 말하자면, Googlebot은 특정 파일 형식를 가져올 때 처음 15MB만 확인합니다.
새로운 기준점이 아닙니다. 지난 수 년 동안 사용되어 온 기준점입니다. 디버깅에 도움이 될 수 있고 거의 변경되지 않는 항목이기 때문에 문서에 추가한 것입니다.
이 한도는 Googlebot이 초기 요청을 통해 수신한 바이트(콘텐츠)에만 적용되며 페이지 내 참조된 리소스에는 적용되지 않습니다.
예를 들어 https://example.com/puppies.html을 열면 먼저 브라우저에서 HTML 파일의 바이트를 다운로드하며, 이 바이트를 기준으로 외부 자바스크립트, 이미지 또는 HTML의 URL로 참조되는 다른 항목을 추가로 요청할 수 있습니다.
Googlebot도 같은 작업을 실행합니다.
15MB 한도는 내 사이트에 어떤 영향을 미치나요? 대부분 아무런 영향도 미치지 않습니다. 인터넷에 있는 페이지 중에서 15MB보다 큰 페이지는 거의 없기 때문입니다. HTML 파일의 중앙값은 이보다 약 500배 더 작은 30KB이기 때문에 독자 여러분께서 15MB가 넘는 페이지를 갖고 계실 가능성은 매우 낮습니다.
하지만 15MB가 넘는 HTML 페이지를 실제로 소유하 있다면 최소한 인라인 스크립트와 CSS 더스트를 외부 파일로 이동하는 정도의 조치는 취해 볼 수 있습니다.
15MB를 초과하는 경우 콘텐츠가 어떻게 되나요?
처음 15MB 이후의 콘텐츠는 Googlebot에 의해 삭제되고 처음 15MB만 색인 생성 단계로 전달됩니다.
15MB 한도는 어떤 콘텐츠 유형에 적용되나요?
15MB 한도는 Google 검색에서 지원하는 파일 형식을 가져올 때 Googlebot(Googlebot 스마트폰 및 Googlebot 데스크톱)에서 수행하는 가져오기에 적용됩니다.
Googlebot이 내 이미지 또는 동영상을 보지 않는다는 의미인가요?
아니요. Googlebot은 HTML에서 URL(예: <img src="https://example.com/images/puppy.jpg" alt="cute puppy looking very disappointed" />)에 의해 참조되는 동영상 및 이미지를 가져오며, 이는 이후의 가져오기와는 별도입니다.
데이터 URI가 HTML 파일 크기에 가산되나요? 예. data URIs를 사용하면 HTML 파일 크기에 영향을 미칩니다. HTML 파일에 포함되어 있기 때문입니다.
페이지 크기는 어떻게 조회하나요
여러 가지 방법이 있지만 사용하는 브라우저와 개발자 도구를 사용하는 것이 가장 간단합니다. 평소와 같이 페이지를 로드한 다음 개발자 도구를 실행하고 네트워크 탭으로 전환합니다. 페이지를 새로고침하면 브라우저에서 페이지를 렌더링하기 위해 수행해야 했던 모든 요청이 표시됩니다. 상위 요청은 사용자가 찾고 있는 항목으로 크기 열에 있는 페이지의 바이트 크기를 포함합니다.
예를 들어 Chrome 개발자 도구에는 이렇게 표시될 수 있으며 크기 열에는 150KB이라고 나옵니다.
[null,null,[],[[["\u003cp\u003eGooglebot has a 15MB size limit for processing the initial HTML content of a webpage, although it fetches referenced resources like images and videos separately.\u003c/p\u003e\n"],["\u003cp\u003eThis limit has been in effect for a long time but was recently documented to help web developers with debugging.\u003c/p\u003e\n"],["\u003cp\u003eContent exceeding the 15MB limit is disregarded by Googlebot during indexing, impacting only a small percentage of webpages.\u003c/p\u003e\n"],["\u003cp\u003eWeb developers are encouraged to optimize large HTML files by moving inline scripts and CSS to external files.\u003c/p\u003e\n"],["\u003cp\u003eYou can use browser developer tools or command-line tools like cURL to check the size of your webpage.\u003c/p\u003e\n"]]],["Googlebot only indexes the first 15 MB of fetched content for specific file types, a limit that's long-standing but recently documented. This limit applies to the initial request's bytes, including subresources like CSS and JavaScript. Content exceeding 15 MB is dropped. Most web pages are significantly smaller than this threshold. Data URIs contribute to the file size. Users can check page sizes via browser developer tools or cURL. Googlebot accesses images and videos via URLs separately.\n"],null,["# Googlebot and the 15 MB thing\n\nTuesday, June 28, 2022\n\n\nOver the last few days we've received a great deal of questions about a recent update to\n[our documentation about Googlebot](/search/docs/crawling-indexing/googlebot).\nNamely, we've documented that Googlebot only ever \"sees\" the first 15\n[megabytes](https://en.wikipedia.org/wiki/Megabyte#-_-) (MB)\nwhen fetching\n[certain file types](/search/docs/crawling-indexing/indexable-file-types).\nThis threshold is not new; it's been around for many years. We just added it to our documentation\nbecause it might be helpful for some folks when debugging, and because it rarely ever changes.\n\n\nThis limit only applies to the\n[bytes](https://en.wikipedia.org/wiki/Byte#;)) (content)\nreceived for the initial request Googlebot makes, not the referenced resources within the page.\n| **March 16, 2023**: To further clarify, each individual subresource fetch (in particular CSS and JavaScript) is bound to the 15MB limit.\n\n\nFor example, when you open `https://example.com/puppies.html`, your browser will\ninitially download the bytes of the HTML file, and based on those bytes it might make further\nrequests for external JavaScript, images, or whatever else is referenced with a URL in the HTML.\nGooglebot does the same thing.\n\n\n**What does this 15 MB limit mean to me?** \n\nMost likely nothing. There are\n[very few pages](https://twitter.com/paulcalvano/status/1541402096897069056)\non the internet that are bigger in size. You, dear reader, are unlikely to be the owner of one,\nsince the\n[median size of a HTML file is about 500 times smaller](https://httparchive.org/reports/page-weight#bytesHtml):\n30 [kilobytes (kB)](https://en.m.wikipedia.org/wiki/Kilobyte).\nHowever, if you are the owner of an HTML page that's over 15 MB, perhaps you could at least move\nsome inline scripts and CSS dust to external files, pretty please.\n\n\n**What happens to the content after 15 MB?** \n\nThe content after the first 15 MB is dropped by Googlebot, and only the first 15 MB gets forwarded\nto indexing.\n\n\n**What content types does the 15 MB limit apply to?** \n\nThe 15 MB limit applies to fetches made by Googlebot (Googlebot Smartphone and Googlebot Desktop)\nwhen fetching\n[file types supported by Google Search](/search/docs/crawling-indexing/indexable-file-types).\n\n\n**Does this mean Googlebot doesn't see my image or video?** \n\nNo. Googlebot fetches videos and images that are referenced in the HTML with a URL (for example,\n`\u003cimg src=\"https://example.com/images/puppy.jpg\" alt=\"cute puppy looking very disappointed\" /\u003e`\nseparately with consecutive fetches.\n\n\n**Do data URIs add to the HTML file size?** \n\nYes. Using\n[data URIs](https://en.wikipedia.org/wiki/Data_URI_scheme)\nwill contribute to the HTML file size since they are in the HTML file.\n\n\n**How can I look up the size of a page?** \n\nThere are a number of ways, but the easiest is probably using your own browser and its Developer\nTools. Load the page as you normally would, then launch the Developer Tools and switch to the\nNetwork tab. Reload the page, and you should see all the requests your browser had to make to\nrender the page. The top request is what you're looking for, with the byte size of the page in\nthe Size column.\n\n\nFor example, in the\n[Chrome Developer Tools](https://developer.chrome.com/docs/devtools)\nmight look something like this, with 150 kB in the size column:\n\n\nIf you're more adventurous, you can use [cURL](https://curl.se/)\nfrom a command line: \n\n```\ncurl \\\n-A \"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36\" \\\n-so /dev/null https://example.com/puppies.html -w '%{size_download}'\n```\n\n\nIf you have more questions, you can find us on\n[Twitter](https://twitter.com/googlesearchc)\nand in the\n[Search Central Forums](https://support.google.com/webmasters/community),\nand if you need more clarification about our documentation, leave us feedback on the pages\nthemselves.\n\nPosted by [Gary Illyes](https://garyillyes.com/+)"]]