Googlebot

Googlebot เป็นชื่อทั่วไปของ Web Crawler ซึ่งมีอยู่ 2 ประเภทที่ Google Search ใช้ดังนี้

Googlebot สำหรับสมาร์ทโฟน: Crawler สําหรับอุปกรณ์เคลื่อนที่ซึ่งจำลองเป็นผู้ใช้ในอุปกรณ์เคลื่อนที่
Googlebot Desktop: Crawler ในเดสก์ท็อปซึ่งจำลองเป็นผู้ใช้บนเดสก์ท็อป

คุณระบุประเภทย่อยของ Googlebot ได้จากการดูส่วนหัวของคำขอ user-agent HTTP ในคำขอ อย่างไรก็ตาม Crawler ทั้ง 2 ประเภทจะปฏิบัติตามโทเค็นผลิตภัณฑ์เดียวกัน (โทเค็น User Agent) ใน robots.txt ดังนั้นคุณจึงเลือกกำหนดกลุ่มเป้าหมาย Googlebot สำหรับสมาร์ทโฟนหรือ Googlebot สำหรับเดสก์ท็อปอย่างใดอย่างหนึ่งโดยใช้ robots.txt ไม่ได้

สำหรับเว็บไซต์ส่วนใหญ่ Google Search จะจัดทำดัชนีเนื้อหาเวอร์ชันสำหรับอุปกรณ์เคลื่อนที่เป็นหลัก ด้วยเหตุนี้ คําขอทำการ Crawl ส่วนใหญ่ของ Googlebot ก็จะทําโดยใช้ Crawler สำหรับอุปกรณ์เคลื่อนที่ และใช้ Crawler สำหรับเดสก์ท็อปเป็นส่วนน้อย

วิธีที่ Googlebot เข้าถึงเว็บไซต์ของคุณ

สำหรับเว็บไซต์ส่วนใหญ่ โดยเฉลี่ยแล้ว Googlebot จะไม่เข้าถึงเว็บไซต์เกิน 1 ครั้งในทุก 2-3 วินาที อย่างไรก็ตาม หากมีความล่าช้าเกิดขึ้น ก็เป็นไปได้ที่อัตรานี้จะดูสูงกว่าเล็กน้อยในช่วงเวลาสั้นๆ หากเว็บไซต์ของคุณมีปัญหาในการตอบกลับคำขอทำการ Crawl ของ Google ไม่ทัน ให้ลดอัตราการ Crawl

เมื่อทำการ Crawl สำหรับ Google Search นั้น Googlebot จะทำการ Crawl 2 MB แรกของประเภทไฟล์ที่รองรับ และ 64 MB แรกของไฟล์ PDF ในมุมมองการแสดงผล ระบบจะดึงข้อมูลทรัพยากรแต่ละรายการที่อ้างอิงใน HTML (เช่น CSS และ JavaScript) แยกกัน และการดึงข้อมูลทรัพยากรแต่ละรายการจะอยู่ในขอบเขตของขีดจำกัดขนาดไฟล์เดียวกัน ซึ่งมีผลกับไฟล์อื่นๆ (ยกเว้นไฟล์ PDF)
เมื่อถึงขีดจำกัด Googlebot จะหยุดดึงข้อมูลและส่งเฉพาะส่วนของไฟล์ที่ดาวน์โหลดแล้ว เพื่อพิจารณาในการจัดทำดัชนี และมีการจำกัดขนาดไฟล์สำหรับข้อมูลที่ไม่ได้บีบอัด Crawler อื่นๆ ของ Google เช่น Googlebot Video และ Googlebot Image อาจมีขีดจำกัดที่แตกต่างออกไป

เมื่อทำการ Crawl จากที่อยู่ IP ในสหรัฐอเมริกา เขตเวลาของ Googlebot คือเวลาเขตแปซิฟิก

คุณสมบัติทางเทคนิคอื่นๆ ของ Googlebot มีอธิบายอยู่ในภาพรวมเกี่ยวกับ Crawler ของ Google

การบล็อกไม่ให้ Googlebot เข้าชมเว็บไซต์

Googlebot จะค้นพบ URL ใหม่ที่จะทำการ Crawl ได้จากลิงก์ที่ฝังอยู่ในหน้าที่ทำการ Crawl ไปก่อนหน้านี้เป็นหลัก การเก็บเว็บไซต์เป็นความลับโดยไม่เผยแพร่ลิงก์ไปยังเว็บไซต์นั้นๆ แทบจะเป็นไปไม่ได้ เช่น ทันทีที่มีคนคลิกลิงก์จากเว็บไซต์ "ลับ" ของคุณไปยังเว็บไซต์อื่น URL ของเว็บไซต์ "ลับ" อาจจะปรากฏในแท็กผู้บอกต่อ รวมถึงจะจัดเก็บและเผยแพร่ได้โดยเว็บไซต์อื่นในบันทึกผู้บอกต่อ

หากต้องการป้องกันไม่ให้ Googlebot ทำการ Crawl เนื้อหาในเว็บไซต์ ให้ใช้ตัวเลือกเหล่านี้ โปรดทราบว่าการ Crawl และการจัดทำดัชนีนั้นแตกต่างกัน การบล็อก Googlebot ไม่ให้ทำการ Crawl หน้าเว็บไม่ได้ป้องกันไม่ให้ URL ของหน้าเว็บปรากฏในผลการค้นหา

หากต้องการป้องกันไม่ให้ Googlebot ทำการ Crawl หน้าเว็บ ใช้ ไฟล์ robots.txt
หากไม่ต้องการให้ Google จัดทำดัชนีหน้าเว็บ ใช้ noindex
หากต้องการป้องกันไม่ให้ทั้ง Crawler หรือผู้ใช้เข้าถึงหน้าเว็บเลย ใช้วิธีอื่น เช่น การป้องกันด้วยรหัสผ่าน

การบล็อก Googlebot จะส่งผลต่อ Google Search (รวมถึงฟีเจอร์สำรวจและฟีเจอร์ทั้งหมดของ Google Search) รวมถึงผลิตภัณฑ์อื่นๆ เช่น Google รูปภาพ, Google วิดีโอ และ Google News

การยืนยัน Googlebot

ก่อนตัดสินใจบล็อก Googlebot โปรดทราบว่าส่วนหัวของคำขอ user-agent HTTP ที่ Googlebot ใช้นั้นมักจะถูก Crawler อื่นๆ ปลอมแปลงขึ้น คุณควรตรวจสอบว่าคำขอที่มีปัญหามาจาก Google จริงๆ วิธีที่ดีที่สุดในการตรวจสอบว่าคำขอมาจาก Googlebot จริงๆ คือใช้การค้นหา DNS แบบย้อนกลับใน IP ของแหล่งที่มาของคำขอ หรือจับคู่ IP ของแหล่งที่มากับช่วง IP ของ Googlebot