Googlebot

Google के दो तरह के वेब क्रॉलर को आम शब्दों में Googlebot कहा जाता है:

  • Googlebot स्मार्टफ़ोन: यह एक मोबाइल क्रॉलर है, जो मोबाइल डिवाइस पर किसी वेबसाइट को एक उपयोगकर्ता की तरह ऐक्सेस करता है.
  • Googlebot डेस्कटॉप: यह एक डेस्कटॉप क्रॉलर है, जो डेस्कटॉप पर किसी वेबसाइट को एक उपयोगकर्ता की तरह ऐक्सेस करता है.

Googlebot के सब-टाइप की पहचान, एचटीटीपी user-agent के अनुरोध वाले हेडर देखकर की जा सकती है. हालांकि, दोनों तरह के क्रॉलर, robots.txt में एक ही प्रॉडक्ट के टोकन (उपयोगकर्ता एजेंट टोकन) के नियम का पालन करते हैं. इसलिए, robots.txt के इस्तेमाल से यह तय नहीं किया जा सकता कि Googlebot स्मार्टफ़ोन या Googlebot डेस्कटॉप में से कोई एक आपकी साइट को क्रॉल करे.

ज़्यादातर साइटों के लिए Google, मुख्य तौर पर कॉन्टेंट का मोबाइल वर्शन इंडेक्स करता है. ऐसा इसलिए, क्योंकि Googlebot से क्रॉल कराने के ज़्यादातर अनुरोध, मोबाइल क्रॉलर से किए जाते हैं. डेस्कटॉप क्रॉलर से कम ही अनुरोध किए जाते हैं.

Googlebot आपकी साइट को कैसे ऐक्सेस करता है

ज़्यादातर साइटों के लिए, Googlebot को औसतन हर कुछ सेकंड में आपकी साइट को एक से ज़्यादा बार ऐक्सेस नहीं करना चाहिए. हालांकि, नेटवर्क की धीमी रफ़्तार की वजह से कुछ समय के लिए, ऐक्सेस की दर थोड़ी बढ़ सकती है.

Googlebot को एक साथ हज़ारों मशीनों पर चलने के लिए बनाया गया है, ताकि वेब की पहुंच बढ़ने के साथ-साथ इसकी परफ़ॉर्मेंस बेहतर हो सके. इसके अलावा, बैंडविड्थ का इस्तेमाल कम करने के लिए, हम उन साइटों के आस-पास मौजूद मशीनों पर कई बार क्रॉलर चलाते हैं जिन्हें क्रॉल किया जा सकता है. इसलिए, आपके लॉग में कई आईपी पताें से साइटों पर विज़िट करने की जानकारी दिख सकती है. इन सभी का उपयोगकर्ता एजेंट Googlebot है. हमारा मकसद, आपके सर्वर पर ज़्यादा दबाव डाले बिना, हर विज़िट में आपकी साइट के ज़्यादा से ज़्यादा पेज क्रॉल करना है. अगर आपकी साइट को Google के क्रॉल वाले अनुरोध से तालमेल रखने में समस्या आ रही है, तो क्रॉल दर को कम करने का अनुरोध किया जा सकता है.

Googlebot मुख्य तौर पर अमेरिका में मौजूद आईपी पतों से क्रॉल करता है. अगर Googlebot को पता चलता है कि कोई साइट अमेरिका के अनुरोधों को ब्लॉक कर रही है, तो वह अन्य देशों में मौजूद आईपी पताें से क्रॉल करने की कोशिश कर सकता है. Googlebot, आईपी पते की जिन रेंज का इस्तेमाल करता है उनकी सूची JSON फ़ॉर्मैट में उपलब्ध है.

Googlebot, साइट को एचटीटीपी/1.1 पर क्रॉल करता है. साथ ही, अगर साइट पर एचटीटीपी/2 काम करता है, तो वह इसके ज़रिए भी क्रॉल करता है. आपकी साइट के किस प्रोटोकॉल वर्शन का इस्तेमाल करके क्रॉल किया गया है, इससे साइट की रैंकिंग पर कोई असर नहीं पड़ता. हालांकि, एचटीटीपी/2 का इस्तेमाल करके, क्रॉल करने से आपकी साइट और Googlebot के लिए कंप्यूटिंग रिसॉर्स (जैसे, सीपीयू, रैम) को बचाया जा सकता है.
एचटीटीपी/2 पर क्रॉल करने से ऑप्ट आउट करने के लिए, आप अपनी साइट को होस्ट करने वाले सर्वर को निर्देश दें कि जब Googlebot आपकी साइट को एचटीटीपी/2 पर क्रॉल करने की कोशिश करे, तब वह 421 एचटीटीपी स्टेटस कोड दिखाए. अगर यह करना मुमकिन नहीं है, तो आपके पास Googlebot टीम को मैसेज भेजने का विकल्प भी है (हालांकि, यह स्थायी समाधान नहीं है).

Googlebot, एचटीएमएल फ़ाइल के पहले 15 एमबी के कॉन्टेंट या काम करने वाली टेक्स्ट फ़ाइल को क्रॉल कर सकता है. एचटीएमएल में बताए गए हर संसाधन, जैसे कि सीएसएस और JavaScript को अलग-अलग फ़ेच किया जाता है. साथ ही, किसी भी फ़ेच के लिए, फ़ाइल का साइज़ एक जैसा होता है. फ़ाइल के पहले 15 एमबी वाले कॉन्टेंट के बाद, Googlebot क्रॉल करना बंद कर देता है और इंडेक्सिंग के लिए, सिर्फ़ पहले 15 एमबी वाला कॉन्टेंट भेजता है. फ़ाइल के साइज़ की सीमा, कंप्रेस नहीं किए गए डेटा पर लागू होती है. अन्य Google क्रॉलर, जैसे कि Googlebot वीडियो और Googlebot इमेज, दोनों की अलग-अलग सीमाएं हो सकती हैं.

अमेरिका में मौजूद आईपी पतों से क्रॉल करते समय, Googlebot का टाइमज़ोन पैसिफ़िक टाइम होता है.

Googlebot को आपकी साइट पर आने से रोकना

किसी साइट तक पहुंचने के लिंक पब्लिश न करके उसे गुप्त रखना करीब-करीब नामुमकिन है. उदाहरण के लिए, जैसे ही कोई व्यक्ति आपकी "सीक्रेट" साइट पर उपलब्ध लिंक का इस्तेमाल करते हुए दूसरी साइट पर जाता है, तो उसे आपका "सीक्रेट" यूआरएल, सुझाए गए टैग में दिखाई दे सकता है. साथ ही, दूसरी साइट, इसे स्टोर कर सकती है और इसे अपने सुझाए गए लॉग में दिखा भी सकती है.

अगर आपको Googlebot को, अपनी साइट के कॉन्टेंट को क्रॉल करने से रोकना है, तो इसके लिए आपके पास कई विकल्प हैं. याद रखें कि क्रॉल और इंडेक्स करने के बीच फ़र्क़ होता है. Googlebot को कोई पेज क्रॉल करने से रोकने के बाद भी वह पेज, खोज नतीजों में दिख सकता है:

Googlebot की पुष्टि करना

Googlebot को ब्लॉक करने से पहले, ध्यान रखें कि Googlebot, एचटीटीपी user-agent अनुरोध के जिस हेडर का इस्तेमाल करता है उसका इस्तेमाल अक्सर दूसरे क्रॉलर धोखा देने के लिए करते हैं. यह पता लगाना ज़रूरी है कि क्या संदिग्ध अनुरोध वाकई Google से ही मिला है. कोई अनुरोध Googlebot से ही मिला है, इसकी पुष्टि करने का सबसे अच्छा तरीका यह है कि आप अनुरोध के सोर्स आईपी पते पर रिवर्स डीएनएस लुकअप का इस्तेमाल करें. इसके अलावा, सोर्स आईपी पते को Googlebot के आईपी पते की रेंज से मैच करके भी, इसकी पुष्टि की जा सकती है.