Googlebot
Google के दो तरह के वेब क्रॉलर को आम शब्दों में Googlebot कहा जाता है:
- Googlebot स्मार्टफ़ोन: यह एक मोबाइल क्रॉलर है, जो मोबाइल डिवाइस पर किसी वेबसाइट को एक उपयोगकर्ता की तरह ऐक्सेस करता है.
- Googlebot डेस्कटॉप: यह एक डेस्कटॉप क्रॉलर है, जो डेस्कटॉप पर किसी वेबसाइट को एक उपयोगकर्ता की तरह ऐक्सेस करता है.
Googlebot के सब-टाइप की पहचान, एचटीटीपी user-agent
के अनुरोध वाले हेडर देखकर की जा सकती है. हालांकि, दोनों तरह के क्रॉलर, robots.txt में एक ही प्रॉडक्ट के टोकन (उपयोगकर्ता एजेंट टोकन) के नियम का पालन करते हैं. इसलिए, robots.txt के इस्तेमाल से यह तय नहीं किया जा सकता कि Googlebot स्मार्टफ़ोन या Googlebot डेस्कटॉप में से कोई एक आपकी साइट को क्रॉल करे.
ज़्यादातर साइटों के लिए Google, मुख्य तौर पर कॉन्टेंट का मोबाइल वर्शन इंडेक्स करता है. ऐसा इसलिए, क्योंकि Googlebot से क्रॉल कराने के ज़्यादातर अनुरोध, मोबाइल क्रॉलर से किए जाते हैं. डेस्कटॉप क्रॉलर से कम ही अनुरोध किए जाते हैं.
Googlebot आपकी साइट को कैसे ऐक्सेस करता है
ज़्यादातर साइटों के लिए, Googlebot को औसतन हर कुछ सेकंड में आपकी साइट को एक से ज़्यादा बार ऐक्सेस नहीं करना चाहिए. हालांकि, नेटवर्क की धीमी रफ़्तार की वजह से कुछ समय के लिए, ऐक्सेस की दर थोड़ी बढ़ सकती है.
Googlebot को एक साथ हज़ारों मशीनों पर चलने के लिए बनाया गया है, ताकि वेब की पहुंच बढ़ने के साथ-साथ इसकी परफ़ॉर्मेंस बेहतर हो सके. इसके अलावा, बैंडविड्थ का इस्तेमाल कम करने के लिए, हम उन साइटों के आस-पास मौजूद मशीनों पर कई बार क्रॉलर चलाते हैं जिन्हें क्रॉल किया जा सकता है. इसलिए, आपके लॉग में कई आईपी पताें से साइटों पर विज़िट करने की जानकारी दिख सकती है. इन सभी का उपयोगकर्ता एजेंट Googlebot है. हमारा मकसद, आपके सर्वर पर ज़्यादा दबाव डाले बिना, हर विज़िट में आपकी साइट के ज़्यादा से ज़्यादा पेज क्रॉल करना है. अगर आपकी साइट को Google के क्रॉल वाले अनुरोध से तालमेल रखने में समस्या आ रही है, तो क्रॉल दर को कम करने का अनुरोध किया जा सकता है.
Googlebot मुख्य तौर पर अमेरिका में मौजूद आईपी पतों से क्रॉल करता है. अगर Googlebot को पता चलता है कि कोई साइट अमेरिका के अनुरोधों को ब्लॉक कर रही है, तो वह अन्य देशों में मौजूद आईपी पताें से क्रॉल करने की कोशिश कर सकता है. Googlebot, आईपी पते की जिन रेंज का इस्तेमाल करता है उनकी सूची JSON फ़ॉर्मैट में उपलब्ध है.
Googlebot, साइट को एचटीटीपी/1.1 पर क्रॉल करता है. साथ ही, अगर साइट पर एचटीटीपी/2 काम करता है, तो वह इसके ज़रिए भी क्रॉल करता है. आपकी साइट के किस प्रोटोकॉल वर्शन का इस्तेमाल करके क्रॉल किया गया है, इससे साइट की रैंकिंग पर कोई असर नहीं पड़ता. हालांकि, एचटीटीपी/2 का इस्तेमाल करके, क्रॉल करने से आपकी साइट और Googlebot के लिए कंप्यूटिंग रिसॉर्स (जैसे, सीपीयू, रैम) को बचाया जा सकता है.
एचटीटीपी/2 पर क्रॉल करने से ऑप्ट आउट करने के लिए, आप अपनी साइट को होस्ट करने वाले सर्वर को निर्देश दें कि जब Googlebot आपकी साइट को एचटीटीपी/2 पर क्रॉल करने की कोशिश करे, तब वह 421
एचटीटीपी स्टेटस कोड दिखाए. अगर यह करना मुमकिन नहीं है, तो आपके पास Googlebot टीम को मैसेज भेजने का विकल्प भी है (हालांकि, यह स्थायी समाधान नहीं है).
Googlebot, एचटीएमएल फ़ाइल के पहले 15 एमबी के कॉन्टेंट या काम करने वाली टेक्स्ट फ़ाइल को क्रॉल कर सकता है. एचटीएमएल में बताए गए हर संसाधन, जैसे कि सीएसएस और JavaScript को अलग-अलग फ़ेच किया जाता है. साथ ही, किसी भी फ़ेच के लिए, फ़ाइल का साइज़ एक जैसा होता है. फ़ाइल के पहले 15 एमबी वाले कॉन्टेंट के बाद, Googlebot क्रॉल करना बंद कर देता है और इंडेक्सिंग के लिए, सिर्फ़ पहले 15 एमबी वाला कॉन्टेंट भेजता है. फ़ाइल के साइज़ की सीमा, कंप्रेस नहीं किए गए डेटा पर लागू होती है. अन्य Google क्रॉलर, जैसे कि Googlebot वीडियो और Googlebot इमेज, दोनों की अलग-अलग सीमाएं हो सकती हैं.
अमेरिका में मौजूद आईपी पतों से क्रॉल करते समय, Googlebot का टाइमज़ोन पैसिफ़िक टाइम होता है.
Googlebot को आपकी साइट पर आने से रोकना
किसी साइट तक पहुंचने के लिंक पब्लिश न करके उसे गुप्त रखना करीब-करीब नामुमकिन है. उदाहरण के लिए, जैसे ही कोई व्यक्ति आपकी "सीक्रेट" साइट पर उपलब्ध लिंक का इस्तेमाल करते हुए दूसरी साइट पर जाता है, तो उसे आपका "सीक्रेट" यूआरएल, सुझाए गए टैग में दिखाई दे सकता है. साथ ही, दूसरी साइट, इसे स्टोर कर सकती है और इसे अपने सुझाए गए लॉग में दिखा भी सकती है.
अगर आपको Googlebot को, अपनी साइट के कॉन्टेंट को क्रॉल करने से रोकना है, तो इसके लिए आपके पास कई विकल्प हैं. याद रखें कि क्रॉल और इंडेक्स करने के बीच फ़र्क़ होता है. Googlebot को कोई पेज क्रॉल करने से रोकने के बाद भी वह पेज, खोज नतीजों में दिख सकता है:
- क्या आपको Googlebot को कोई पेज क्रॉल करने से रोकना है? robots.txt फ़ाइल का इस्तेमाल करें.
- क्या आपको Google से कोई पेज इंडेक्स नहीं कराना है?
noindex
का इस्तेमाल करें. - क्या आपको क्रॉलर या उपयोगकर्ता, दोनों को कोई पेज ऐक्सेस करने से रोकना है? कोई दूसरा तरीका, जैसे कि पासवर्ड की मदद से पेज को सुरक्षित रखने का विकल्प अपनाएं.
Googlebot की पुष्टि करना
Googlebot को ब्लॉक करने से पहले, ध्यान रखें कि Googlebot, एचटीटीपी user-agent
अनुरोध के जिस हेडर का इस्तेमाल करता है उसका इस्तेमाल अक्सर दूसरे क्रॉलर धोखा देने के लिए करते हैं. यह पता लगाना ज़रूरी है कि क्या संदिग्ध अनुरोध वाकई Google से ही मिला है. कोई अनुरोध Googlebot से ही मिला है, इसकी पुष्टि करने का सबसे अच्छा तरीका यह है कि आप अनुरोध के सोर्स आईपी पते पर रिवर्स डीएनएस लुकअप का इस्तेमाल करें. इसके अलावा, सोर्स आईपी पते को Googlebot के आईपी पते की रेंज से मैच करके भी, इसकी पुष्टि की जा सकती है.