क्रॉल बजट को ऑप्टिमाइज़ करें

इस गाइड में बताया गया है कि बड़ी और अक्सर अपडेट की जाने वाली साइटों के लिए, Google की क्रॉल करने की प्रोसेस को कैसे मैनेज किया जा सकता है.

अगर आपकी साइट पर, ऐसे ज़्यादा पेज नहीं हैं जो अक्सर अपडेट किए जाते हैं या अगर आपके पेज उसी दिन क्रॉल हो रहे हैं जिस दिन उन्हें पब्लिश किया जाता है, तो यह गाइड आपके लिए नहीं है. खास तौर पर, Google Search के लिए, नियमित तौर पर साइटमैप को अप-टू-डेट रखना और इंडेक्स कवरेज रिपोर्ट देखते रहना काफ़ी है.

यह गाइड किसके लिए है

इस गाइड में दिए गए सुझाव, आम तौर पर सबसे सही तरीके हैं. हालांकि, यह एक ऐडवांस गाइड है. इसका मकसद मुख्य रूप से इन तरह की साइटों के लिए है:

  • 10 लाख से ज़्यादा यूनीक पेजों वाली ऐसी बड़ी साइटें जिनका कॉन्टेंट बहुत जल्दी नहीं बदलता, जैसे कि हफ़्ते में एक बार
  • 10 हज़ार से ज़्यादा यूनीक पेजों वाली ऐसी मीडियम या बड़ी साइटें जिनका कॉन्टेंट बहुत जल्दी अपडेट होता है, जैसे कि हर रोज़
  • ऐसी साइटें जिनके सभी यूआरएल में से काफ़ी सारे यूआरएल को Search Console ने खोजा गया - फ़िलहाल इंडेक्स नहीं किया गया की कैटगरी में रखा है

क्रॉल होने से जुड़ी सामान्य बातें

वेब का दायरा बहुत बड़ा है और Google के लिए, हर यूआरएल को क्रॉल और इंडेक्स कर पाना मुमकिन नहीं है. इसी वजह से, Google के क्रॉलर किसी साइट को क्रॉल करने में कितना समय ले सकते हैं, इसकी कुछ सीमाएं हैं. यहां किसी साइट का मतलब उसके होस्टनेम से है. उदाहरण के लिए, https://www.example.com/ और https://code.example.com/ दो अलग-अलग होस्टनेम हैं. इसलिए, इनके अलग-अलग क्रॉल बजट होते हैं. किसी साइट को क्रॉल करने के लिए, Google जो समय लेता है और जिन रिसॉर्स का इस्तेमाल करता है उन्हें मिलाकर साइट का क्रॉल बजट कहा जाता है. यह बजट, दो मुख्य चीज़ों से तय किया जाता है: क्रॉल करने की क्षमता की सीमा और क्रॉल करने की ज़रूरत.

क्रॉल करने की क्षमता की सीमा

Googlebot आपके सर्वर पर ज़्यादा दबाव डाले बिना ही, आपकी साइट को क्रॉल करने की कोशिश करता है. इसके लिए, Google के क्रॉलर आपकी साइट को क्रॉल करने की क्षमता की सीमा का हिसाब लगाते हैं. क्षमता इस बात से तय की जाती है कि Google किसी साइट को क्रॉल करने के लिए, एक साथ काम करने वाले कितने कनेक्शन का इस्तेमाल कर सकता है. साथ ही, किसी पेज को फ़ेच करने के बाद, दूसरे पेज को फ़ेच करने में कितना समय लगता है. इसका हिसाब इसलिए लगाया जाता है, ताकि आपकी साइट के सर्वर पर दबाव डाले बिना, सभी ज़रूरी कॉन्टेंट को कवरेज दी जा सके.

क्रॉल करने की क्षमता की सीमा, इन वजहों से बढ़ या घट सकती है:

  • क्रॉल की स्थिति: अगर आपकी साइट, कुछ समय के लिए तेज़ी से खुलती है, तो क्रॉल करने की क्षमता की सीमा बढ़ जाती है. इसका मतलब है कि साइट को क्रॉल करने के लिए, ज़्यादा कनेक्शन इस्तेमाल किए जा सकते हैं. अगर साइट धीरे काम करती है या सर्वर की गड़बड़ियां मिलती है, तो क्रॉल दर की सीमा घट जाती है और Googlebot आपकी साइट को कम क्रॉल करता है.
  • साइट को क्रॉल करने के लिए Google की सीमाएं: Google के पास काफ़ी सारी मशीनें हैं, लेकिन इनकी संख्या इतनी भी नहीं है कि सभी साइटों को क्रॉल किया जा सके. अब भी हमें मौजूदा रिसॉर्स में से ही किसी का इस्तेमाल करना होता है.

क्रॉल करने की ज़रूरत

वेब को क्रॉल करने के मामले में, हर क्रॉलर की अपनी "मांग" होती है. उदाहरण के लिए, जब कोई साइट डाइनैमिक विज्ञापन टारगेटिंग का इस्तेमाल करती है, तब आम तौर पर AdsBot की मांग ज़्यादा होती है. Google Shopping में, आपके मर्चेंट फ़ीड में मौजूद प्रॉडक्ट की मांग ज़्यादा होती है. साथ ही, Googlebot की मांग, दूसरी साइटों के मुकाबले आपकी साइट के साइज़, अपडेट होने का अंतराल, साइट कितनी काम की है, और पेज की क्वालिटी के आधार पर अलग-अलग होती है.

आम तौर पर, क्रॉल करने की ज़रूरत तय करने वाली सबसे अहम बातें ये हैं:

  • बताई गई इन्वेंट्री: आपकी मदद के बिना, Google आपकी साइट के ऐसे सभी या ज़्यादातर यूआरएल को क्रॉल करने की कोशिश करता है जिनके बारे में उसे पता है. अगर इनमें से कई यूआरएल डुप्लीकेट हैं या कुछ वजहों (हटाए गए पेज, ग़ैर-ज़रूरी पेज वगैरह) से आपको उन्हें क्रॉल नहीं कराना है, तो इससे आपकी साइट को क्रॉल करने में लगने वाला Google का समय बर्बाद होता है. इसे आसानी से कंट्रोल किया जा सकता है.
  • लोकप्रियता: उन यूआरएल को अक्सर क्रॉल किया जाता है जो इंटरनेट पर ज़्यादा लोकप्रिय होते हैं, ताकि उनके नए वर्शन हमारे सिस्टम में मौजूद रहें.
  • पुरानी जानकारी: हमारे सिस्टम किसी दस्तावेज़ को अक्सर इसलिए क्रॉल करते हैं, ताकि हमें उसमें किए गए बदलावों के बारे में पता चलता रहे.

इसके अलावा, साइट को नए यूआरएल पर ले जाने जैसे मामलों में क्रॉल करने की मांग बढ़ सकती है. ऐसा इसलिए हो सकता है, ताकि साइट के कॉन्टेंट को नए यूआरएल पर फिर से प्रोसेस किया जा सके.

कुल मिलाकर कहें, तो

क्रॉल करने की क्षमता और क्रॉल करने की ज़रूरत, दोनों की मदद से Google किसी साइट का क्रॉल बजट तय करता है. यह बजट, यूआरएल का एक सेट होता है जिसे Google क्रॉल कर सकता है और क्रॉल करना चाहता है. भले ही, क्रॉल करने की क्षमता तय सीमा तक नहीं पहुंचती, लेकिन क्रॉल करने की ज़रूरत घट जाती है, तो Google आपकी साइट को कम बार क्रॉल करेगा.

सबसे सही तरीके

क्रॉल करने की क्षमता को बढ़ाने के लिए, यहां दिए गए सबसे सही तरीके अपनाएं:

  • यूआरएल की इन्वेंट्री को मैनेज करना: सही टूल का इस्तेमाल करके, Google को यह बताएं कि साइट के किन पेजों को क्रॉल करना है और किन पेजों को नहीं. अगर Google को ऐसे यूआरएल को क्रॉल करने में ज़्यादा समय लगता है जिन्हें क्रॉल करने की ज़रूरत नहीं है, तो हो सकता है कि Google के क्रॉलर आपकी साइट के बाकी हिस्से को क्रॉल न करें या आपका क्रॉल बजट न बढ़ाएं.
    • डुप्लीकेट कॉन्टेंट को मिलाकर एक साथ रखना. डुप्लीकेट कॉन्टेंट को हटाएं, ताकि यूनीक यूआरएल को क्रॉल करने की बजाय यूनीक कॉन्टेंट को क्रॉल किया जा सके.
    • robots.txt का इस्तेमाल करके, यूआरएल को क्रॉल किए जाने से रोकना. कुछ पेज उपयोगकर्ताओं के लिए अहम हो सकते हैं, लेकिन यह ज़रूरी नहीं कि आप उन्हें Google के प्लैटफ़ॉर्म पर दिखाना चाहें या Google के सिस्टम से फिर से प्रोसेस कराना चाहें. उदाहरण के लिए, इनफ़ाइनाइट स्क्रोलिंग वाले पेज, जिन पर लिंक किए गए पेजों में मौजूद जानकरी को डुप्लीकेट किया गया है या किसी पेज के अलग-अलग वर्शन. अगर पहले बुलेट पॉइंट में बताए गए तरीके से भी ये पेज एक साथ नहीं आ पा रहे हैं, तो robots.txt का इस्तेमाल करके, खोज के नतीजों के लिए ग़ैर-ज़रूरी पेजों को ब्लॉक करें. यूआरएल को क्रॉल किए जाने से रोकने के लिए, robots.txt का इस्तेमाल करने से Google उन्हें क्रॉल नहीं कर पाता. साथ ही, यूआरएल के इंडेक्स होने की संभावना काफ़ी कम हो जाती है. ऐसा इसलिए, क्योंकि Google के अन्य सिस्टम (जैसे कि Google Search) उन्हें प्रोसेस नहीं कर पाते.
    • हमेशा के लिए हटाए गए पेजों के लिए, 404 या 410 स्टेटस कोड दिखाएं. Google ऐसे किसी भी यूआरएल को नहीं भूलता जिसके बारे में वह जानता है. हालांकि, किसी पेज के लिए 404 स्टेटस कोड दिखाने से Google को पता चल जाता है कि इस यूआरएल को फिर से क्रॉल नहीं करना है. हालांकि, ब्लॉक किए गए यूआरएल आपकी क्रॉल सूची का हिस्सा बने रहेंगे और पाबंदी हटाए जाने के बाद उन्हें फिर से क्रॉल किया जाएगा.
    • soft 404 गड़बड़ियां हटाएं. किसी पेज पर soft 404 दिखाने से उसके क्रॉल होने पर पाबंदी नहीं लगती और इससे आपके क्रॉल बजट पर असर पड़ सकता है. soft 404 गड़बड़ियों के लिए, इंडेक्स कवरेज रिपोर्ट देखें.
    • अपने साइटमैप को अप-टू-डेट रखें. Google, नियमित तौर पर आपका साइटमैप पढ़ता है. इसलिए, आपको जिन कॉन्टेंट को Google से क्रॉल कराना है उन्हें साइटमैप में ज़रूर शामिल करें. अगर आपकी साइट पर अपडेट किया गया कॉन्टेंट मौजूद है, तो हमारा सुझाव है कि आप <lastmod> टैग शामिल करें.
    • दूसरे वेबलिंक पर भेजने वाले लिंक का ज़्यादा इस्तेमाल न करें. इस वजह से क्रॉल करने की प्रोसेस पर गलत असर पड़ सकता है.
  • अपने पेज को इस तरह डिज़ाइन करना कि वे तेज़ी से लोड हो सकें. अगर Google आपके पेज को तेज़ी से लोड और रेंडर कर पाता है, तो हम आपकी साइट का ज़्यादा कॉन्टेंट पढ़ पाएंगे.
  • क्रॉल बजट से जुड़ी समस्याओं को डीबग करना. देखें कि क्रॉल करते समय, आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही. साथ ही, ऐसे तरीके ढूंढें जिनसे आपकी साइट को बेहतर तरीके से क्रॉल किया जा सकता है.

मेरी साइट को ज़्यादा क्रॉल बजट कैसे मिलेगा?

क्रॉल बजट बढ़ाने के दो तरीके हैं:

  • ज़्यादा सर्वर संसाधन जोड़ें: अगर आपकी साइट को क्रॉल नहीं किया जा सकता, क्योंकि आपके सर्वर की क्षमता कम है, तो ज़्यादा सर्वर संसाधन जोड़ें. उदाहरण के लिए, अगर आपको यूआरएल की जांच करने वाले टूल में Hostload ज़्यादा बढ़ गया मैसेज दिख रहा है, तो ज़्यादा सर्वर संसाधन जोड़ें.
  • अपने कॉन्टेंट की क्वालिटी को उस Google प्रॉडक्ट के हिसाब से ऑप्टिमाइज़ करें जिसे टारगेट किया जा रहा है: Google, हर साइट के लिए क्रॉलिंग के संसाधन तय करता है. इसके लिए, वह उन एलिमेंट को ध्यान में रखता है जो किसी खास Google प्रॉडक्ट के लिए काम के होते हैं. उदाहरण के लिए, Google Search के लिए, इसमें लोकप्रियता, उपयोगकर्ताओं के लिए फ़ायदेमंद होना, कॉन्टेंट की खासियत, और सर्विंग कैपेसिटी (ब्राउज़र में वेब पेज खोलने की क्षमता) जैसी चीज़ें शामिल होती हैं.