Google Search में क्रॉल करने पर मिली गड़बड़ियां ठीक करना
यहां Google Search की क्रॉलिंग से जुड़ी समस्याओं को ठीक करने का तरीका बताया गया है:
- देखें कि Googlebot को आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही.
- देखें कि क्या आपकी साइट में ऐसे पेज मौजूद हैं जिन्हें क्रॉल नहीं किया जा रहा है, जबकि उन्हें क्रॉल किया जाना चाहिए.
- देखें कि क्या आपकी साइट के किसी भी हिस्से को उससे ज़्यादा तेज़ी से क्रॉल किया जाना चाहिए जिस तेज़ी से वे अभी क्रॉल किए जा रहे हैं.
- अपनी साइट की क्रॉल होने की क्षमता को बेहतर बनाना.
- अपनी साइट पर ज़रूरत से ज़्यादा क्रॉल करने के अनुरोधों को हैंडल करें.
देखें कि Googlebot को आपकी साइट पर उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी कोई समस्या तो नहीं आ रही
अपनी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) बेहतर करने से आपका क्रॉल बजट नहीं बढ़ेगा. जैसा पहले बताया गया है कि Google आपकी साइट के लिए, क्रॉल की ज़रूरत के हिसाब से सबसे सही क्रॉल दर तय करता है. हालांकि, उपलब्धता से जुड़ी समस्याओं की वजह से, Google आपकी साइट को उतना क्रॉल नहीं कर पाता है जितना उसे करना चाहिए.
गड़बड़ी का पता लगाना:
Googlebot ने आपकी साइट को कब और कितनी बार क्रॉल किया, यह जानने के लिए, क्रॉल करने के बारे में आंकड़ों की रिपोर्ट देखें. इस रिपोर्ट से पता चलता है कि Google को आपकी साइट की उपलब्धता (पेजों को आसानी से खोल पाना) से जुड़ी परेशानी कब हुई थी. अगर आपकी साइट को क्रॉल करते समय, उपलब्धता की गड़बड़ी या चेतावनी मिलती है, तो होस्ट की उपलब्धता वाले ग्राफ़ में इसके उदाहरण देखें. उसमें, Googlebot के अनुरोध लाल रंग की सीमा वाली लाइन से ज़्यादा दिखेंगे. ग्राफ़ पर क्लिक करें और देखें कि कौनसे यूआरएल नहीं खुल रहे थे. इससे यह समझने की कोशिश करें कि इन समस्याओं की वजह से, आपकी साइट पर क्रॉल करने से जुड़ी किस तरह की दिक्कतें आईं.
इसके अलावा, अपनी साइट पर कुछ यूआरएल की जांच करने के लिए, यूआरएल जांचने वाले टूल का भी इस्तेमाल किया जा सकता है. अगर टूल Hostload ज़्यादा बढ़ गया चेतावनी दिखाता है, तो इसका मतलब है कि Googlebot आपकी साइट के उतने यूआरएल क्रॉल नहीं कर सकता जितने की उसे मिले हैं.
हल:
- उपलब्धता से जुड़ी कुछ समस्याओं को ढूंढने और उन्हें ठीक करने के बारे में जानने के लिए, क्रॉल करने के आंकड़ों की रिपोर्ट के बारे में यह दस्तावेज़ पढ़ें.
- जिन पेजों को आप क्रॉल नहीं करवाना चाहते उन्हें ब्लॉक करें. (अपनी इन्वेंट्री मैनेज करना देखें)
- पेज के लोड होने और रेंडर होने की रफ़्तार बढ़ाएं. (अपनी साइट के क्रॉल होने की क्षमता को बेहतर बनाना देखें)
- अपनी सर्वर की क्षमता बढ़ाएं. अगर Google लगातार आपकी साइट को उसकी सर्विंग कैपेसिटी तक क्रॉल करता है, लेकिन आपकी साइट के कुछ अहम यूआरएल अब भी ऐसे हैं जिन्हें ज़रूरत के हिसाब से क्रॉल या अपडेट नहीं किया जा रहा है, तो हो सकता है कि सर्विंग रिसॉर्स बढ़ाने से, Google आपकी साइट के ज़्यादा पेजों को क्रॉल करने लगे. क्रॉल करने के आंकड़ों से जुड़ी रिपोर्ट में जाकर अपने होस्ट की उपलब्धता का इतिहास देखें, ताकि यह पता चल सके कि Google की क्रॉल करने की दर, अपनी सीमा को बार-बार पार तो नहीं कर रही. अगर हां, तो एक महीने के लिए अपने सर्विंग रिसॉर्स बढ़ाएं. साथ ही, देखें कि इस एक महीने में, साइट को क्रॉल करने के अनुरोधों की संख्या बढ़ी है या नहीं.
देखें कि क्या आपकी साइट का कोई ऐसा हिस्सा है जिसे क्रॉल किया जाना चाहिए, लेकिन उसे क्रॉल नहीं किया गया है
अच्छी क्वालिटी और उपयोगकर्ता के लिहाज़ से सभी बेहतर कॉन्टेंट इंडेक्स करने के लिए, Google आपकी साइट पर ज़रूरत के हिसाब से समय बिताता है. अगर आपको लगता है कि Googlebot ने अहम कॉन्टेंट को क्रॉल और इंडेक्स नहीं किया है, तो हो सकता है कि Googlebot आपके कॉन्टेंट के बारे में न जानता हो. ऐसा भी हो सकता है कि Google को कॉन्टेंट देखने से रोका गया हो या साइट की उपलब्धता में समस्या होने की वजह से, Google उसे ऐक्सेस न कर पा रहा हो (या Google आपकी साइट पर ज़्यादा दबाव न डालने की कोशिश कर रहा हो).
गड़बड़ी का पता लगाना:
Search Console आपकी साइट के लिए, क्रॉल होने का ऐसा इतिहास नहीं दिखाता जिसे यूआरएल या पाथ के हिसाब से फ़िल्टर किया जा सके. हालांकि, अपनी साइट के लॉग पर जाकर, यह देखा जा सकता है कि किसी यूआरएल को Googlebot ने क्रॉल किया है या नहीं. क्रॉल किए गए ये यूआरएल इंडेक्स किए गए हैं या नहीं, यह जानने की प्रोसेस अलग है.
ध्यान रखें कि ज़्यादातर साइटों के नए पेजों को क्रॉल करने में कुछ दिन लगते है. ज़्यादातर साइटों के लिए ये उम्मीद भी नहीं की जाती कि उनके यूआरएल को उसी दिन क्रॉल कर लिया जाएगा जिस दिन नए पेज बनाए गए हों. ऐसा सिर्फ़ समय के लिहाज़ से संवेदनशील साइटों के लिए किया जाता है, जैसे कि समाचार वाली साइटें.
हल:
अगर अपनी साइट में पेज जोड़े जा रहे हैं और उन्हें काफ़ी समय बाद भी क्रॉल नहीं किया गया है, तो हो सकता है कि Google को उनके बारे में पता न चला हो. यह भी हो सकता है कि कॉन्टेंट पर पाबंदी लगी हो, आपकी साइट की सर्विंग कैपेसिटी खत्म हो गई हो या आपके पास क्रॉल बजट न बचा हो.
- Google को अपने नए पेजों के बारे में बताएं: अपने नए यूआरएल के बारे में बताने के लिए साइटमैप अपडेट करें.
- अपने robots.txt के निर्देशों की जांच करें और देखें कि कहीं आपने गलती से पेजों पर पाबंदी तो नहीं लगा दी है.
- क्रॉल करने की प्राथमिकताओं की समीक्षा करें (मतलब अपने क्रॉल बजट का सोच-समझकर इस्तेमाल करें). अपनी इन्वेंट्री मैनेज करें और अपनी साइट की क्रॉल होने की क्षमता बढ़ाएं.
- देख लें कि आपकी साइट की सर्विंग क्षमता खत्म न हो गई हो. अगर Googlebot को लगता है कि आपके सर्वर को, क्रॉल करने के अनुरोध का रिस्पॉन्स देने में परेशानी आ रही है, तो Googlebot उसे बाद में क्रॉल करेगा.
ध्यान दें कि अगर उपयोगकर्ता की किसी कॉन्टेंट में दिलचस्पी नहीं हैं या वह किसी कॉन्टेंट को नहीं देखना चाहता है, तो हो सकता है कि क्रॉल किए जाने के बावजूद, खोज के नतीजों में ऐसे कॉन्टेंट वाले पेज न दिखें.
देखें कि पेजों में किए गए बदलावों को तेज़ी से क्रॉल किया गया है या नहीं
अगर हम आपकी साइट के नए या अपडेट किए गए पेजों को क्रॉल नहीं कर पा रहे हैं, तो हो सकता है कि हम उन पेजों को न देख पाए हों या हमें पता न चला हो कि उन्हें अपडेट किया गया है. जानें कि पेजों में किए गए अपडेट के बारे में हमें कैसे बताया जा सकता है.
ध्यान दें कि Google कोशिश करता है कि वह समय-समय पर पेजों की जांच करे और उन्हें समय पर इंडेक्स में शामिल करे. ज़्यादातर साइटों के मामले में Google, तीन या तीन से ज़्यादा दिनों में पेजों की जांच करता है. इस बात की उम्मीद न करें कि Google उसी दिन आपके पेज को इंडेक्स कर लेगा जिस दिन उसे प्रकाशित किया गया है. ऐसा सिर्फ़ समाचार वाली साइटों या ऐसी साइटों के लिए किया जाता है जिनका कॉन्टेंट समय पर लोगों तक पहुंच जाना चाहिए.
गड़बड़ी का पता लगाना:
यह देखने के लिए अपनी साइट के लॉग देखें कि किसी यूआरएल को Googlebot ने क्रॉल किया है या नहीं.
इंडेक्स होने की तारीख जानने के लिए, यूआरएल जांचने वाले टूल का इस्तेमाल करें. इसके अलावा, अपडेट किए गए यूआरएल के लिए खोज करें.
हल:
यह करें:
- अगर आपकी साइट पर समाचार से जुड़ा कॉन्टेंट है, तो समाचार साइटमैप का इस्तेमाल करें.
- इंडेक्स किया गया यूआरएल कब अपडेट किया गया है, यह बताने के लिए साइटमैप में
<lastmod>टैग का इस्तेमाल करें. - यूआरएल के लिए क्रॉल किए जाने वाला स्ट्रक्चर इस्तेमाल करें, ताकि Google आपके पेज को ढूंढ पाए.
- स्टैंडर्ड और क्रॉल किए जा सकने वाले
<a>लिंक दें, ताकि Google आपके पेज ढूंढ पाए. - अगर आपकी साइट में, मोबाइल और डेस्कटॉप वर्शन के लिए अलग-अलग एचटीएमएल का इस्तेमाल किया जाता है, तो मोबाइल वर्शन पर भी वही लिंक सेट करें जो आपने डेस्कटॉप वर्शन पर किए हैं. अगर मोबाइल वर्शन पर लिंक का वही सेट उपलब्ध नहीं कराया जा सकता, तो पक्का करें कि वे साइटमैप फ़ाइल में शामिल हों. Google, सिर्फ़ पेजों के मोबाइल वर्शन को इंडेक्स करता है. साथ ही, वहां दिखाए गए लिंक को सीमित करने से, नए पेजों को खोजने में ज़्यादा समय लग सकता है.
ऐसा करने से बचें:
- हर रोज़ वही और बिना बदलाव वाला साइटमैप एक से ज़्यादा बार सबमिट करना.
- यह उम्मीद करना कि Googlebot साइटमैप में दिया गया हर कॉन्टेंट क्रॉल करेगा या तुरंत क्रॉल करेगा. साइटमैप से Googlebot को काम के सुझाव तो मिलते हैं, लेकिन ये ज़रूरी नहीं होते.
- साइटमैप में ऐसे यूआरएल शामिल करना जिन्हें आप Search के नतीजों में नहीं दिखाना चाहते हैं. इससे आपका क्रॉल बजट ऐसे पेजों पर खर्च हो जाता है जिन्हें आपको इंडेक्स नहीं कराना है.
अपनी साइट की क्रॉल होने की क्षमता को बढ़ाना
अपने पेज के लोड होने की रफ़्तार बढ़ाना
Google की क्रॉल करने की प्रोसेस पर बैंडविड्थ, समय, और Googlebot के इंस्टेंस की उपलब्धता का असर पड़ता है. अगर आपका सर्वर, क्रॉल करने के अनुरोध का तेज़ी से रिस्पॉन्स देता है, तो हो सकता है कि हम आपकी साइट के ज़्यादा पेज क्रॉल कर पाएं. इसका यह भी मतलब है कि Google सिर्फ़ अच्छी क्वालिटी का कॉन्टेंट क्रॉल करना चाहता है, इसलिए कम क्वालिटी वाले पेजों के लोड होने की रफ़्तार बढ़ाने से Googlebot, आपकी साइट के ज़्यादा पेज क्रॉल नहीं करेगा. अगर हमें लगता है कि हम आपकी साइट के अच्छी क्वालिटी वाले कॉन्टेंट को क्रॉल नहीं कर पा रहे हैं, तो हम उस कॉन्टेंट को क्रॉल करने के लिए आपका बजट बढ़ा सकते हैं.
जानें कि आप अपने पेजों और रिसॉर्स को क्रॉल होने के लिए कैसे ऑप्टिमाइज़ कर सकते हैं:
- robots.txt के इस्तेमाल से Googlebot पर बड़े, लेकिन ग़ैर-ज़रूरी रिसॉर्स को लोड होने से रोकें. ध्यान रखें कि आपको सिर्फ़ ग़ैर-ज़रूरी रिसॉर्स पर रोक लगानी है. ऐसे रिसॉर्स जिनका इस्तेमाल पेज के बारे में जानने के लिए नहीं किया जाता, जैसे कि पेज को सुंदर बनाने के लिए जोड़ी गई इमेज.
- पक्का करें कि आपके पेज तेज़ी से लोड होते हैं.
- दूसरे वेबलिंक पर भेजने वाले उन लिंक का ज़्यादा इस्तेमाल न करें जिनकी वजह से क्रॉल होने की प्रोसेस पर गलत असर पड़ सकता है.
- सर्वर के अनुरोधों का जवाब देने में लगने वाला समय और पेज के रेंडर होने में लगने वाला समय, दोनों ही मायने रखते हैं. इनमें इमेज और स्क्रिप्ट जैसे एम्बेड किए गए रिसॉर्स का लोड होना और चलना भी शामिल है. ध्यान रखें कि इंडेक्स करने के लिए बड़े या धीरे लोड होने वाले रिसॉर्स, क्रॉल दर को कम कर सकते हैं.
एचटीटीपी स्टेटस कोड का इस्तेमाल करके, कॉन्टेंट में किए गए बदलावों के बारे में बताना
Google पर, क्रॉल करने के लिए If-Modified-Since और If-None-Match एचटीटीपी अनुरोध के हेडर इस्तेमाल किए जा सकते हैं. Google के क्रॉलर, क्रॉल करने की सभी कोशिशों के साथ हेडर नहीं भेजते. ऐसा अनुरोध के इस्तेमाल के तरीके पर निर्भर होता है. उदाहरण के लिए, AdsBot, If-Modified-Since और If-None-Match एचटीटीपी अनुरोध के हेडर सेट कर सकता है. अगर हमारे क्रॉलर If-Modified-Since हेडर भेजते हैं, तो हेडर की वैल्यू तारीख और समय होती है, जब कॉन्टेंट को पिछली बार क्रॉल किया गया था. इस वैल्यू के आधार पर, सर्वर 304 (Not Modified) एचटीटीपी स्टेटस कोड दिखा सकता है. इस कोड के लिए जवाब का कोई मुख्य हिस्सा नहीं मिलता. ऐसे में Google, कॉन्टेंट के उस वर्शन को फिर से इस्तेमाल करेगा जिसे उसने पिछली बार क्रॉल किया था. अगर कॉन्टेंट, If-Modified-Since हेडर में दी गई तारीख से नया है, तो सर्वर जवाब के मुख्य हिस्से के साथ 200 (OK) एचटीटीपी स्टेटस कोड दिखा सकता है.
अगर यूआरएल पर पिछली बार Googlebot के जाने के बाद कॉन्टेंट को नहीं बदला गया है, तो Googlebot के किसी भी अनुरोध के लिए जवाब के मुख्य हिस्से के बिना 304 (Not Modified) एचटीटीपी स्टेटस कोड भेजा जा सकता है. इस दौरान अनुरोध के हेडर नज़रअंदाज़ किए जा सकते हैं. इससे, सर्वर प्रोसेस करने में लगने वाला समय और रिसॉर्स बचेंगे. इससे क्रॉल करने की क्षमता में सुधार हो सकता है.
जिन यूआरएल को खोज के नतीजों में नहीं दिखाना है उन्हें छिपाना
ग़ैर-ज़रूरी पेजों पर सर्वर के रिसॉर्स बर्बाद करने से, ऐसे पेजों पर क्रॉल करने की गतिविधि कम हो सकती है जो आपके लिए अहम हैं. इससे, आपकी साइट पर मौजूद अच्छी क्वालिटी वाला नया या अपडेट किया गया कॉन्टेंट ढूंढने में ज़्यादा समय लग सकता है.
आपको अपनी साइट के जिन यूआरएल को Search के नतीजों के लिए क्रॉल नहीं करवाना उन्हें दिखाने से साइट के क्रॉल और इंडेक्स होने पर बुरा असर पड़ सकता है. आम तौर पर, ये यूआरएल इन श्रेणियों में आते हैं:
- वेबसाइट पर फ़िल्टर लगाकर खोजना और सेशन आइडेंटिफ़ायर: वेबसाइट पर फ़िल्टर लगाकर खोजना, आम तौर पर किसी साइट का डुप्लीकेट कॉन्टेंट होता है. सेशन आइडेंटिफ़ायर और दूसरे यूआरएल पैरामीटर, ऐसे पेज को फ़िल्टर और क्रम से लगाते हैं करते हैं जिन पर नया कॉन्टेंट नहीं डाला जाता. वेबसाइट पर फ़िल्टर लगाकर खोजे गए पेजों की क्रॉलिंग को मैनेज करने का तरीका जानें.
- डुप्लीकेट कॉन्टेंट: डुप्लीकेट कॉन्टेंट को पहचानने में Google की मदद करें, ताकि Google बेवजह इस तरह के कॉन्टेंट को क्रॉल न करे.
soft 404वाले पेज: अगर कोई पेज आपकी साइट पर अब मौजूद नहीं है, तो उसके लिए404वाला कोड दिखाएं.- हैक किए गए पेज: सुरक्षा से जुड़ी समस्याओं की रिपोर्ट देखें और हैक किए गए पेजों को ठीक करें या उन्हें हटाएं.
- पुराने कॉन्टेंट वाले कई सारे लिंक और प्रॉक्सी: robots.txt का इस्तेमाल करके इन्हें क्रॉल होने से रोकें.
- हल्की क्वालिटी और स्पैम वाला कॉन्टेंट: इनके इस्तेमाल से बचें.
- शॉपिंग कार्ट वाले पेज, इनफ़ाइनाइट स्क्रोलिंग वाले पेज, और कार्रवाई (जैसे, "साइन अप" या "अभी खरीदें") वाले पेज.
यह करें:
- अगर आपको लगता है कि Google को किसी पेज या रिसॉर्स को क्रॉल नहीं करना चाहिए, तो robots.txt का इस्तेमाल करें.
- अगर किसी रिसॉर्स का इस्तेमाल एक से ज़्यादा पेजों (जैसे, शेयर की गई इमेज या JavaScript फ़ाइल) पर किया गया है, तो हर पेज में एक ही यूआरएल से उस रिसॉर्स के बारे में बताएं. ऐसा करना इसलिए ज़रूरी है, ताकि Google उस रिसॉर्स को कैश मेमोरी में सेव कर ले और फिर से उसका इस्तेमाल कर सके. इससे Google को एक से ज़्यादा पेजों पर उसी रिसॉर्स को बार-बार क्रॉल करने का अनुरोध नहीं करना पड़ेगा.
ऐसा करने से बचें:
- अपनी साइट के क्रॉल बजट को फिर से बढ़ाने के लिए, robots.txt फ़ाइल में पेजों या डायरेक्ट्री को नियमित रूप से न जोड़ें और न ही हटाएं. robots.txt का इस्तेमाल, सिर्फ़ ऐसे पेजों या रिसॉर्स को ब्लॉक करने के लिए करें जिन्हें आपको लंबे समय तक Google पर नहीं देखना है.
- बजट को फिर से बढ़ाने के लिए, साइटमैप में लगातार बदलाव न करें. साथ ही, कुछ समय के लिए रिसॉर्स छिपाने के तरीकों का इस्तेमाल न करें.
soft 404 गड़बड़ियां
soft 404 गड़बड़ी एक यूआरएल है, जो लोगों को एक ऐसे पेज पर ले जाता है जहां 'यह पेज मौजूद नहीं है' लिखा हो.
इसके अलावा, इस पेज पर
200 (success)
स्टेटस कोड भी दिखता है. कुछ मामलों में, यह गड़बड़ी एक ऐसा पेज हो सकती है जो खाली हो या जिस पर कोई खास कॉन्टेंट मौजूद न हो.
इस तरह के पेजों को, आपकी वेबसाइट के वेब सर्वर या कॉन्टेंट मैनेजमेंट सिस्टम या लोगों के ब्राउज़र कई वजहों से जनरेट कर सकते हैं. उदाहरण के लिए:
- सर्वर-साइड इन्क्लूड (एसएसआई) फ़ाइल मौजूद न होने पर.
- डेटाबेस से कनेक्शन टूट जाने पर.
- खोज के नतीजों का अंदरूनी पेज खाली होने पर.
- JavaScript फ़ाइल अनलोड होने या मौजूद न होने पर.
उपयोगकर्ता को 200 (success) स्टेटस कोड दिखाने से उन्हें खराब अनुभव मिलता है. हालांकि, ऐसा होने पर उन्हें गड़बड़ी का मैसेज दिखाया जा सुझाया जा सकता है. इसके अलावा, पेज पर किसी तरह की गड़बड़ी दिखाई जा सकती है. उपयोगकर्ताओं को ऐसा लग सकता है कि वह पेज एक लाइव पेज है जो असल में काम करता है, लेकिन उन्हें किसी गड़बड़ी के साथ दिखाया जाता है. ऐसे पेजों को Search
में शामिल नहीं किया जाता है.
जब पेज पर मौजूद कॉन्टेंट के आधार पर Google के एल्गोरिदम को पता चलता है कि असल में यह गड़बड़ी वाला पेज है,
तो Search Console, साइट की पेज को इंडेक्स करने के बारे में जानकारी देने वाली रिपोर्ट में पेज की soft 404 गड़बड़ी की जानकारी दिखाता है.
soft 404 की गड़बड़ियां ठीक करना
soft 404 गड़बड़ियों को ठीक करने के कई तरीके हैं. आपके पेज का स्टेटस क्या है और आपको किस तरह के बदलाव करने हैं, इसके आधार पर इनमें से कोई तरीका चुना जा सकता है:
- पेज और कॉन्टेंट अब मौजूद नहीं है.
- पेज या कॉन्टेंट को अब किसी दूसरी जगह पर ले जाया गया है.
- पेज और कॉन्टेंट अब भी मौजूद है.
पता लगाएं कि आपके उपयोगकर्ताओं के लिए इनमें से कौनसा तरीका सबसे अच्छा रहेगा.
पेज और कॉन्टेंट अब मौजूद नहीं है
अगर आपने अपना पेज हटा दिया है और आपकी साइट पर ऐसा कोई दूसरा पेज मौजूद नहीं है जिसका कॉन्टेंट हटाए गए पेज के कॉन्टेंट से मेल खाता हो, तो उपयोगकर्ताओं को पेज पर 404 (not found) या 410 (gone) रिस्पॉन्स (स्टेटस) कोड दिखाएं. इन स्टेटस कोड से सर्च इंजन को यह पता चलता है कि पेज मौजूद नहीं है और आपको सर्च इंजन से पेज को इंडेक्स नहीं कराना है.
अगर आपके पास अपने सर्वर की कॉन्फ़िगरेशन फ़ाइलों का ऐक्सेस है, तो आप गड़बड़ी वाले पेजों को उपयोगी बनाने के लिए, उन्हें उपयोगकर्ताओं के हिसाब से बना सकते हैं. एक अच्छे कस्टम 404 पेज से लोगों को वह जानकारी पाने में मदद मिलेगी जिसे वे खोज रहे हैं. साथ ही, इस पर किसी भी तरह का उपयोगी कॉन्टेंट देने से, लोगों के आपकी साइट को ज़्यादा एक्सप्लोर करने की संभावना बढ़ जाएगी. इस्तेमाल किए जाने वाले कस्टम 404 पेज डिज़ाइन करने के लिए यहां कुछ सलाह दी गई है:
- वेबसाइट पर आने वाले लोगों को साफ़ तौर पर बताएं कि वे जो पेज खोज रहे हैं वह मौजूद नहीं है. ऐसी भाषा का इस्तेमाल करें जो लोगों को समझ आए और उनका ध्यान खींचे.
-
पक्का करें कि आपका
404पेज, दिखने और इस्तेमाल करने में आपकी साइट के बाकी पेजों के जैसा ही हो. इसमें, नेविगेशन भी शामिल है. - इस पेज पर, अपने सबसे लोकप्रिय लेखों या पोस्ट के लिंक दें. इनके अलावा, अपनी साइट के होम पेज का लिंक भी दें.
- उपयोगकर्ताओं को टूटी हुई लिंक की रिपोर्ट करने की सुविधा प्रदान करने के बारे में भी सोचें.
कस्टम 404 पेज सिर्फ़ उपयोगकर्ताओं के लिए बनाए जाते हैं. सर्च इंजन के लिए ये पेज किसी काम के नहीं होते हैं. इसलिए, यह पक्का करें कि सर्वर 404 एचटीटीपी स्टेटस कोड दिखाए, ताकि इन पेजों को इंडेक्स होने से रोका जा सके.
पेज या कॉन्टेंट को अब किसी दूसरी साइट पर ले जाया गया है
अगर आपके पेज को किसी दूसरी साइट पर ले जाया गया है या उसके बदले कोई और पेज तैयार किया गया है, तो उपयोगकर्ता को दूसरे यूआरएल पर रीडायरेक्ट करने के लिए 301 (permanent redirect) दिखाएं. ऐसा करने से, उपयोगकर्ता के ब्राउज़िंग अनुभव में कोई रुकावट नहीं आएगी. साथ ही, सर्च इंजन को अपने पेज के नए यूआरएल के बारे में बताने का यह एक अच्छा तरीका है. आपका यूआरएल सही कोड दिखा रहा है या नहीं, इसकी पुष्टि करने के लिए, यूआरएल जांंचने वाले टूल का इस्तेमाल करें.
पेज और कॉन्टेंट अब भी मौजूद है
ऐसा हो सकता है कि कोई पेज मौजूद हो और उसे soft 404 गड़बड़ी के साथ फ़्लैग किया गया हो. ऐसा तब होता है, जब Googlebot ने उसे क्रॉल किया हो और वह ठीक से लोड न हुआ हो. इसके अलावा, रेंडर किए जाने के दौरान किसी ज़रूरी रिसॉर्स के मौजूद न होने या अहम गड़बड़ी वाला कोई मैसेज दिखाने की वजह से भी यह समस्या आ सकती है. रेंडर किए गए कॉन्टेंट और दिखाए गए एचटीटीपी कोड की जांच करने के लिए, यूआरएल जांचने वाले टूल का इस्तेमाल करें. अगर रेंडर किया गया पेज खाली है,
उस पर बहुत कम कॉन्टेंट मौजूद है या पेज पर मौजूद कॉन्टेंट में गड़बड़ी का मैसेज है, तो हो सकता है कि आपके पेज में
कई ऐसे रिसॉर्स हों जिन्हें लोड नहीं किया जा सकता. इन रिसॉर्स में, इमेज, स्क्रिप्ट, और बिना टेक्स्ट वाले अन्य एलिमेंट शामिल हैं.
ऐसे में, पेज पर soft 404 गड़बड़ी दिख सकती है.
रिसॉर्स लोड न होने की कई वजह हो सकती हैं. जैसे, रिसॉर्स को
robots.txt की मदद से ब्लॉक किया जाना,
पेज पर बहुत ज़्यादा रिसॉर्स मौजूद होना, सर्वर की अलग-अलग तरह की गड़बड़ियां या पेज का देर से लोड होना या रिसॉर्स का बहुत बड़ा होना.
अपनी साइट पर क्रॉल करने के बहुत ज़्यादा अनुरोधों को हैंडल करना (आपातकालीन स्थिति)
Googlebot एल्गोरिदम का इस्तेमाल करता है, ताकि आपकी साइट पर क्रॉल करने के अनुरोधों से दबाव न पड़े. हालांकि, अगर आपको लगता है कि Googlebot आपकी साइट को नुकसान पहुंचा रहा है, तो ये काम किए जा सकते हैं.
गड़बड़ी का पता लगाना:
अपनी साइट पर Googlebot के ज़्यादा अनुरोधों के लिए अपने सर्वर की निगरानी करें.
हल:
हमारा सुझाव है कि आपातकालीन स्थिति में, आप Googlebot के क्रॉल करने के अनुरोधों को कम करने के लिए इन तरीकों का इस्तेमाल करें:
- जब आपके सर्वर पर दबाव पड़ने लगे, तब कुछ समय के लिए Googlebot के अनुरोधों के जवाब में,
503या429एचटीटीपी नतीजों का स्टेटस कोड दिखाएं. Googlebot करीब दो दिनों तक, इन यूआरएल को क्रॉल करने के अनुरोध करेगा. ध्यान दें कि ज़्यादा दिनों तक "उपलब्ध नहीं है" कोड दिखाने से, Google आपकी साइट पर यूआरएल को कम क्रॉल करेगा या क्रॉल करना बंद कर देगा. इसलिए, आगे बताया गया तरीका अपनाएं. -
जब क्रॉल दर कम हो जाए, तब क्रॉल करने के अनुरोधों के लिए
503या429एचटीटीपी रिस्पॉन्स स्टेटस कोड दिखाना बंद कर दें; जिन यूआरएल के लिए503या429दिखेगा, Google अपने इंडेक्स से उनको हटा देगा. - समय के साथ अपनी साइट के क्रॉल होने और होस्ट की क्षमता पर नज़र रखें.
- अगर समस्या वाला क्रॉलर, कोई AdsBot क्रॉलर है, तो इसका मतलब है कि आपने अपनी साइट के लिए डाइनैमिक सर्च विज्ञापन वाले टारगेट बनाए हैं, जिन्हें Google क्रॉल करने की कोशिश कर रहा है. यह हर तीन हफ़्तों में क्रॉल होगा. अगर आपके सर्वर पर, इन क्रॉल को हैंडल करने की क्षमता नहीं है, तो आपको अपने विज्ञापन के टारगेट सीमित करने होंगे या फिर सर्विंग कैपेसिटी बढ़ानी होगी.