robots.txt फ़ाइल लिखने और सबमिट करने का तरीका

robots.txt फ़ाइल का इस्तेमाल करके, यह तय किया जा सकता है कि क्रॉलर आपकी साइट पर किन फ़ाइलों को ऐक्सेस करें.

robots.txt फ़ाइल आपकी साइट के रूट में होती है. इस वजह से, www.example.com साइट के लिए, robots.txt फ़ाइल www.example.com/robots.txt में मौजूद होती है. robots.txt, सादे लेख वाली ऐसी फ़ाइल है जो रोबोट एक्सक्लूज़न स्टैंडर्ड के मुताबिक होती है. robots.txt फ़ाइल में एक या एक से ज़्यादा नियम होते हैं. हर नियम, किसी खास या सभी क्रॉलर को डोमेन या सबडोमेन पर किसी खास फ़ाइल पाथ के ऐक्सेस की अनुमति देता है या उसे ब्लॉक करता है. यह वह डोमेन या सबडोमेन होता है जहां robots.txt फ़ाइल होस्ट की गई होती है. आम तौर पर, साइट पर डिफ़ॉल्ट रूप से सभी फ़ाइलें क्रॉल की जाती हैं. ऐसा तब तक होता है, जब तक आप robot.txt फ़ाइल में इस पर रोक न लगा दें.

यहां दो नियमों वाली एक सामान्य robots.txt फ़ाइल दी गई है:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml

यहां बताया गया है कि robots.txt फ़ाइल का क्या मतलब है:

  1. https://example.com/nogooglebot/ से शुरू होने वाले किसी भी यूआरएल को, Googlebot नाम का उपयोगकर्ता एजेंट क्रॉल नहीं कर सकता.
  2. बाकी सभी उपयोगकर्ता एजेंट, पूरी साइट को क्रॉल कर सकते हैं. इसे robots.txt फ़ाइल में शामिल नहीं करने पर भी नतीजा यही होता है. डिफ़ॉल्ट रूप से सभी उपयोगकर्ता एजेंट, पूरी साइट क्रॉल कर सकते हैं.
  3. इस साइट की साइटमैप फ़ाइल, https://www.example.com/sitemap.xml पर मौजूद है.

इससे जुड़े और उदाहरणों के लिए, सिंटैक्स सेक्शन देखें.

robots.txt फ़ाइल बनाने से जुड़े बुनियादी दिशा-निर्देश

इन चार चरणों में ऐसी robots.txt फ़ाइल बनाई जा सकती है जिसे सभी ऐक्सेस कर सकें और जो सबके लिए उपयोगी हो:

  1. robots.txt फ़ाइल बनाना.
  2. robots.txt फ़ाइल में नियम जोड़ें.
  3. robots.txt फ़ाइल को अपनी साइट के रूट में अपलोड करें.
  4. robots.txt फ़ाइल की जांच करें.

robots.txt फ़ाइल बनाना

robots.txt फ़ाइल बनाने के लिए, तकरीबन सभी टेक्स्ट एडिटर का इस्तेमाल किया जा सकता है. उदाहरण के लिए, Notepad, TextEdit, vi, और emacs जैसे टेक्स्ट एडिटर का इस्तेमाल करके, मान्य robots.txt फ़ाइलें बनाई जा सकती हैं. किसी वर्ड प्रोसेसर का इस्तेमाल न करें. वर्ड प्रोसेसर अक्सर अपने फ़ॉर्मैट में ही फ़ाइलें सेव करते हैं. ये प्रोसेसर, कर्ली कोट (“ ”) जैसे अनचाहे वर्ण भी जोड़ सकते हैं. इनसे क्रॉलर को, क्रॉल करते समय परेशानियां हो सकती हैं. अगर फ़ाइल सेव करने के दौरान आपको मैसेज दिखता है कि फ़ाइल को UTF-8 कोड में बदलकर सेव करें, तो ऐसा ही करें.

फ़ॉर्मैट और जगह से जुड़े नियम:

  • फ़ाइल का नाम robots.txt होना चाहिए.
  • आपकी साइट में सिर्फ़ एक robots.txt फ़ाइल हो सकती है.
  • robots.txt फ़ाइल उस साइट होस्ट के रूट में मौजूद होनी चाहिए जिस पर वह लागू होती है. उदाहरण के लिए, https://www.example.com/ के नीचे दिए गए सभी यूआरएल की क्रॉलिंग को कंट्रोल करने के लिए, robots.txt फ़ाइल https://www.example.com/robots.txt में मौजूद होनी चाहिए. इसे किसी दूसरी सबडायरेक्ट्री (उदाहरण के लिए, https://example.com/pages/robots.txt) में नहीं रखा जा सकता. अगर आपको नहीं पता कि अपनी साइट के रूट को कैसे ऐक्सेस करना है या इसके लिए आपको अनुमतियों की ज़रूरत है, तो वेब होस्टिंग की सेवा देने वाली कंपनी से संपर्क करें. साइट के रूट को ऐक्सेस नहीं कर पाने पर, क्रॉलिंग रोकने के लिए meta टैग जैसे किसी दूसरे तरीके का इस्तेमाल करें.
  • किसी robots.txt फ़ाइल को सबडोमेन (उदाहरण के लिए, https://site.example.com/robots.txt) या नॉन-स्टैंडर्ड पोर्ट (उदाहरण के लिए, https://example.com:8181/robots.txt) पर पोस्ट किया जा सकता है.
  • robots.txt फ़ाइल, होस्ट, पोर्ट, और प्रोटोकॉल में मौजूद सिर्फ़ उन ही पाथ पर लागू होती है, जिनमें उसे पोस्ट किया जाता है. इसका मतलब यह है कि https://example.com/robots.txt के नियम, सिर्फ़ https://example.com/ में मौजूद फ़ाइलों पर लागू होते हैं. वे https://m.example.com/ जैसे सबडोमेन या http://example.com/ जैसे अन्य प्रोटोकॉल पर लागू नहीं होते हैं.
  • यह ज़रूरी है कि किसी robots.txt फ़ाइल को UTF-8 कोड वाली टेक्स्ट फ़ाइल में बदला गया हो. इसमें ASCII कोड भी शामिल होते हैं. Google उन वर्णों को अनदेखा कर सकता है जो UTF-8 रेंज का हिस्सा नहीं हैं. ऐसा होने पर, robots.txt फ़ाइल के नियम अमान्य हो सकते हैं.

robots.txt फ़ाइल के नियम लिखने का तरीका

नियम, क्रॉलर के लिए निर्देश होते हैं. इनसे यह तय होता है कि वे आपकी साइट के किन हिस्सों को क्रॉल कर सकते हैं. अपनी robots.txt फ़ाइल में नियम जोड़ते समय इन दिशा-निर्देशों का पालन करें:

  • robots.txt फ़ाइल में एक या एक से ज़्यादा ग्रुप (नियमों का सेट) होते हैं.
  • हर ग्रुप में कई नियम होते हैं (जिन्हें डायरेक्टिव भी कहा जाता है). हर लाइन में एक नियम होता है. हर ग्रुप, एक User-agent लाइन से शुरू होता है, जिससे ग्रुप का टारगेट तय होता है.
  • ग्रुप में यह जानकारी दिखेगी:
    • ग्रुप किस उपयोगकर्ता एजेंट पर लागू होता है.
    • वह एजेंट कौनसी डायरेक्ट्री या फ़ाइलें ऐक्सेस कर सकता है.
    • वह एजेंट कौनसी डायरेक्ट्री या फ़ाइलें ऐक्सेस नहीं कर सकता है.
  • क्रॉलर, ग्रुप को ऊपर से नीचे की ओर प्रोसेस करते हैं. कोई भी उपयोगकर्ता एजेंट, सिर्फ़ एक नियम सेट से मेल खा सकता है. यह नियम सेट, दिए गए उपयोगकर्ता एजेंट से सबसे ज़्यादा मेल खाने वाला पहला नियम सेट होता है. अगर एक ही उपयोगकर्ता एजेंट के लिए कई ग्रुप हैं, तो प्रोसेसिंग से पहले उन ग्रुप को एक ही ग्रुप बना दिया जाएगा.
  • डिफ़ॉल्ट रूप से, ऐसा माना जाता है कि कोई उपयोगकर्ता एजेंट, किसी भी ऐसे पेज या डायरेक्ट्री को क्रॉल कर सकता है जिस पर क्रॉलिंग रोकने के लिए, disallow नियम लागू न किया गया हो.
  • नियम, केस-सेंसिटिव (बड़े और छोटे अक्षरों में अंतर) होते हैं. उदाहरण के लिए, disallow: /file.asp, https://www.example.com/file.asp पर लागू होता है, लेकिन https://www.example.com/FILE.asp पर नहीं.
  • किसी भी टिप्पणी की शुरुआत में, # वर्ण लगा होता है. प्रोसेस करने के दौरान, टिप्पणियों को अनदेखा कर दिया जाता है.

Google के क्रॉलर, robots.txt फ़ाइलों में यहां बताए गए नियमों के हिसाब से काम करते हैं:

  • user-agent: [हर ग्रुप के लिए, एक या एक से ज़्यादा नियम की ज़रूरत होती है] नियम की मदद से, उस ऑटोमैटिक क्लाइंट का नाम पता चलता है जिस पर यह नियम लागू होता है. ऑटोमैटिक क्लाइंट को सर्च इंजन के क्रॉलर के तौर पर जाना जाता है. यह किसी भी नियम के ग्रुप की पहली लाइन होती है. Google के उपयोगकर्ता एजेंट के नाम, Google के उपयोगकर्ता एजेंट की सूची में दिए गए हैं. तारे के निशान (*) का इस्तेमाल करने पर, यह AdsBot क्रॉलर छोड़कर, सभी क्रॉलर दिखाएगा. AdsBot क्रॉलर को देखने के लिए, उनके नाम अलग से लिखने होंगे. उदाहरण के लिए:
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
    User-agent: *
    Disallow: /
  • disallow: [हर नियम में कम से कम एक या एक से ज़्यादा disallow या allow की एंट्री] रूट डोमेन से जुड़ी डायरेक्ट्री या पेज, जिसे उपयोगकर्ता एजेंट से क्रॉल नहीं कराना है. अगर यह नियम किसी पेज के बारे में है, तो इसका पूरा नाम वैसा ही होना चाहिए जैसा ब्राउज़र में दिखता है. यह / वर्ण से शुरू होना चाहिए. साथ ही, अगर यह नियम किसी डायरेक्ट्री के बारे में है, तो इसका नाम / के निशान के साथ खत्म होना चाहिए.
  • allow: [हर नियम में एक या एक से ज़्यादा disallow या allow की एंट्री] रूट डोमेन से जुड़ी ऐसी डायरेक्ट्री या पेज, जिसे अभी बताए गए उपयोगकर्ता एजेंट से क्रॉल कराया जा सकता है. इसका इस्तेमाल disallow डायरेक्टिव को बदलने के लिए किया जाता है. इससे, क्रॉल करने से रोकी गई डायरेक्ट्री में, किसी सबडायरेक्ट्री या पेज को क्रॉल करने की अनुमति दी जा सकती है. अगर यह नियम किसी एक पेज के लिए है, तो पेज का पूरा नाम वैसा ही डालें जैसा ब्राउज़र में दिखता है. यह / वर्ण से शुरू होना चाहिए. साथ ही, अगर यह नियम किसी डायरेक्ट्री के बारे में है, तो इसका नाम / के निशान के साथ खत्म होना चाहिए.
  • sitemap: [ज़रूरी नहीं, हर फ़ाइल के लिए शून्य या उससे ज़्यादा] वह जगह जहां आपने इस वेबसाइट का साइटमैप अपलोड किया है. साइटमैप यूआरएल, पूरी तरह क्वालिफ़ाइड यूआरएल होना चाहिए; Google, http/https/www.non-www के विकल्पों काे नहीं मानता और उनकी जांच नहीं करता है. साइटमैप, यह बताने का अच्छा तरीका है कि Google को आपकी साइट पर मौजूद कौनसा कॉन्टेंट क्रॉल करना चाहिए, बजाय इसके कि वह कौनसा कॉन्टेंट क्रॉल कर सकता है और कौनसा नहीं. साइटमैप के बारे में ज़्यादा जानें. उदाहरण:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: https://www.example.com/sitemap.xml

sitemap को छोड़कर सभी नियम, प्रीफ़िक्स, सफ़िक्स या पूरी स्ट्रिंग के लिए, * वाइल्डकार्ड के साथ इस्तेमाल किए जा सकते हैं.

इन नियमों से मेल न खाने वाली लाइनों को नज़रअंदाज़ कर दिया जाता है.

हर नियम के बारे में पूरी जानकारी के लिए, हमारे पेज Google, robots.txt के निर्देशों को कैसे समझता है पर जाएं.

robots.txt फ़ाइल अपलोड करना

अपनी robots.txt फ़ाइल को कंप्यूटर पर सेव करने के बाद, इसे सर्च इंजन के क्रॉलर से क्रॉल कराया जा सकता है. हालांकि, ऐसा कोई टूल नहीं है जो इस काम में आपकी मदद कर सके, क्योंकि robots.txt फ़ाइल को साइट पर अपलोड करने का तरीका, आपकी साइट और सर्वर के हिसाब से तय होता है. इसके लिए, होस्टिंग की सेवा देने वाली कंपनी से संपर्क करें या उनके दस्तावेज़ ढूंढें. उदाहरण के लिए, "Infomaniak की फ़ाइलें अपलोड करें" ढूंढें.

robots.txt फ़ाइल अपलोड करने के बाद, देखें कि क्या उसे सार्वजनिक तौर पर ऐक्सेस किया जा सकता है. साथ ही, देखें कि क्या Google उसे पार्स कर सकता है.

robots.txt के मार्कअप की जांच करना

यह जांचने के लिए कि आपकी अपलोड की गई नई robots.txt फ़ाइल सार्वजनिक रूप से ऐक्सेस की जा सकती है या नहीं, अपने ब्राउज़र में एक निजी ब्राउज़िंग विंडो (या इसके जैसी कोई अन्य विंडो) खोलें और उस जगह पर जाएं जहां robots.txt फ़ाइल मौजूद है. उदाहरण के लिए, https://example.com/robots.txt. अगर आपको अपनी robots.txt फ़ाइल का कॉन्टेंट दिखता है, तो इसका मतलब है कि आप मार्कअप की जांच करने के लिए तैयार हैं.

robots.txt के मार्कअप से जुड़ी समस्याओं को ठीक करने के लिए, Google दो विकल्प देता है:

  1. Search Console में robots.txt रिपोर्ट. इस टूल का इस्तेमाल, सिर्फ़ उन robots.txt फ़ाइलों के लिए किया जा सकता है जो आपकी साइट पर पहले से ऐक्सेस हो रही हों.
  2. अगर आप डेवलपर हैं, तो Google की ओपन सोर्स robots.txt लाइब्रेरी देखें और उसका इस्तेमाल करें. Google Search में भी इस लाइब्रेरी का इस्तेमाल होता है. इस टूल का इस्तेमाल करके, अपने कंप्यूटर पर ही robots.txt फ़ाइलों की जांच की जा सकती है.

Google को robots.txt फ़ाइल सबमिट करना

robots.txt फ़ाइल के अपलोड होने और उसकी जांच पूरी होने के बाद, Google के क्रॉलर अपने-आप आपकी robots.txt फ़ाइल को ढूंढकर, उसका इस्तेमाल करना शुरू कर देंगे. आपको कुछ भी नहीं करना होगा. अगर आपने अपनी robots.txt फ़ाइल अपडेट की है और आपको Google की कैश मेमोरी में सेव की गई कॉपी को जल्द से जल्द रीफ़्रेश करना है, तो अपडेट की गई robots.txt फ़ाइल को सबमिट करने का तरीका जानें.

robots.txt से जुड़े काम के नियम

यहां, robots.txt के कुछ सामान्य और आपके काम आने वाले नियमों के उदाहरण दिए गए हैं:

काम आने वाले नियम
पूरी साइट को क्रॉल करने की अनुमति न दें

ध्यान रखें कि कुछ मामलों में, साइट के यूआरएल अब भी इंडेक्स किए जा सकते हैं. भले ही, वे क्रॉल न किए गए हों.

User-agent: *
Disallow: /
किसी डायरेक्ट्री और उसके कॉन्टेंट को क्रॉल करने पर रोक लगाएं

किसी डायरेक्ट्री के नाम के अंत में फ़ॉरवर्ड स्लैश जोड़कर, उस पूरी डायरेक्ट्री को क्रॉल होने से रोका जा सकता है.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
सिर्फ़ एक क्रॉलर को क्रॉल करने की अनुमति दें

सिर्फ़ googlebot-news ही पूरी साइट को क्रॉल कर सकता है.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
एक क्रॉलर को छोड़कर, बाकी सभी क्रॉलर को क्रॉल करने की अनुमति दें

हो सकता है कि Unnecessarybot साइट को क्रॉल न कर सकता हो, लेकिन बाकी सभी बॉट ऐसा कर सकते हों.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

किसी एक वेब पेज को क्रॉल करने पर रोक लगाएं

उदाहरण के लिए, https://example.com/useless_file.html पर मौजूद useless_file.html पेज और junk डायरेक्ट्री में मौजूद other_useless_file.html को अनुमति न दें.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

किसी सबडायरेक्ट्री को छोड़कर, पूरी साइट को क्रॉल करने की अनुमति न दें

क्रॉलर सिर्फ़ public सबडायरेक्ट्री को ऐक्सेस कर सकते हैं.

User-agent: *
Disallow: /
Allow: /public/

Google Images से मिली किसी खास इमेज को क्रॉल करने पर रोक लगाएं

उदाहरण के लिए, dogs.jpg इमेज को क्रॉल करने पर रोक लगाएं.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

अपनी साइट पर, Google Images से मिली सभी इमेज को क्रॉल करने पर रोक लगाएं

इमेज और वीडियो को क्रॉल किए बिना, Google उन्हें इंडेक्स नहीं कर सकता.

User-agent: Googlebot-Image
Disallow: /

किसी खास तरह की फ़ाइलें क्रॉल करने पर रोक लगाएं

उदाहरण के लिए, सभी .gif फ़ाइलों को क्रॉल करने पर रोक लगाएं.

User-agent: Googlebot
Disallow: /*.gif$

पूरी साइट को क्रॉल करने पर रोक लगाएं, लेकिन Mediapartners-Google को अनुमति दें

ऐसा करने से आपके पेज, खोज के नतीजों में नहीं दिखते, लेकिन Mediapartners-Google वेब क्रॉलर अब भी यह तय करने के लिए उनका विश्लेषण कर सकता है कि आपकी साइट पर आने वाले लोगों को कौनसे विज्ञापन दिखाने हैं.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
किसी खास स्ट्रिंग पर खत्म होने वाले यूआरएल देखने के लिए, * और $ वाइल्डकार्ड का इस्तेमाल करें

उदाहरण के लिए, सभी .xls फ़ाइलों को क्रॉल करने पर रोक लगाएं.

User-agent: Googlebot
Disallow: /*.xls$