robots.txt फ़ाइल लिखने और सबमिट करने का तरीका
robots.txt फ़ाइल का इस्तेमाल करके, यह तय किया जा सकता है कि क्रॉलर आपकी साइट पर किन फ़ाइलों को ऐक्सेस करें.
robots.txt फ़ाइल आपकी साइट के रूट में होती है. इस वजह से, www.example.com
साइट के लिए,
robots.txt फ़ाइल www.example.com/robots.txt
में मौजूद होती है. robots.txt, सादे लेख वाली ऐसी फ़ाइल है जो
रोबोट एक्सक्लूज़न स्टैंडर्ड के मुताबिक होती है.
robots.txt फ़ाइल में एक या एक से ज़्यादा नियम होते हैं. हर नियम, किसी खास या सभी क्रॉलर को डोमेन या
सबडोमेन पर किसी खास फ़ाइल पाथ के ऐक्सेस की अनुमति देता है या उसे ब्लॉक करता है. यह वह डोमेन या सबडोमेन होता है
जहां robots.txt फ़ाइल होस्ट की गई होती है. आम तौर पर, साइट पर डिफ़ॉल्ट रूप से सभी फ़ाइलें क्रॉल की जाती हैं. ऐसा तब तक होता है,
जब तक आप robot.txt फ़ाइल में इस पर रोक न लगा दें.
यहां दो नियमों वाली एक सामान्य robots.txt फ़ाइल दी गई है:
User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml
यहां बताया गया है कि robots.txt फ़ाइल का क्या मतलब है:
-
https://example.com/nogooglebot/
से शुरू होने वाले किसी भी यूआरएल को, Googlebot नाम का उपयोगकर्ता एजेंट क्रॉल नहीं कर सकता. - बाकी सभी उपयोगकर्ता एजेंट, पूरी साइट को क्रॉल कर सकते हैं. इसे robots.txt फ़ाइल में शामिल नहीं करने पर भी नतीजा यही होता है. डिफ़ॉल्ट रूप से सभी उपयोगकर्ता एजेंट, पूरी साइट क्रॉल कर सकते हैं.
-
इस साइट की साइटमैप फ़ाइल,
https://www.example.com/sitemap.xml
पर मौजूद है.
इससे जुड़े और उदाहरणों के लिए, सिंटैक्स सेक्शन देखें.
robots.txt फ़ाइल बनाने से जुड़े बुनियादी दिशा-निर्देश
इन चार चरणों में ऐसी robots.txt फ़ाइल बनाई जा सकती है जिसे सभी ऐक्सेस कर सकें और जो सबके लिए उपयोगी हो:
- robots.txt फ़ाइल बनाना.
- robots.txt फ़ाइल में नियम जोड़ें.
- robots.txt फ़ाइल को अपनी साइट के रूट में अपलोड करें.
- robots.txt फ़ाइल की जांच करें.
robots.txt फ़ाइल बनाना
robots.txt फ़ाइल बनाने के लिए, तकरीबन सभी टेक्स्ट एडिटर का इस्तेमाल किया जा सकता है. उदाहरण के लिए, Notepad, TextEdit, vi, और emacs जैसे टेक्स्ट एडिटर का इस्तेमाल करके, मान्य robots.txt फ़ाइलें बनाई जा सकती हैं. किसी वर्ड प्रोसेसर का इस्तेमाल न करें. वर्ड प्रोसेसर अक्सर अपने फ़ॉर्मैट में ही फ़ाइलें सेव करते हैं. ये प्रोसेसर, कर्ली कोट (“ ”) जैसे अनचाहे वर्ण भी जोड़ सकते हैं. इनसे क्रॉलर को, क्रॉल करते समय परेशानियां हो सकती हैं. अगर फ़ाइल सेव करने के दौरान आपको मैसेज दिखता है कि फ़ाइल को UTF-8 कोड में बदलकर सेव करें, तो ऐसा ही करें.
फ़ॉर्मैट और जगह से जुड़े नियम:
- फ़ाइल का नाम robots.txt होना चाहिए.
- आपकी साइट में सिर्फ़ एक robots.txt फ़ाइल हो सकती है.
-
robots.txt फ़ाइल उस साइट होस्ट के रूट में मौजूद होनी चाहिए जिस पर वह लागू होती है. उदाहरण के लिए,
https://www.example.com/
के नीचे दिए गए सभी यूआरएल की क्रॉलिंग को कंट्रोल करने के लिए, robots.txt फ़ाइलhttps://www.example.com/robots.txt
में मौजूद होनी चाहिए. इसे किसी दूसरी सबडायरेक्ट्री (उदाहरण के लिए,https://example.com/pages/robots.txt
) में नहीं रखा जा सकता. अगर आपको नहीं पता कि अपनी साइट के रूट को कैसे ऐक्सेस करना है या इसके लिए आपको अनुमतियों की ज़रूरत है, तो वेब होस्टिंग की सेवा देने वाली कंपनी से संपर्क करें. साइट के रूट को ऐक्सेस नहीं कर पाने पर, क्रॉलिंग रोकने के लिएmeta
टैग जैसे किसी दूसरे तरीके का इस्तेमाल करें. -
किसी robots.txt फ़ाइल को सबडोमेन (उदाहरण के लिए,
https://site.example.com/robots.txt
) या नॉन-स्टैंडर्ड पोर्ट (उदाहरण के लिए,https://example.com:8181/robots.txt
) पर पोस्ट किया जा सकता है. - robots.txt फ़ाइल, होस्ट, पोर्ट, और प्रोटोकॉल में मौजूद सिर्फ़ उन ही पाथ पर लागू होती है, जिनमें उसे पोस्ट किया जाता है. इसका मतलब यह है कि
https://example.com/robots.txt
के नियम, सिर्फ़https://example.com/
में मौजूद फ़ाइलों पर लागू होते हैं. वेhttps://m.example.com/
जैसे सबडोमेन याhttp://example.com/
जैसे अन्य प्रोटोकॉल पर लागू नहीं होते हैं. - यह ज़रूरी है कि किसी robots.txt फ़ाइल को UTF-8 कोड वाली टेक्स्ट फ़ाइल में बदला गया हो. इसमें ASCII कोड भी शामिल होते हैं. Google उन वर्णों को अनदेखा कर सकता है जो UTF-8 रेंज का हिस्सा नहीं हैं. ऐसा होने पर, robots.txt फ़ाइल के नियम अमान्य हो सकते हैं.
robots.txt फ़ाइल के नियम लिखने का तरीका
नियम, क्रॉलर के लिए निर्देश होते हैं. इनसे यह तय होता है कि वे आपकी साइट के किन हिस्सों को क्रॉल कर सकते हैं. अपनी robots.txt फ़ाइल में नियम जोड़ते समय इन दिशा-निर्देशों का पालन करें:
- robots.txt फ़ाइल में एक या एक से ज़्यादा ग्रुप (नियमों का सेट) होते हैं.
-
हर ग्रुप में कई नियम होते हैं (जिन्हें डायरेक्टिव भी कहा जाता है). हर लाइन में एक नियम होता है. हर ग्रुप, एक
User-agent
लाइन से शुरू होता है, जिससे ग्रुप का टारगेट तय होता है. - ग्रुप में यह जानकारी दिखेगी:
- ग्रुप किस उपयोगकर्ता एजेंट पर लागू होता है.
- वह एजेंट कौनसी डायरेक्ट्री या फ़ाइलें ऐक्सेस कर सकता है.
- वह एजेंट कौनसी डायरेक्ट्री या फ़ाइलें ऐक्सेस नहीं कर सकता है.
- क्रॉलर, ग्रुप को ऊपर से नीचे की ओर प्रोसेस करते हैं. कोई भी उपयोगकर्ता एजेंट, सिर्फ़ एक नियम सेट से मेल खा सकता है. यह नियम सेट, दिए गए उपयोगकर्ता एजेंट से सबसे ज़्यादा मेल खाने वाला पहला नियम सेट होता है. अगर एक ही उपयोगकर्ता एजेंट के लिए कई ग्रुप हैं, तो प्रोसेसिंग से पहले उन ग्रुप को एक ही ग्रुप बना दिया जाएगा.
-
डिफ़ॉल्ट रूप से, ऐसा माना जाता है कि कोई उपयोगकर्ता एजेंट, किसी भी ऐसे पेज या डायरेक्ट्री को क्रॉल कर सकता है जिस पर क्रॉलिंग रोकने के लिए,
disallow
नियम लागू न किया गया हो. -
नियम, केस-सेंसिटिव (बड़े और छोटे अक्षरों में अंतर) होते हैं. उदाहरण के लिए,
disallow: /file.asp
,https://www.example.com/file.asp
पर लागू होता है, लेकिनhttps://www.example.com/FILE.asp
पर नहीं. -
किसी भी टिप्पणी की शुरुआत में,
#
वर्ण लगा होता है. प्रोसेस करने के दौरान, टिप्पणियों को अनदेखा कर दिया जाता है.
Google के क्रॉलर, robots.txt फ़ाइलों में यहां बताए गए नियमों के हिसाब से काम करते हैं:
-
user-agent:
[हर ग्रुप के लिए, एक या एक से ज़्यादा नियम की ज़रूरत होती है] नियम की मदद से, उस ऑटोमैटिक क्लाइंट का नाम पता चलता है जिस पर यह नियम लागू होता है. ऑटोमैटिक क्लाइंट को सर्च इंजन के क्रॉलर के तौर पर जाना जाता है. यह किसी भी नियम के ग्रुप की पहली लाइन होती है. Google के उपयोगकर्ता एजेंट के नाम, Google के उपयोगकर्ता एजेंट की सूची में दिए गए हैं. तारे के निशान (*
) का इस्तेमाल करने पर, यह AdsBot क्रॉलर छोड़कर, सभी क्रॉलर दिखाएगा. AdsBot क्रॉलर को देखने के लिए, उनके नाम अलग से लिखने होंगे. उदाहरण के लिए:# Example 1: Block only Googlebot User-agent: Googlebot Disallow: / # Example 2: Block Googlebot and Adsbot User-agent: Googlebot User-agent: AdsBot-Google Disallow: / # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly) User-agent: * Disallow: /
-
disallow:
[हर नियम में कम से कम एक या एक से ज़्यादाdisallow
याallow
की एंट्री] रूट डोमेन से जुड़ी डायरेक्ट्री या पेज, जिसे उपयोगकर्ता एजेंट से क्रॉल नहीं कराना है. अगर यह नियम किसी पेज के बारे में है, तो इसका पूरा नाम वैसा ही होना चाहिए जैसा ब्राउज़र में दिखता है. यह/
वर्ण से शुरू होना चाहिए. साथ ही, अगर यह नियम किसी डायरेक्ट्री के बारे में है, तो इसका नाम/
के निशान के साथ खत्म होना चाहिए. -
allow:
[हर नियम में एक या एक से ज़्यादाdisallow
याallow
की एंट्री] रूट डोमेन से जुड़ी ऐसी डायरेक्ट्री या पेज, जिसे अभी बताए गए उपयोगकर्ता एजेंट से क्रॉल कराया जा सकता है. इसका इस्तेमालdisallow
डायरेक्टिव को बदलने के लिए किया जाता है. इससे, क्रॉल करने से रोकी गई डायरेक्ट्री में, किसी सबडायरेक्ट्री या पेज को क्रॉल करने की अनुमति दी जा सकती है. अगर यह नियम किसी एक पेज के लिए है, तो पेज का पूरा नाम वैसा ही डालें जैसा ब्राउज़र में दिखता है. यह/
वर्ण से शुरू होना चाहिए. साथ ही, अगर यह नियम किसी डायरेक्ट्री के बारे में है, तो इसका नाम/
के निशान के साथ खत्म होना चाहिए. -
sitemap:
[ज़रूरी नहीं, हर फ़ाइल के लिए शून्य या उससे ज़्यादा] वह जगह जहां आपने इस वेबसाइट का साइटमैप अपलोड किया है. साइटमैप यूआरएल, पूरी तरह क्वालिफ़ाइड यूआरएल होना चाहिए; Google, http/https/www.non-www के विकल्पों काे नहीं मानता और उनकी जांच नहीं करता है. साइटमैप, यह बताने का अच्छा तरीका है कि Google को आपकी साइट पर मौजूद कौनसा कॉन्टेंट क्रॉल करना चाहिए, बजाय इसके कि वह कौनसा कॉन्टेंट क्रॉल कर सकता है और कौनसा नहीं. साइटमैप के बारे में ज़्यादा जानें. उदाहरण:Sitemap: https://example.com/sitemap.xml Sitemap: https://www.example.com/sitemap.xml
sitemap
को छोड़कर सभी नियम, प्रीफ़िक्स, सफ़िक्स या पूरी स्ट्रिंग के लिए, *
वाइल्डकार्ड
के साथ इस्तेमाल किए जा सकते हैं.
इन नियमों से मेल न खाने वाली लाइनों को नज़रअंदाज़ कर दिया जाता है.
हर नियम के बारे में पूरी जानकारी के लिए, हमारे पेज Google, robots.txt के निर्देशों को कैसे समझता है पर जाएं.
robots.txt फ़ाइल अपलोड करना
अपनी robots.txt फ़ाइल को कंप्यूटर पर सेव करने के बाद, इसे सर्च इंजन के क्रॉलर से क्रॉल कराया जा सकता है. हालांकि, ऐसा कोई टूल नहीं है जो इस काम में आपकी मदद कर सके, क्योंकि robots.txt फ़ाइल को साइट पर अपलोड करने का तरीका, आपकी साइट और सर्वर के हिसाब से तय होता है. इसके लिए, होस्टिंग की सेवा देने वाली कंपनी से संपर्क करें या उनके दस्तावेज़ ढूंढें. उदाहरण के लिए, "Infomaniak की फ़ाइलें अपलोड करें" ढूंढें.
robots.txt फ़ाइल अपलोड करने के बाद, देखें कि क्या उसे सार्वजनिक तौर पर ऐक्सेस किया जा सकता है. साथ ही, देखें कि क्या Google उसे पार्स कर सकता है.
robots.txt के मार्कअप की जांच करना
यह जांचने के लिए कि आपकी अपलोड की गई नई robots.txt फ़ाइल सार्वजनिक रूप से ऐक्सेस की जा सकती है या नहीं, अपने ब्राउज़र में एक निजी ब्राउज़िंग विंडो (या इसके जैसी कोई अन्य विंडो) खोलें और उस जगह पर जाएं जहां robots.txt फ़ाइल मौजूद है. उदाहरण के लिए, https://example.com/robots.txt
. अगर आपको अपनी robots.txt फ़ाइल का कॉन्टेंट दिखता है, तो इसका मतलब है कि आप मार्कअप की जांच करने के लिए तैयार हैं.
robots.txt के मार्कअप से जुड़ी समस्याओं को ठीक करने के लिए, Google दो विकल्प देता है:
- Search Console में robots.txt रिपोर्ट. इस टूल का इस्तेमाल, सिर्फ़ उन robots.txt फ़ाइलों के लिए किया जा सकता है जो आपकी साइट पर पहले से ऐक्सेस हो रही हों.
- अगर आप डेवलपर हैं, तो Google की ओपन सोर्स robots.txt लाइब्रेरी देखें और उसका इस्तेमाल करें. Google Search में भी इस लाइब्रेरी का इस्तेमाल होता है. इस टूल का इस्तेमाल करके, अपने कंप्यूटर पर ही robots.txt फ़ाइलों की जांच की जा सकती है.
Google को robots.txt फ़ाइल सबमिट करना
robots.txt फ़ाइल के अपलोड होने और उसकी जांच पूरी होने के बाद, Google के क्रॉलर अपने-आप आपकी robots.txt फ़ाइल को ढूंढकर, उसका इस्तेमाल करना शुरू कर देंगे. आपको कुछ भी नहीं करना होगा. अगर आपने अपनी robots.txt फ़ाइल अपडेट की है और आपको Google की कैश मेमोरी में सेव की गई कॉपी को जल्द से जल्द रीफ़्रेश करना है, तो अपडेट की गई robots.txt फ़ाइल को सबमिट करने का तरीका जानें.
robots.txt से जुड़े काम के नियम
यहां, robots.txt के कुछ सामान्य और आपके काम आने वाले नियमों के उदाहरण दिए गए हैं:
काम आने वाले नियम | |
---|---|
पूरी साइट को क्रॉल करने की अनुमति न दें |
ध्यान रखें कि कुछ मामलों में, साइट के यूआरएल अब भी इंडेक्स किए जा सकते हैं. भले ही, वे क्रॉल न किए गए हों. User-agent: * Disallow: / |
किसी डायरेक्ट्री और उसके कॉन्टेंट को क्रॉल करने पर रोक लगाएं |
किसी डायरेक्ट्री के नाम के अंत में फ़ॉरवर्ड स्लैश जोड़कर, उस पूरी डायरेक्ट्री को क्रॉल होने से रोका जा सकता है. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
सिर्फ़ एक क्रॉलर को क्रॉल करने की अनुमति दें |
सिर्फ़ User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
एक क्रॉलर को छोड़कर, बाकी सभी क्रॉलर को क्रॉल करने की अनुमति दें |
हो सकता है कि User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
किसी एक वेब पेज को क्रॉल करने पर रोक लगाएं |
उदाहरण के लिए, User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
किसी सबडायरेक्ट्री को छोड़कर, पूरी साइट को क्रॉल करने की अनुमति न दें |
क्रॉलर सिर्फ़ User-agent: * Disallow: / Allow: /public/ |
Google Images से मिली किसी खास इमेज को क्रॉल करने पर रोक लगाएं |
उदाहरण के लिए, User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
अपनी साइट पर, Google Images से मिली सभी इमेज को क्रॉल करने पर रोक लगाएं |
इमेज और वीडियो को क्रॉल किए बिना, Google उन्हें इंडेक्स नहीं कर सकता. User-agent: Googlebot-Image Disallow: / |
किसी खास तरह की फ़ाइलें क्रॉल करने पर रोक लगाएं |
उदाहरण के लिए, सभी User-agent: Googlebot Disallow: /*.gif$ |
पूरी साइट को क्रॉल करने पर रोक लगाएं, लेकिन |
ऐसा करने से आपके पेज, खोज के नतीजों में नहीं दिखते, लेकिन User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
किसी खास स्ट्रिंग पर खत्म होने वाले यूआरएल देखने के लिए, * और $ वाइल्डकार्ड
का इस्तेमाल करें
|
उदाहरण के लिए, सभी User-agent: Googlebot Disallow: /*.xls$ |