कॉन्टेंट कनेक्टर बनाना

कॉन्टेंट कनेक्टर एक सॉफ़्टवेयर प्रोग्राम होता है. यह एंटरप्राइज़ रिपॉज़िटरी में मौजूद डेटा को प्रोसेस करता है और डेटा सोर्स में डेटा भरता है. Google, कॉन्टेंट कनेक्टर डेवलप करने के लिए ये विकल्प उपलब्ध कराता है:

Content Connector SDK. यह Java प्रोग्रामर के लिए एक अच्छा विकल्प है. एसडीके, REST API के चारों ओर एक रैपर है. इसकी मदद से, कनेक्टर तुरंत बनाए जा सकते हैं. एसडीके का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाने के लिए, Content Connector SDK का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाना लेख पढ़ें.
लो-लेवल REST API या एपीआई लाइब्रेरी. अगर Java का इस्तेमाल नहीं किया जाता है या आपका कोडबेस, REST API या लाइब्रेरी के साथ बेहतर तरीके से काम करता है, तो इन विकल्पों का इस्तेमाल करें. REST API का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाने के लिए, REST API का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाना लेख पढ़ें.

आम तौर पर, कॉन्टेंट कनेक्टर ये काम करता है:

यह कुकी, कॉन्फ़िगरेशन पैरामीटर को पढ़ती है और उन्हें प्रोसेस करती है.
यह तीसरे पक्ष के डेटा स्टोर करने की जगह से, इंडेक्स किए जा सकने वाले डेटा के अलग-अलग हिस्सों को खींचता है. इन्हें "आइटम" कहा जाता है.
यह इंडेक्स किए जा सकने वाले आइटम में, एसीएल, मेटाडेटा, और कॉन्टेंट डेटा को जोड़ता है.
यह Cloud Search डेटा सोर्स में मौजूद आइटम को इंडेक्स करता है.
(ज़रूरी नहीं) यह रिपॉज़िटरी में हुए बदलावों की सूचनाएं सुनता है. बदलाव की सूचनाएं, इंडेक्स करने के अनुरोधों में बदल जाती हैं, ताकि Cloud Search डेटा सोर्स को सिंक में रखा जा सके. कनेक्टर सिर्फ़ तब यह टास्क पूरा करता है, जब रिपॉज़िटरी में बदलाव का पता लगाने की सुविधा काम करती हो.

Content Connector SDK का इस्तेमाल करके, कॉन्टेंट कनेक्टर बनाना

यहां दिए गए सेक्शन में, Content Connector SDK का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाने का तरीका बताया गया है.

डिपेंडेंसी सेट अप करना

इन डिपेंडेंसी को अपनी बिल्ड फ़ाइल में शामिल करें.

Maven

xml <dependency> <groupId>com.google.enterprise.cloudsearch</groupId> <artifactId>google-cloudsearch-indexing-connector-sdk</artifactId> <version>v1-0.0.3</version> </dependency>

ग्रेडल

groovy compile group: 'com.google.enterprise.cloudsearch', name: 'google-cloudsearch-indexing-connector-sdk', version: 'v1-0.0.3'

कनेक्टर कॉन्फ़िगरेशन बनाना

हर कनेक्टर, कॉन्फ़िगरेशन फ़ाइल का इस्तेमाल करता है. इसमें आपके रिपॉज़िटरी आईडी जैसे पैरामीटर होते हैं. पैरामीटर को की-वैल्यू पेयर के तौर पर तय करें. जैसे, api.sourceId=1234567890abcdef.

Google Cloud Search SDK में, सभी कनेक्टर के लिए Google के दिए गए पैरामीटर शामिल होते हैं. आपको कॉन्फ़िगरेशन फ़ाइल में यह जानकारी देनी होगी:

कॉन्टेंट कनेक्टर: api.sourceId और api.serviceAccountPrivateKeyFile का एलान करें. इनसे आपकी रिपॉज़िटरी और ऐक्सेस के लिए ज़रूरी निजी कुंजी की पहचान होती है.

पहचान कनेक्टर: api.identitySourceId का एलान करें, ताकि आपके बाहरी पहचान स्रोत की पहचान की जा सके. उपयोगकर्ता को सिंक करने के लिए, api.customerId (आपके Google Workspace खाते का यूनीक आईडी) भी जोड़ें.

Google की ओर से दिए गए अन्य पैरामीटर सिर्फ़ उनकी डिफ़ॉल्ट वैल्यू को बदलने के लिए इस्तेमाल करें. आईडी और कुंजियां जनरेट करने के बारे में जानकारी के लिए, Google की ओर से उपलब्ध कराए गए पैरामीटर देखें.

कॉन्फ़िगरेशन फ़ाइल में, रिपॉज़िटरी के हिसाब से पैरामीटर भी तय किए जा सकते हैं.

कॉन्फ़िगरेशन फ़ाइल को कनेक्टर को पास करना

कॉन्फ़िगरेशन फ़ाइल पास करने के लिए, config सिस्टम प्रॉपर्टी सेट करें. कनेक्टर शुरू करते समय, -D आर्ग्युमेंट का इस्तेमाल करें. उदाहरण के लिए:

java -classpath myconnector.jar -Dconfig=MyConfig.properties MyConnector

इस आर्ग्युमेंट को शामिल न करने पर, SDK टूल लोकल डायरेक्ट्री में connector-config.properties नाम की फ़ाइल का इस्तेमाल करने की कोशिश करता है.

ट्री को ट्रैवर्स करने की रणनीति तय करना

कॉन्टेंट कनेक्टर का मुख्य काम, किसी रिपॉज़िटरी को ट्रैवर्स करना और उसके डेटा को इंडेक्स करना होता है. आपको अपनी रिपॉज़िटरी के साइज़ और लेआउट के आधार पर रणनीति लागू करनी होगी. आपके पास अपनी रणनीति बनाने या एसडीके से कोई रणनीति चुनने का विकल्प होता है:

पूरी तरह से ट्रैवर्स करने की रणनीति: पूरी रिपॉज़िटरी को स्कैन करता है और हर आइटम को इंडेक्स करता है. यह रणनीति उन छोटी रिपॉज़िटरी के लिए सबसे सही है जहां हर इंडेक्सिंग के दौरान, पूरी तरह से ट्रैवर्सल किया जा सकता है. इसका इस्तेमाल ऐसी छोटी रिपॉज़िटरी के लिए करें जिनमें ज़्यादातर स्टैटिक और नॉन-हायरार्किकल डेटा होता है या जब बदलाव का पता लगाना मुश्किल होता है.
सूची को ट्रैवर्स करने की रणनीति: यह पूरी रिपॉज़िटरी को स्कैन करके, हर आइटम का स्टेटस तय करता है. इसके बाद, सिर्फ़ नए या अपडेट किए गए आइटम को इंडेक्स करता है. इसका इस्तेमाल, बड़े और गैर-अनुक्रमिक इंडेक्स में इंक्रीमेंटल अपडेट के लिए करें. ऐसा तब करें, जब बदलाव का पता लगाने की सुविधा काम न कर रही हो.
ग्राफ़ ट्रैवर्सल: यह पैरंट नोड को स्कैन करके, उसके आइटम का स्टेटस पता लगाता है. इसके बाद, उस नोड में मौजूद नए या अपडेट किए गए आइटम को इंडेक्स करता है. इसके बाद, यह चाइल्ड नोड को बार-बार प्रोसेस करता है. इसका इस्तेमाल, क्रम के हिसाब से व्यवस्थित रिपॉज़िटरी के लिए करें. इनमें सभी आईडी की सूची बनाना व्यावहारिक नहीं होता. जैसे, डायरेक्ट्री स्ट्रक्चर या वेबसाइटें.

एसडीके, इन रणनीतियों को टेंप्लेट कनेक्टर क्लास में लागू करता है. इन टेंप्लेट से, डेवलपमेंट की प्रोसेस को तेज़ किया जा सकता है. टेंप्लेट का इस्तेमाल करने के लिए, इससे जुड़ा सेक्शन देखें:

टेंप्लेट क्लास का इस्तेमाल करके, पूरा ट्रैवर्सल करने वाला कनेक्टर बनाना
टेंप्लेट क्लास का इस्तेमाल करके, सूची को ट्रैवर्स करने वाला कनेक्टर बनाना
टेंप्लेट क्लास का इस्तेमाल करके, ग्राफ़ ट्रैवर्सल कनेक्टर बनाना

टेंप्लेट क्लास का इस्तेमाल करके, पूरा ट्रैवर्सल कनेक्टर बनाना

इस सेक्शन में, FullTraversalSample से लिए गए कोड के बारे में बताया गया है.

कनेक्टर एंट्री पॉइंट लागू करना

एंट्री पॉइंट, main() तरीका है. इससे Application इंस्टेंस बनता है और कनेक्टर को चलाने के लिए start() कॉल करता है.

application.start() को कॉल करने से पहले, FullTraversalConnector टेंप्लेट को इंस्टैंशिएट करने के लिए, IndexingApplication.Builder क्लास का इस्तेमाल करें. यह टेंप्लेट, Repository ऑब्जेक्ट स्वीकार करता है.

FullTraversalSample.java

Content Connector SDK का इस्तेमाल करके, कॉन्टेंट कनेक्टर बनाना

डिपेंडेंसी सेट अप करना

Maven

ग्रेडल

कनेक्टर कॉन्फ़िगरेशन बनाना

कॉन्फ़िगरेशन फ़ाइल को कनेक्टर को पास करना

ट्री को ट्रैवर्स करने की रणनीति तय करना

टेंप्लेट क्लास का इस्तेमाल करके, पूरा ट्रैवर्सल कनेक्टर बनाना

कनेक्टर एंट्री पॉइंट लागू करना

Repository इंटरफ़ेस लागू करना

कस्टम कॉन्फ़िगरेशन पैरामीटर पाना

पूरे डेटा को ट्रैवर्स करना

किसी आइटम के लिए अनुमतियां सेट करना

किसी आइटम के लिए मेटाडेटा सेट करना

इंडेक्स किया जा सकने वाला आइटम बनाना

इंडेक्स किए जा सकने वाले हर आइटम को इटरेटर में पैकेज करें

अगले चरण

टेंप्लेट क्लास का इस्तेमाल करके, सूची ट्रैवर्सल कनेक्टर बनाना

कनेक्टर एंट्री पॉइंट लागू करना

Repository इंटरफ़ेस लागू करना

सूची को ट्रैवर्स करना

आइटम आईडी और हैश वैल्यू पुश करना

हर आइटम को वापस पाना और उसे मैनेज करना

मिटाए गए आइटम मैनेज करना

बदलाव नहीं किए गए आइटम मैनेज करना

किसी आइटम के लिए अनुमतियां सेट करना

किसी आइटम के लिए मेटाडेटा सेट करना

इंडेक्स किया जा सकने वाला आइटम बनाना

अगले चरण

टेंप्लेट क्लास का इस्तेमाल करके, ग्राफ़ ट्रैवर्सल कनेक्टर बनाना

कनेक्टर के एंट्री पॉइंट को लागू करना

Repository इंटरफ़ेस लागू करना

ग्राफ़ ट्रैवर्सल करना

आइटम आईडी और हैश वैल्यू पुश करना

हर आइटम को वापस पाना और उसे मैनेज करना

मिटाए गए आइटम मैनेज करना

मेटाडेटा सेट करना और आइटम बनाना

बच्चे के आईडी को इंडेक्सिंग की सूची में शामिल करना

REST API का इस्तेमाल करके कॉन्टेंट कनेक्टर बनाना

ट्री को ट्रैवर्स करने की रणनीति तय करना

ट्रावर्सल की रणनीति लागू करना और आइटम इंडेक्स करना

डेटा स्टोर करने की जगह में हुए बदलावों को हैंडल करना