Google Cloud Search को सेट अप करके, Google Workspace के कॉन्टेंट के साथ-साथ अपने संगठन के Microsoft Windows शेयर से भी नतीजे पाए जा सकते हैं. Google Cloud Search File Systems कनेक्टर का इस्तेमाल करें और इसे Windows के चुनिंदा शेयर किए गए फ़ोल्डर को ऐक्सेस करने के लिए कॉन्फ़िगर करें. कनेक्टर का एक इंस्टेंस, Microsoft Windows के कई शेयर किए गए फ़ोल्डर को ऐक्सेस कर सकता है.
विचार करने वाली ज़रूरी बातें
अपने-आप अपडेट होने की सुविधा
कनेक्टर के चालू होने पर, कनेक्टर कॉन्फ़िगरेशन फ़ाइल में मौजूद fs.src
से मिली वैल्यू के आधार पर, कनेक्टर डिफ़ॉल्ट रूप से स्टार्ट पाथ की लगातार निगरानी करता है. जब फ़ाइल सिस्टम, कॉन्टेंट या ऐक्सेस कंट्रोल में हुए बदलावों की जानकारी देता है, तब कनेक्टर ट्रिगर होता है. इससे फ़ाइल सिस्टम को फिर से क्रॉल किया जाता है. फिर से क्रॉल करने में ज़्यादा संसाधन लग सकते हैं. फ़ाइल सिस्टम की निगरानी करने की सुविधा बंद करने के लिए, fs.monitorForUpdates
को false
पर सेट करें. इससे कनेक्टर के संसाधन इस्तेमाल करने की क्षमता काफ़ी कम हो जाती है. हालांकि, कनेक्टर में बदलाव दिखने में समय लगता है. ज़्यादा जानें
डीएफ़एस ऐक्सेस कंट्रोल
डीएफ़एस सिस्टम, अपने लिंक पर ऐक्सेस कंट्रोल लागू करता है. आम तौर पर, हर डीएफ़एस लिंक का अपना एसीएल होता है. DFS, ऐक्सेस के आधार पर गिनती करने की सुविधा (एबीई) का इस्तेमाल करता है. इससे, किसी उपयोगकर्ता को दिखाए जाने वाले DFS लिंक को सीमित किया जा सकता है. जब एईबी, होस्ट की गई होम डायरेक्ट्री को अलग करता है, तो उपयोगकर्ताओं को DFS लिंक का सिर्फ़ एक सबसेट या सिर्फ़ एक लिंक मिल सकता है. जब कनेक्टर, DFS सिस्टम को ट्रैवर्स करता है, तो कनेक्टर, DFS लिंक ACL और टारगेट के शेयर ACL का पालन करता है. साथ ही, शेयर ACL, DFS ACL से इनहेरिट होता है.
सीमाएं
- फ़ाइल सिस्टम: File Systems कनेक्टर, मैप की गई ड्राइव और लोकल ड्राइव के साथ काम नहीं करता.
- डिस्ट्रिब्यूटेड फ़ाइल सिस्टम: यूएनसी डीएफ़एस से मैप किया गया ड्राइव ठीक से काम नहीं करता. कुछ एसीएल को सही तरीके से नहीं पढ़ा गया है.
- फ़ाइल सिस्टम कनेक्टर, डिस्ट्रिब्यूटेड फ़ाइल सिस्टम (डीएफ़एस) के नेमस्पेस और लिंक के साथ काम करता है. हालांकि, कनेक्टर सिर्फ़ DFS नेमस्पेस में DFS लिंक के साथ काम करता है. यह DFS नेमस्पेस में मौजूद सामान्य फ़ोल्डर के साथ काम नहीं करता.
- cloudsearch.google.com पर दिखाए गए फ़ाइल लिंक पर क्लिक नहीं किया जा सकता. Query API से मिले फ़ाइल लिंक पर, ज़्यादातर ब्राउज़र में क्लिक नहीं किया जा सकता.
सिस्टम की ज़रूरतें
सिस्टम की ज़रूरतें | |
---|---|
ऑपरेटिंग सिस्टम |
|
सॉफ़्टवेयर |
|
फ़ाइल सिस्टम प्रोटोकॉल |
काम नहीं करता: लोकल Windows फ़ाइल सिस्टम, Sun Network File System (NFS) 2.0, Sun Network File System (NFS) 3.0 या लोकल Linux फ़ाइल सिस्टम. |
कनेक्टर डिप्लॉय करना
ज़रूरी शर्तें
Cloud Search File Systems कनेक्टर को डिप्लॉय करने से पहले, पक्का करें कि आपके एनवायरमेंट में ये सभी ज़रूरी कॉम्पोनेंट मौजूद हों:
Google Cloud Search और डेटा सोर्स के बीच संबंध बनाने के लिए, Google Workspace की यह जानकारी ज़रूरी है:
- Google Workspace की निजी कुंजी (जिसमें सेवा खाते का आईडी होता है). निजी कुंजी पाने के बारे में जानकारी के लिए, Google Cloud Search REST API का ऐक्सेस कॉन्फ़िगर करें पर जाएं.
- Google Workspace डेटा सोर्स का आईडी. डेटा सोर्स आईडी पाने के बारे में जानकारी के लिए, खोज के लिए डेटा सोर्स जोड़ना पर जाएं.
- यह एक पहचान स्रोत आईडी है. पहचान के स्रोत का आईडी पाने के तरीके के बारे में जानने के लिए, पहचान का स्रोत बनाना पर जाएं. अगर आपने Google Workspace डायरेक्ट्री को Active Directory के साथ सिंक किया है, तो GCDS की मदद से आइडेंटिटी सोर्स सेट अप करें.
आपके संगठन का Google Workspace एडमिन, आम तौर पर आपको ये क्रेडेंशियल दे सकता है.
पक्का करें कि Windows खाते के पास ज़रूरी अनुमतियां हों. इसके बारे में यहां बताया गया है.
Microsoft Windows खाते की ज़रूरी अनुमतियां
कनेक्टर जिस Microsoft Windows खाते से चल रहा है उसके पास ये कार्रवाइयां करने की ज़रूरी अनुमतियां होनी चाहिए:
- फ़ोल्डर में मौजूद कॉन्टेंट की सूची बनाना
- दस्तावेज़ों का कॉन्टेंट पढ़ना
- फ़ाइलों और फ़ोल्डर के एट्रिब्यूट पढ़ना
- फ़ाइलों और फ़ोल्डर, दोनों के लिए पढ़ने की अनुमतियां (एसीएल)
- बुनियादी एट्रिब्यूट की वैल्यू बदलने की अनुमतियां
इनमें से किसी एक ग्रुप की सदस्यता लेने पर, Windows खाते को कनेक्टर के लिए ज़रूरी अनुमतियां मिल जाती हैं:
- एडमिन
- जानकार उपयोगकर्ता
- प्रिंट ऑपरेटर
- सर्वर ऑपरेटर
पहला चरण. Google Cloud Search File Systems कनेक्टर इंस्टॉल करना
GitHub से कनेक्टर रिपॉज़िटरी पाएं और उसे बनाएं.
Windows सर्वर पर git का इस्तेमाल करने के लिए:
रिपॉज़िटरी को क्लोन करें:
> git clone https://github.com/google-cloudsearch/windows-filesystems-connector.git > cd windows-filesystems-connector
कनेक्टर का मनमुताबिक वर्शन देखें:
> git checkout tags/v1-0.0.3
GitHub से सीधे तौर पर डाउनलोड करने के लिए:
- https://github.com/google-cloudsearch/windows-filesystems-connector पर जाएं.
- क्लोन बनाएं या डाउनलोड करें ज़िप फ़ाइल डाउनलोड करें पर क्लिक करें.
- पैकेज को अनज़िप करें.
- नई डायरेक्ट्री पर जाएं:
> cd windows-filesystems-connector
कनेक्टर बनाएं. अगर ज़रूरी हो, तो Apache Maven इंस्टॉल करें.
> mvn package
कनेक्टर बनाते समय जांचों को स्किप करने के लिए,
mvn package
के बजायmvn package -DskipTests
चलाएं.कनेक्टर की ZIP फ़ाइल को अपने लोकल इंस्टॉलेशन डायरेक्ट्री में कॉपी करें:
> cp target/google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip installation-dir > cd installation-dir > unzip google-cloudsearch-windows-filesystems-connector-v1-0.0.3.zip > cd google-cloudsearch-windows-filesystems-connector-v1-0.0.3
दूसरा चरण. कनेक्टर कॉन्फ़िगरेशन फ़ाइल बनाना
कनेक्टर इंस्टॉलेशन वाली डायरेक्ट्री में, एक फ़ाइल बनाएं और उसका नाम
connector-config.properties
रखें.फ़ाइल के कॉन्टेंट में पैरामीटर को की/वैल्यू पेयर के तौर पर जोड़ें. उदाहरण के लिए:
### File system connector configuration ### # Required parameters for Cloud Search data source and identity source access api.serviceAccountPrivateKeyFile=/path/to/file.json api.sourceId=0123456789abcde api.identitySourceId=a1b1c1234567 # Required parameters for file system access fs.src=\\\\host\\share;\\\\dfshost\\dfsnamespace;\\\\dfshost\\dfsnamespace\\link # Optional parameters for file system monitoring traverse.abortAfterExceptions=500 fs.monitorForUpdates = true fs.preserveLastAccessTime = IF_ALLOWED
हर पैरामीटर के बारे में ज़्यादा जानकारी पाने के लिए, कॉन्फ़िगरेशन पैरामीटर के रेफ़रंस पर जाएं.
(ज़रूरी नहीं) ज़रूरत के मुताबिक, कनेक्टर के अन्य पैरामीटर कॉन्फ़िगर करें. ज़्यादा जानकारी के लिए, Google के उपलब्ध कराए गए कनेक्टर पैरामीटर पर जाएं.
तीसरा चरण. प्रवेश करना सक्षम करें
- कनेक्टर बाइनरी वाली डायरेक्ट्री में,
logs
नाम का फ़ोल्डर बनाएं. कनेक्टर बाइनरी वाली डायरेक्ट्री में,
logging.properties
नाम की ASCII या UTF-8 फ़ाइल बनाएं. इसके बाद, इसमें यह कॉन्टेंट जोड़ें:handlers = java.util.logging.ConsoleHandler,java.util.logging.FileHandler # Default log level .level = WARNING com.google.enterprise.cloudsearch.level = INFO com.google.enterprise.cloudsearch.fs.level = INFO # uncomment line below to increase logging level to enable API trace #com.google.api.client.http.level = FINE java.util.logging.ConsoleHandler.level = INFO java.util.logging.FileHandler.pattern=logs/connector-fs.%g.log java.util.logging.FileHandler.limit=10485760 java.util.logging.FileHandler.count=10 java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
चरण 4. (ज़रूरी नहीं) मीडिया टाइप कॉन्फ़िगर करना
डिफ़ॉल्ट रूप से, कनेक्टर JDK-provided मीडिया टाइप का पता लगाने की सुविधा का इस्तेमाल करके, हर फ़ाइल के मीडिया टाइप का पता लगाने की कोशिश करता है. Microsoft Windows पर, JDK फ़ाइलों के मीडिया टाइप का पता लगाने के लिए Windows रजिस्ट्री पर निर्भर करता है. रजिस्ट्री एंट्री मौजूद न होने पर, कुछ फ़ाइलों के लिए मीडिया टाइप की वैल्यू शून्य हो सकती है.
अगर ज़रूरी हो, तो ऐसा मीडिया टाइप तय किया जा सकता है जो किसी भी मौजूदा बाइंडिंग को बदल दे या शून्य मीडिया टाइप को रोक दे.
- कनेक्टर डायरेक्ट्री में,
mime-type.properties
नाम की Latin-1-encrypted फ़ाइल बनाएं. यहां दिए गए उदाहरणों की तरह, फ़ाइल एक्सटेंशन और उनसे जुड़े मीडिया टाइप डालें:
xlsx=application/vnd.openxmlformats-officedocument.spreadsheetml.sheet one=application/msonenote txt=text/plain pdf=application/pdf
पाँचवाँ चरण: फ़ाइल सिस्टम कनेक्टर को चलाएँ
फ़ाइल सिस्टम कनेक्टर को इंस्टॉल और कॉन्फ़िगर करने के बाद, इसे होस्ट मशीन पर लॉन्च करने के लिए, यहां दिए गए उदाहरण की तरह कोई निर्देश चलाएं:
> java -jar google-cloudsearch-windows-filesystems-connector-v1-0.0.3.jar -Djava.util.logging.config.file=logging.properties[ -Dconfig=my.config]
अगर कॉन्फ़िगरेशन फ़ाइल का पाथ डिफ़ॉल्ट पाथ से अलग है, तो उसे तय करें. डिफ़ॉल्ट पाथ, connector-config.properties
नाम वाले बाइनरी के साथ एक ही डायरेक्ट्री में होता है.
कॉन्फ़िगरेशन पैरामीटर का रेफ़रंस
डेटा स्रोत की ऐक्सेस
सेटिंग | पैरामीटर |
डेटा सोर्स का आईडी | api.sourceId=1234567890abcdef
ज़रूरी है. Google Workspace एडमिन ने Google Cloud Search का यह सोर्स आईडी सेट अप किया है. |
सेवा खाते की निजी कुंजी फ़ाइल का पाथ | api.serviceAccountPrivateKeyFile=./PrivateKey.json
ज़रूरी है. Google Cloud Search सेवा खाते की कुंजी फ़ाइल. इससे Google Cloud Search के फ़ाइल सिस्टम कनेक्टर को ऐक्सेस किया जा सकता है. |
पहचान स्रोत आईडी | api.identitySourceId=x0987654321
ज़रूरी है. यह Cloud Search के आइडेंटिटी सोर्स का आईडी है. इसे Google Workspace एडमिन ने सेट अप किया है, ताकि GCDS का इस्तेमाल करके, ऐक्टिव डायरेक्ट्री की पहचानों को सिंक किया जा सके. |
फ़ाइल सिस्टम का ऐक्सेस
सेटिंग | पैरामीटर |
सोर्स फ़ाइल सिस्टम | fs.src=path1[,path2, ...]
ज़रूरी है. सोर्स फ़ाइल सिस्टम को एक या उससे ज़्यादा यूएनसी सोर्स के तौर पर तय करें. इन्हें |
पाथ सेपरेटर वर्ण
सेटिंग | पैरामीटर |
पाथ सेपरेटर वर्ण | fs.src.separator=separator-character
डिफ़ॉल्ट सेपरेटर ";" होता है. अगर आपके सोर्स पाथ में सेमीकोलन शामिल हैं, तो कोई दूसरा डेलिमिटर सेट किया जा सकता है. जैसे, कॉमा (","). यह डेलिमिटर, आपके पाथ में मौजूद वर्णों से मेल नहीं खाना चाहिए. साथ ही, इसे प्रॉपर्टी फ़ाइल के सिंटैक्स के लिए रिज़र्व नहीं किया जाना चाहिए. अगर |
कनेक्टर का व्यवहार
सेटिंग | पैरामीटर |
Windows डोमेन | fs.supportedDomain=domain
GCDS का इस्तेमाल करने वाले उपयोगकर्ताओं को Cloud Search के ज़रिए दस्तावेज़ ऐक्सेस करने की अनुमति देने के लिए, इस कुकी का इस्तेमाल किया जाता है. इसे Active Directory के एक NetBIOS डोमेन नाम के तौर पर तय करें. |
एसीएल में खाते शामिल करना | fs.supportedAccounts=account-1[, account-2,...]
कॉमा लगाकर अलग किए गए खातों की सूची. इन्हें एएलसी में शामिल किया जाएगा. इससे कोई फ़र्क़ नहीं पड़ता कि ये खाते पहले से मौजूद हैं या नहीं. डिफ़ॉल्ट वैल्यू |
एसीएल से बिल्ट-इन खातों को बाहर रखना | fs.builtinGroupPrefix=prefix
बिल्ट-इन खातों का प्रीफ़िक्स तय करें. इस प्रीफ़िक्स से शुरू होने वाले खाते को बिल्ट-इन खाता माना जाता है. इसे एएलसी से बाहर रखा जाएगा. डिफ़ॉल्ट वैल्यू |
छिपी हुई फ़ाइलों और फ़ोल्डर को इंडेक्स करने की अनुमति दें | fs.crawlHiddenFiles=boolean
इस वैल्यू को |
क्रॉल किए गए फ़ोल्डर की लिस्टिंग और DFS नेमस्पेस की गिनती को इंडेक्स करने की अनुमति दें | fs.indexFolders=boolean
|
फ़ाइल सिस्टम में हुए बदलावों को मॉनिटर करने की सुविधा चालू करें | fs.monitorForUpdates=boolean
|
डायरेक्ट्री की कैश मेमोरी का ज़्यादा से ज़्यादा साइज़ सेट करना | fs.directoryCacheSize=number-of-entries
डायरेक्ट्री कैश का ज़्यादा से ज़्यादा साइज़. कनेक्टर, कैश मेमोरी का इस्तेमाल करके छिपे हुए फ़ोल्डर की पहचान करता है. इससे छिपे हुए फ़ोल्डर में मौजूद फ़ाइलों और फ़ोल्डर को इंडेक्स करने से बचा जा सकता है. डिफ़ॉल्ट रूप से, 50,000 एंट्री होती हैं. आम तौर पर, इनमें 10 से 15 मेगाबाइट रैम का इस्तेमाल होता है. |
टाइमस्टैंप बनाए रखना और क्रॉल करने की सुविधा को कंट्रोल करना
सेटिंग | पैरामीटर |
पिछली बार ऐक्सेस करने का टाइमस्टैंप सेव रखना है | fs.preserveLastAccessTime=value
जब कनेक्टर, फ़ाइलों और फ़ोल्डर को क्रॉल करता है, तो वह फ़ाइलों और फ़ोल्डर के आखिरी ऐक्सेस के टाइमस्टैंप को क्रॉल के समय में बदल सकता है. आखिरी बार ऐक्सेस करने के समय की जानकारी सेव न होने पर, बैकअप और संग्रह करने वाले सिस्टम, कनेक्टर के विज़िट करने की वजह से सही फ़ाइलों और फ़ोल्डर को सेकंडरी स्टोरेज में ट्रांसफ़र नहीं कर पाते. डिफ़ॉल्ट रूप से, कनेक्टर फ़ाइल के आखिरी ऐक्सेस समय को सुरक्षित रखने की कोशिश करता है ( जितनी तरह के साइटमैप हो सकते हैं उनकी जानकारी यहां दी गई है:
|
सिर्फ़ उन फ़ाइलों को क्रॉल करें जिन्हें किसी तारीख के बाद ऐक्सेस किया गया था | fs.lastAccessedDate=YYYY-MM-DD
कॉन्टेंट को सिर्फ़ तब क्रॉल करें, जब उसे आखिरी बार ऐक्सेस करने का समय, तय की गई तारीख के बाद का हो. डिफ़ॉल्ट वैल्यू तारीख को ISO8601 तारीख के फ़ॉर्मैट में डालें: YYYY-MM-DD. उदाहरण के लिए, अगर वैल्यू 2010-01-01 है, तो कनेक्टर सिर्फ़ उस कॉन्टेंट को क्रॉल करेगा जिसे 2010 की शुरुआत के बाद ऐक्सेस किया गया था.
|
सिर्फ़ उन फ़ाइलों को क्रॉल करें जिन्हें पिछले कुछ दिनों में ऐक्सेस किया गया है | fs.lastAccessedDays=number-of-days
कॉन्टेंट को सिर्फ़ तब क्रॉल करें, जब उसे आखिरी बार ऐक्सेस किए जाने का समय, मौजूदा समय से पहले के दिनों की संख्या के अंदर हो. डिफ़ॉल्ट वैल्यू इस प्रॉपर्टी का इस्तेमाल, पहले इंडेक्स किए गए ऐसे कॉन्टेंट की समयसीमा खत्म करने के लिए करें जिसे कुछ समय से ऐक्सेस नहीं किया गया है. उदाहरण के लिए, अगर आपको सिर्फ़ पिछले साल ऐक्सेस किए गए कॉन्टेंट को क्रॉल करना है, तो इसे 365 पर सेट करें.
|
सिर्फ़ उन फ़ाइलों को क्रॉल करें जिनमें किसी तारीख के बाद बदलाव किया गया है | fs.lastModifiedDate=YYYY-MM-DD
कॉन्टेंट को सिर्फ़ तब क्रॉल करें, जब उसमें आखिरी बार बदलाव करने का समय, तय की गई तारीख के बाद का हो. डिफ़ॉल्ट वैल्यू तारीख को ISO8601 तारीख के फ़ॉर्मैट में डालें: YYYY-MM-DD. उदाहरण के लिए, अगर वैल्यू 2010-01-01 है, तो कनेक्टर सिर्फ़ उस कॉन्टेंट को क्रॉल करेगा जिसे 2010 की शुरुआत के बाद बदला गया था.
|
सिर्फ़ उन फ़ाइलों को क्रॉल करें जिनमें पिछले कुछ दिनों में बदलाव किया गया है | fs.lastModifiedDays=number-of-days
कॉन्टेंट को सिर्फ़ तब क्रॉल करें, जब आखिरी बार बदलाव किए जाने का समय, मौजूदा समय से पहले के दिनों की संख्या के अंदर हो. डिफ़ॉल्ट वैल्यू इस प्रॉपर्टी का इस्तेमाल करके, पहले से इंडेक्स किए गए उस कॉन्टेंट को हटाया जा सकता है जिसमें कुछ समय से कोई बदलाव नहीं किया गया है. उदाहरण के लिए, अगर आपको सिर्फ़ पिछले साल में बदले गए कॉन्टेंट को क्रॉल करना है, तो इसे 365 पर सेट करें.
|
फ़ाइल शेयर करने के ऐक्सेस कंट्रोल को छोड़ें
डिफ़ॉल्ट रूप से, कनेक्टर ऐक्सेस कंट्रोल लिस्ट (एसीएल) को इंडेक्सिंग एपीआई को भेजते समय, ऐक्सेस कंट्रोल की अखंडता को बनाए रखता है. इसमें फ़ाइल शेयर करने की सुविधा के लिए एसीएल भी शामिल हैं. हालांकि, कुछ कॉन्फ़िगरेशन में कनेक्टर के पास शेयर किए गए एसीएल को पढ़ने की ज़रूरी अनुमतियां नहीं हो सकती हैं. ऐसे मामलों में, कनेक्टर खोज के नतीजों में, उस फ़ाइल शेयर पर मौजूद कोई भी फ़ाइल नहीं दिखाता है.
कनेक्टर को शेयर करने की अनुमति से जुड़ी सेटिंग को अनदेखा करने के लिए सेट किया जा सकता है, ताकि कॉन्टेंट हमेशा खोज के नतीजों में दिखे. इस मामले में, Indexing API को शेयर करने की अनुमति देने वाली पूरी ACL मिलती है. हालांकि, उसे शेयर करने की अनुमति देने वाली असल ACL मिलनी चाहिए.
सेटिंग | पैरामीटर |
फ़ाइल शेयर करने के ऐक्सेस कंट्रोल को छोड़ें | fs.skipShareAccessControl=boolean
शेयर करने के लिए एसीएल लागू करने के लिए, इसे |