Google Cloud Platform पर, ज़्यादा संख्या में पते की पुष्टि करने के लिए डिज़ाइन वाले पैटर्न बनाना

मकसद

बड़ी संख्या में पतों की पुष्टि करने के ट्यूटोरियल में, उन अलग-अलग स्थितियों के बारे में बताया गया है जिनमें बड़ी संख्या में पतों की पुष्टि की जा सकती है. इस ट्यूटोरियल में, हम आपको Google Cloud Platform में मौजूद अलग-अलग डिज़ाइन पैटर्न के बारे में बताएंगे. इनकी मदद से, एक साथ कई पतों की पुष्टि की जा सकती है.

हम एक बार में कई पतों की पुष्टि करने के लिए, Google Cloud Platform में Cloud Run, Compute Engine या Google Kubernetes Engine का इस्तेमाल करने के बारे में खास जानकारी के साथ शुरुआत करेंगे. इसके बाद, हम देखेंगे कि इस सुविधा को डेटा पाइपलाइन के हिस्से के तौर पर कैसे शामिल किया जा सकता है.

इस लेख को पढ़ने के बाद, आपको अपने Google Cloud एनवायरमेंट में, बड़े पैमाने पर पते की पुष्टि करने के अलग-अलग विकल्पों के बारे में अच्छी जानकारी मिल जाएगी.

Google Cloud Platform पर रेफ़रंस आर्किटेक्चर

इस सेक्शन में, Google Cloud Platform का इस्तेमाल करके, बड़े पैमाने पर पतों की पुष्टि करने के लिए, अलग-अलग डिज़ाइन पैटर्न के बारे में ज़्यादा जानकारी दी गई है. Google Cloud Platform पर चलाकर, इसे अपनी मौजूदा प्रोसेस और डेटा पाइपलाइन के साथ इंटिग्रेट किया जा सकता है.

Google Cloud Platform पर, एक बार में कई पतों की पुष्टि करना

यहां Google Cloud Platform पर इंटिग्रेशन बनाने का तरीका बताया गया है. यह तरीका, एक बार के ऑपरेशन या टेस्टिंग के लिए ज़्यादा सही है.

इमेज

ऐसे में, हमारा सुझाव है कि आप CSV फ़ाइल को Cloud Storage बकेट में अपलोड करें. इसके बाद, ज़्यादा पतों की पुष्टि करने वाली स्क्रिप्ट को Cloud Run एनवायरमेंट से चलाया जा सकता है. हालांकि, इसे Compute Engine या Google Kubernetes Engine जैसे किसी भी दूसरे रनटाइम एनवायरमेंट में चलाया जा सकता है. आउटपुट CSV को Cloud Storage बकेट में भी अपलोड किया जा सकता है.

Google Cloud Platform की डेटा पाइपलाइन के तौर पर चलना

पिछले सेक्शन में दिखाया गया डिप्लॉयमेंट पैटर्न, एक बार इस्तेमाल के लिए ज़्यादा संख्या में पतों की पुष्टि करने की सुविधा की तुरंत जांच करने के लिए बहुत अच्छा है. हालांकि, अगर आपको डेटा पाइपलाइन के हिस्से के तौर पर इसका नियमित तौर पर इस्तेमाल करना है, तो Google Cloud Platform की नेटिव सुविधाओं का बेहतर तरीके से फ़ायदा उठाया जा सकता है, ताकि इसे ज़्यादा बेहतर बनाया जा सके. आपके पास इनमें से कुछ बदलाव करने का विकल्प होता है:

इमेज

  • इस मामले में, CSV फ़ाइलों को Cloud Storage बकेट में डाला जा सकता है.
  • Dataflow जॉब, प्रोसेस किए जाने वाले पतों को चुन सकता है और फिर उन्हें BigQuery में कैश मेमोरी में सेव कर सकता है.
  • Dataflow Python लाइब्रेरी को बड़ा करके, ज़्यादा संख्या में पतों की पुष्टि करने का लॉजिक जोड़ा जा सकता है. इससे, Dataflow जॉब से पतों की पुष्टि की जा सकती है.

डेटा पाइपलाइन से स्क्रिप्ट को लंबे समय तक चलने वाली बार-बार होने वाली प्रोसेस के तौर पर चलाना

एक और आम तरीका यह है कि स्ट्रीमिंग डेटा पाइपलाइन के हिस्से के तौर पर, पतों के एक बैच की पुष्टि बार-बार की जाए. आपके पास bigquery डेटास्टोर में भी पते हो सकते हैं. इस तरीके में, हम बार-बार चलने वाली डेटा पाइपलाइन बनाने का तरीका देखेंगे. इसे हर दिन/हफ़्ते/महीने में ट्रिगर करना होता है

इमेज

  • शुरुआती CSV फ़ाइल को Cloud Storage बकेट में अपलोड करें.
  • लंबे समय तक चलने वाली प्रोसेस के लिए, इंटरमीडिएट स्टेटस बनाए रखने के लिए, Memorystore का इस्तेमाल, पर्सिस्टेंट डेटास्टोर के तौर पर करें.
  • BigQuery डेटास्टोर में फ़ाइनल पते कैश मेमोरी में सेव करें.
  • स्क्रिप्ट को समय-समय पर चलाने के लिए, Cloud Scheduler सेट अप करें.

इस आर्किटेक्चर के ये फ़ायदे हैं:

  • Cloud Scheduler का इस्तेमाल करके, समय-समय पर पते की पुष्टि की जा सकती है. हो सकता है कि आप हर महीने पतों की फिर से पुष्टि करना चाहें या हर महीने/तिमाही में नए पतों की पुष्टि करना चाहें. इस आर्किटेक्चर से, उस इस्तेमाल के उदाहरण को हल करने में मदद मिलती है.
  • अगर ग्राहक का डेटा BigQuery में है, तो पुष्टि किए गए पतों या पुष्टि करने वाले फ़्लैग को सीधे वहां कैश मेमोरी में सेव किया जा सकता है. ध्यान दें: ज़्यादा संख्या में पतों की पुष्टि करने के बारे में लेख में बताया गया है कि किन चीज़ों को कैश मेमोरी में सेव किया जा सकता है और कैसे

  • Memorystore का इस्तेमाल करने से, ज़्यादा पतों को प्रोसेस करने की सुविधा मिलती है. साथ ही, यह ज़्यादा समय तक काम करता है. यह चरण, प्रोसेसिंग पाइपलाइन में स्टेटफ़ुलनेस जोड़ता है. यह बहुत बड़े पते के डेटासेट को मैनेज करने के लिए ज़रूरी है. यहां अन्य डेटाबेस टेक्नोलॉजी का भी इस्तेमाल किया जा सकता है. जैसे, Cloud SQL[https://cloud.google.com/sql] या Google Cloud Platform की ओर से उपलब्ध डेटाबेस का कोई अन्य फ़्लेवर. हालांकि, हमें लगता है कि मेमोरीस्टोर, स्केलिंग और आसानी से इस्तेमाल करने की ज़रूरतों को बेहतर तरीके से पूरा करता है. इसलिए, यह पहली पसंद होनी चाहिए.

नतीजा

यहां बताए गए पैटर्न लागू करके, Address Validation API का इस्तेमाल अलग-अलग इस्तेमाल के उदाहरणों के लिए किया जा सकता है. साथ ही, Google Cloud Platform पर अलग-अलग इस्तेमाल के उदाहरणों से भी इसका इस्तेमाल किया जा सकता है.

हमने ऊपर बताए गए इस्तेमाल के उदाहरणों को शुरू करने में आपकी मदद करने के लिए, एक ओपन-सोर्स Python लाइब्रेरी लिखी है. इसे आपके कंप्यूटर पर कमांड लाइन से या Google Cloud Platform या अन्य क्लाउड सेवा देने वाली कंपनियों से शुरू किया जा सकता है.

लाइब्रेरी का इस्तेमाल करने के तरीके के बारे में ज़्यादा जानने के लिए, यह लेख पढ़ें.

अगले चरण

भरोसेमंद पतों की मदद से चेकआउट, डिलीवरी, और ऑपरेशंस को बेहतर बनाएं व्हाइट पेपर डाउनलोड करें. साथ ही, पते की पुष्टि करने की सुविधा की मदद से चेकआउट, डिलीवरी, और ऑपरेशंस को बेहतर बनाना वेबिनार देखें.

इस बारे में और जानने के लिए, ये लेख पढ़ें:

योगदानकर्ता

इस लेख को Google मैनेज करता है. इसे मूल रूप से इन लोगों ने लिखा था.
मुख्य लेखक:

हेनरिक वाल्व | समाधान इंजीनियर
थॉमस एंगलरेट | समाधान इंजीनियर
सार्थक गंगुली | समाधान इंजीनियर