Google Cloud Platform पर, ज़्यादा संख्या में पते की पुष्टि करने के लिए डिज़ाइन वाले पैटर्न बनाना

मकसद

ज़्यादा वॉल्यूम वाले पते की पुष्टि करने वाले ट्यूटोरियल से आपको ऐसे अलग-अलग मामलों के बारे में जानकारी मिलती है जिनमें बड़ी संख्या में पते की पुष्टि करने की सुविधा इस्तेमाल की जा सकती है. इस ट्यूटोरियल में हम आपको Google Cloud Platform के अलग-अलग डिज़ाइन पैटर्न के बारे में बताएंगे. इनकी मदद से, हाई वॉल्यूम में पते की पुष्टि की जा सकती है.

हम एक बार में कई पतों की पुष्टि करने के लिए, Google Cloud Platform में Cloud Run, Compute Engine या Google Kubernetes Engine का इस्तेमाल करने के बारे में खास जानकारी के साथ शुरुआत करेंगे. इसके बाद, हम देखेंगे कि डेटा पाइपलाइन के हिस्से के तौर पर, इस सुविधा को कैसे शामिल किया जा सकता है.

इस लेख को पढ़ने के बाद, आपको अपने Google Cloud एनवायरमेंट में, बड़े पैमाने पर पते की पुष्टि करने के अलग-अलग विकल्पों के बारे में अच्छी जानकारी हो जाएगी.

Google Cloud Platform पर रेफ़रंस आर्किटेक्चर

इस सेक्शन में, Google Cloud Platform का इस्तेमाल करके, बड़े पैमाने पर पतों की पुष्टि करने के लिए, अलग-अलग डिज़ाइन पैटर्न के बारे में ज़्यादा जानकारी दी गई है. Google Cloud Platform पर चलाकर, इसे अपनी मौजूदा प्रोसेस और डेटा पाइपलाइन के साथ इंटिग्रेट किया जा सकता है.

Google Cloud Platform पर, एक बार बहुत ज़्यादा संख्या में पते की पुष्टि की जा रही है

यहां Google Cloud Platform पर इंटिग्रेशन बनाने का तरीका बताया गया है. यह तरीका, एक बार के ऑपरेशन या टेस्टिंग के लिए ज़्यादा सही है.

इमेज

इस स्थिति में, हमारा सुझाव है कि CSV फ़ाइल को Cloud Storage बकेट में अपलोड करें. इसके बाद, हाई वॉल्यूम वाले पते की पुष्टि करने वाली स्क्रिप्ट को Cloud Run एनवायरमेंट से चलाया जा सकता है. हालांकि, इसे किसी भी अन्य रनटाइम एनवायरमेंट, जैसे कि Compute Engine या Google Kubernetes Engine पर एक्ज़ीक्यूट किया जा सकता है. आउटपुट CSV को Cloud Storage बकेट में भी अपलोड किया जा सकता है.

Google Cloud Platform की डेटा पाइपलाइन के तौर पर चलना

पिछले सेक्शन में दिखाया गया डिप्लॉयमेंट पैटर्न, एक बार इस्तेमाल किए जाने वाले हाई वॉल्यूम पते की पुष्टि करने की सुविधा को तेज़ी से टेस्ट करने का बेहतरीन तरीका है. हालांकि, अगर आपको डेटा पाइपलाइन के हिस्से के तौर पर इसका नियमित तौर पर इस्तेमाल करना है, तो Google Cloud Platform की नेटिव सुविधाओं का बेहतर तरीके से फ़ायदा उठाकर, इसे ज़्यादा बेहतर बनाया जा सकता है. आपके पास इनमें से कुछ बदलाव करने की अनुमति है:

इमेज

  • इस मामले में, Cloud Storage बकेट में CSV फ़ाइलें डाली जा सकती हैं.
  • Dataflow जॉब, प्रोसेस किए जाने वाले पतों को चुन सकता है और फिर उन्हें BigQuery में कैश मेमोरी में सेव कर सकता है.
  • Dataflow Python लाइब्रेरी को बड़ा करके, ज़्यादा पतों की पुष्टि करने का लॉजिक जोड़ा जा सकता है. इससे, Dataflow जॉब से पतों की पुष्टि की जा सकती है.

डेटा पाइपलाइन से स्क्रिप्ट को लंबे समय तक चलने वाली बार-बार होने वाली प्रोसेस के तौर पर चलाना

एक अन्य सामान्य तरीका, स्ट्रीमिंग डेटा पाइपलाइन के हिस्से के तौर पर पतों के बैच की पुष्टि करना है. ऐसा बार-बार होने वाली प्रोसेस के तौर पर किया जाता है. आपके पास bigquery डेटास्टोर में भी पते हो सकते हैं. इस तरीके में, हम बार-बार लागू होने वाले डेटा पाइपलाइन को बनाने का तरीका देखेंगे (जिसे हर रोज़/हफ़्ते/महीने में ट्रिगर करना होगा)

इमेज

  • शुरुआती CSV फ़ाइल को Cloud Storage बकेट में अपलोड करें.
  • लंबे समय तक चलने वाली प्रोसेस के लिए, इंटरमीडिएट स्टेटस बनाए रखने के लिए, Memorystore को स्थायी डेटास्टोर के तौर पर इस्तेमाल करें.
  • BigQuery डेटास्टोर में, फ़ाइनल पतों को कैश मेमोरी में सेव करें.
  • स्क्रिप्ट को समय-समय पर चलाने के लिए, Cloud Scheduler सेट अप करें.

इस आर्किटेक्चर के ये फ़ायदे हैं:

  • Cloud Scheduler का इस्तेमाल करके, समय-समय पर पते की पुष्टि की जा सकती है. हो सकता है कि आप हर महीने पतों की फिर से पुष्टि करना चाहें या हर महीने/तिमाही में नए पतों की पुष्टि करना चाहें. इस आर्किटेक्चर से, उस इस्तेमाल के उदाहरण को हल करने में मदद मिलती है.
  • अगर ग्राहक का डेटा BigQuery में है, तो पुष्टि किए गए पतों या पुष्टि करने वाले फ़्लैग को सीधे वहां कैश मेमोरी में सेव किया जा सकता है. ध्यान दें: ज़्यादा संख्या में पतों की पुष्टि करने के बारे में लेख में बताया गया है कि क्या कैश मेमोरी में सेव किया जा सकता है और कैसे

  • Memorystore का इस्तेमाल करने से, ज़्यादा पतों को प्रोसेस करने की सुविधा मिलती है. साथ ही, यह ज़्यादा समय तक काम करता है. यह तरीका पूरी प्रोसेसिंग पाइपलाइन में स्थिति जोड़ता है, जो पते के बहुत बड़े डेटासेट को हैंडल करने के लिए ज़रूरी है. यहां अन्य डेटाबेस टेक्नोलॉजी का भी इस्तेमाल किया जा सकता है. जैसे, Cloud SQL[https://cloud.google.com/sql] या Google Cloud Platform पर उपलब्ध डेटाबेस का कोई अन्य वर्शन. हालांकि, हमें लगता है कि मेमोरीस्टोर, स्केलिंग और आसानी से इस्तेमाल करने की ज़रूरतों को बेहतर तरीके से पूरा करता है. इसलिए, यह पहली पसंद होनी चाहिए.

नतीजा

यहां बताए गए पैटर्न लागू करके, Address Validation API का इस्तेमाल अलग-अलग इस्तेमाल के उदाहरणों के लिए किया जा सकता है. साथ ही, Google Cloud Platform पर अलग-अलग इस्तेमाल के उदाहरणों से भी इसका इस्तेमाल किया जा सकता है.

हमने एक ओपन सोर्स Python लाइब्रेरी लिखी है, ताकि आपको ऊपर बताए गए इस्तेमाल के उदाहरणों को इस्तेमाल करने में मदद मिल सके. इसे आपके कंप्यूटर पर कमांड लाइन से या Google Cloud Platform या अन्य क्लाउड सेवा देने वाली कंपनियों से शुरू किया जा सकता है.

इस लेख से, लाइब्रेरी का इस्तेमाल करने के तरीके के बारे में ज़्यादा जानें.

अगले चरण

भरोसेमंद पतों की मदद से चेकआउट, डिलीवरी, और ऑपरेशंस को बेहतर बनाएं व्हाइट पेपर डाउनलोड करें. साथ ही, पते की पुष्टि करने की सुविधा की मदद से चेकआउट, डिलीवरी, और ऑपरेशंस को बेहतर बनाना वेबिनार देखें.

इसके बारे में और पढ़ने के लिए:

योगदानकर्ता

इस लेख को Google मैनेज करता है. इसे मूल रूप से इन लोगों ने लिखा था.
मुख्य लेखक:

हेनरिक वाल्व | समाधान इंजीनियर
थॉमस ऐंगलरेट | समाधान इंजीनियर
सार्थक गंगुली | समाधान इंजीनियर