ออกแบบรูปแบบสำหรับการตรวจสอบที่อยู่ปริมาณมากใน Google Cloud Platform

วัตถุประสงค์

บทแนะนำการตรวจสอบที่อยู่จำนวนมากจะแนะนำสถานการณ์ต่างๆ ที่สามารถใช้การตรวจสอบที่อยู่จำนวนมากได้ ในบทแนะนํานี้ เราจะแนะนํารูปแบบการออกแบบต่างๆ ภายใน Google Cloud Platform สําหรับการเรียกใช้การยืนยันที่อยู่จํานวนมาก

เราจะเริ่มต้นด้วยภาพรวมของการเรียกใช้การยืนยันที่อยู่จำนวนมากใน Google Cloud Platform ด้วย Cloud Run, Compute Engine หรือ Google Kubernetes Engine สำหรับการเรียกใช้แบบครั้งเดียว จากนั้นเราจะดูว่าความสามารถนี้สามารถรวมเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลได้อย่างไร

เมื่ออ่านบทความนี้จบ คุณควรเข้าใจตัวเลือกต่างๆ ในการใช้งานการยืนยันที่อยู่ในปริมาณมากในสภาพแวดล้อม Google Cloud

สถาปัตยกรรมอ้างอิงใน Google Cloud Platform

ส่วนนี้จะเจาะลึกรูปแบบการออกแบบต่างๆ สำหรับการยืนยันที่อยู่จำนวนมากโดยใช้ Google Cloud Platform การทำงานบน Google Cloud Platform ช่วยให้คุณผสานรวมกับกระบวนการและไปป์ไลน์ข้อมูลที่มีอยู่ได้

เรียกใช้การยืนยันที่อยู่จำนวนมากเพียงครั้งเดียวใน Google Cloud Platform

ด้านล่างนี้คือสถาปัตยกรรมอ้างอิงสำหรับวิธีสร้างการผสานรวมใน Google Cloud Platform ซึ่งเหมาะสำหรับการดำเนินการหรือการทดสอบแบบครั้งเดียวมากกว่า

รูปภาพ

ในกรณีนี้ เราขอแนะนำให้อัปโหลดไฟล์ CSV ไปยังที่เก็บข้อมูล Cloud Storage จากนั้นคุณจะเรียกใช้สคริปต์การยืนยันที่อยู่จำนวนมากได้จากสภาพแวดล้อม Cloud Run แต่คุณสามารถเรียกใช้ได้ในสภาพแวดล้อมรันไทม์อื่นๆ เช่น Compute Engine หรือ Google Kubernetes Engine นอกจากนี้ คุณยังอัปโหลด CSV ผลลัพธ์ไปยังที่เก็บข้อมูล Cloud Storage ได้ด้วย

ทำงานเป็นไปป์ไลน์ข้อมูล Google Cloud Platform

รูปแบบการใช้งานที่แสดงในส่วนก่อนหน้าเหมาะอย่างยิ่งสำหรับการทดสอบการยืนยันที่อยู่จำนวนมากอย่างรวดเร็วสําหรับการใช้งานแบบครั้งเดียว อย่างไรก็ตาม หากจำเป็นต้องใช้เป็นประจำในไปป์ไลน์ข้อมูล คุณก็ใช้ประโยชน์จากความสามารถของ Google Cloud Platform เองได้ดีกว่าเพื่อให้มีประสิทธิภาพมากขึ้น การเปลี่ยนแปลงที่คุณทำได้มีดังนี้

รูปภาพ

  • ในกรณีนี้ คุณสามารถส่งออกไฟล์ CSV ไปยังที่เก็บข้อมูล Cloud Storage
  • งาน Dataflow สามารถรับที่อยู่ที่จะประมวลผล แล้วแคชไว้ใน BigQuery
  • ไลบรารี Python ของ Dataflow สามารถขยายให้มีตรรกะสําหรับการยืนยันที่อยู่จํานวนมากเพื่อตรวจสอบที่อยู่จากงาน Dataflow

การเรียกใช้สคริปต์จากไปป์ไลน์ข้อมูลเป็นกระบวนการที่เกิดซ้ำในระยะยาว

อีกแนวทางหนึ่งที่พบบ่อยคือการยืนยันที่อยู่หลายรายการเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลสตรีมมิงเป็นกระบวนการที่เกิดซ้ำ คุณอาจมีที่อยู่อยู่ในที่เก็บข้อมูล BigQuery ด้วย ในแนวทางนี้ เราจะดูวิธีสร้างไปป์ไลน์ข้อมูลที่เกิดซ้ำ (ซึ่งต้องทริกเกอร์ทุกวัน/รายสัปดาห์/รายเดือน)

รูปภาพ

  • อัปโหลดไฟล์ CSV เริ่มต้นไปยังที่เก็บข้อมูล Cloud Storage
  • ใช้ Memorystore เป็นที่เก็บข้อมูลแบบถาวรเพื่อรักษาสถานะกลางสำหรับกระบวนการที่ทำงานเป็นเวลานาน
  • แคชที่อยู่สุดท้ายในพื้นที่เก็บข้อมูล BigQuery
  • ตั้งค่า Cloud Scheduler ให้เรียกใช้สคริปต์เป็นระยะ

สถาปัตยกรรมนี้มีข้อดีดังต่อไปนี้

  • คุณสามารถใช้ Cloud Scheduler เพื่อตรวจสอบที่อยู่เป็นระยะๆ คุณอาจต้องตรวจสอบที่อยู่อีกครั้งทุกเดือน หรือตรวจสอบที่อยู่ใหม่ทุกเดือน/ไตรมาส สถาปัตยกรรมนี้ช่วยแก้ปัญหา Use Case ดังกล่าว
  • หากข้อมูลลูกค้าอยู่ใน BigQuery ระบบจะแคชที่อยู่ที่ได้รับการตรวจสอบหรือ Flag การตรวจสอบไว้โดยตรง หมายเหตุ: โปรดดูรายละเอียดเกี่ยวกับสิ่งที่แคชได้และวิธีแคชในบทความการตรวจสอบที่อยู่จำนวนมาก

  • การใช้ Memorystore จะช่วยเพิ่มความยืดหยุ่นและความสามารถในการประมวลผลที่อยู่ได้มากขึ้น ขั้นตอนนี้จะเพิ่มสถานะให้กับไปป์ไลน์การประมวลผลทั้งหมด ซึ่งจําเป็นสําหรับการจัดการชุดข้อมูลที่อยู่ขนาดใหญ่มาก เทคโนโลยีฐานข้อมูลอื่นๆ เช่น Cloud SQL[https://cloud.google.com/sql] หรือฐานข้อมูลรูปแบบอื่นๆ ที่ Google Cloud Platform นำเสนอก็ใช้ได้เช่นกัน อย่างไรก็ตาม เราเชื่อว่า Memorystore เหมาะสําหรับการใช้งานมากที่สุดเนื่องจากมีการปรับขนาดและความต้องการความเรียบง่ายที่ลงตัว จึงควรเป็นตัวเลือกแรก

บทสรุป

เมื่อใช้รูปแบบที่อธิบายไว้ที่นี่ คุณจะใช้ Address Validation API สำหรับกรณีการใช้งานต่างๆ และจากกรณีการใช้งานต่างๆ ใน Google Cloud Platform ได้

เราได้เขียนไลบรารี Python แบบโอเพนซอร์สเพื่อช่วยให้คุณเริ่มต้นใช้งานกรณีการใช้งานที่อธิบายไว้ข้างต้น ซึ่งสามารถเรียกใช้จากบรรทัดคำสั่งในคอมพิวเตอร์ หรือเรียกใช้จาก Google Cloud Platform หรือผู้ให้บริการระบบคลาวด์รายอื่นๆ

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีใช้คลังได้จากบทความนี้

ขั้นตอนถัดไป

ดาวน์โหลดเอกสารประกอบปรับปรุงการชำระเงิน การนำส่ง และการดำเนินการด้วยที่อยู่ที่น่าเชื่อถือ และดูการสัมมนาผ่านเว็บเรื่องการปรับปรุงการชำระเงิน การนำส่ง และการดำเนินการด้วยการตรวจสอบที่อยู่

แหล่งข้อมูลอื่นๆ ที่แนะนํา

ผู้ร่วมให้ข้อมูล

Google เป็นผู้ดูแลบทความนี้ ผู้เขียนเนื้อหาต้นฉบับมีดังนี้
ผู้เขียนหลัก:

Henrik Valve | วิศวกรโซลูชัน
Thomas Anglaret | วิศวกรโซลูชัน
Sarthak Ganguly | วิศวกรโซลูชัน