วัตถุประสงค์
บทแนะนำการตรวจสอบที่อยู่จำนวนมากจะแนะนำสถานการณ์ต่างๆ ที่สามารถใช้การตรวจสอบที่อยู่จำนวนมากได้ ในบทแนะนํานี้ เราจะแนะนํารูปแบบการออกแบบต่างๆ ภายใน Google Cloud Platform สําหรับการเรียกใช้การยืนยันที่อยู่จํานวนมาก
เราจะเริ่มต้นด้วยภาพรวมของการเรียกใช้การยืนยันที่อยู่จำนวนมากใน Google Cloud Platform ด้วย Cloud Run, Compute Engine หรือ Google Kubernetes Engine สำหรับการเรียกใช้แบบครั้งเดียว จากนั้นเราจะดูว่าความสามารถนี้สามารถรวมเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลได้อย่างไร
เมื่ออ่านบทความนี้จบ คุณควรเข้าใจตัวเลือกต่างๆ ในการใช้งานการยืนยันที่อยู่ในปริมาณมากในสภาพแวดล้อม Google Cloud
สถาปัตยกรรมอ้างอิงใน Google Cloud Platform
ส่วนนี้จะเจาะลึกรูปแบบการออกแบบต่างๆ สำหรับการยืนยันที่อยู่จำนวนมากโดยใช้ Google Cloud Platform การทำงานบน Google Cloud Platform ช่วยให้คุณผสานรวมกับกระบวนการและไปป์ไลน์ข้อมูลที่มีอยู่ได้
เรียกใช้การยืนยันที่อยู่จำนวนมากเพียงครั้งเดียวใน Google Cloud Platform
ด้านล่างนี้คือสถาปัตยกรรมอ้างอิงสำหรับวิธีสร้างการผสานรวมใน Google Cloud Platform ซึ่งเหมาะสำหรับการดำเนินการหรือการทดสอบแบบครั้งเดียวมากกว่า
ในกรณีนี้ เราขอแนะนำให้อัปโหลดไฟล์ CSV ไปยังที่เก็บข้อมูล Cloud Storage จากนั้นคุณจะเรียกใช้สคริปต์การยืนยันที่อยู่จำนวนมากได้จากสภาพแวดล้อม Cloud Run แต่คุณสามารถเรียกใช้ได้ในสภาพแวดล้อมรันไทม์อื่นๆ เช่น Compute Engine หรือ Google Kubernetes Engine นอกจากนี้ คุณยังอัปโหลด CSV ผลลัพธ์ไปยังที่เก็บข้อมูล Cloud Storage ได้ด้วย
ทำงานเป็นไปป์ไลน์ข้อมูล Google Cloud Platform
รูปแบบการใช้งานที่แสดงในส่วนก่อนหน้าเหมาะอย่างยิ่งสำหรับการทดสอบการยืนยันที่อยู่จำนวนมากอย่างรวดเร็วสําหรับการใช้งานแบบครั้งเดียว อย่างไรก็ตาม หากจำเป็นต้องใช้เป็นประจำในไปป์ไลน์ข้อมูล คุณก็ใช้ประโยชน์จากความสามารถของ Google Cloud Platform เองได้ดีกว่าเพื่อให้มีประสิทธิภาพมากขึ้น การเปลี่ยนแปลงที่คุณทำได้มีดังนี้
- ในกรณีนี้ คุณสามารถส่งออกไฟล์ CSV ไปยังที่เก็บข้อมูล Cloud Storage
- งาน Dataflow สามารถรับที่อยู่ที่จะประมวลผล แล้วแคชไว้ใน BigQuery
- ไลบรารี Python ของ Dataflow สามารถขยายให้มีตรรกะสําหรับการยืนยันที่อยู่จํานวนมากเพื่อตรวจสอบที่อยู่จากงาน Dataflow
การเรียกใช้สคริปต์จากไปป์ไลน์ข้อมูลเป็นกระบวนการที่เกิดซ้ำในระยะยาว
อีกแนวทางหนึ่งที่พบบ่อยคือการยืนยันที่อยู่หลายรายการเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลสตรีมมิงเป็นกระบวนการที่เกิดซ้ำ คุณอาจมีที่อยู่อยู่ในที่เก็บข้อมูล BigQuery ด้วย ในแนวทางนี้ เราจะดูวิธีสร้างไปป์ไลน์ข้อมูลที่เกิดซ้ำ (ซึ่งต้องทริกเกอร์ทุกวัน/รายสัปดาห์/รายเดือน)
- อัปโหลดไฟล์ CSV เริ่มต้นไปยังที่เก็บข้อมูล Cloud Storage
- ใช้ Memorystore เป็นที่เก็บข้อมูลแบบถาวรเพื่อรักษาสถานะกลางสำหรับกระบวนการที่ทำงานเป็นเวลานาน
- แคชที่อยู่สุดท้ายในพื้นที่เก็บข้อมูล BigQuery
- ตั้งค่า Cloud Scheduler ให้เรียกใช้สคริปต์เป็นระยะ
สถาปัตยกรรมนี้มีข้อดีดังต่อไปนี้
- คุณสามารถใช้ Cloud Scheduler เพื่อตรวจสอบที่อยู่เป็นระยะๆ คุณอาจต้องตรวจสอบที่อยู่อีกครั้งทุกเดือน หรือตรวจสอบที่อยู่ใหม่ทุกเดือน/ไตรมาส สถาปัตยกรรมนี้ช่วยแก้ปัญหา Use Case ดังกล่าว
หากข้อมูลลูกค้าอยู่ใน BigQuery ระบบจะแคชที่อยู่ที่ได้รับการตรวจสอบหรือ Flag การตรวจสอบไว้โดยตรง หมายเหตุ: โปรดดูรายละเอียดเกี่ยวกับสิ่งที่แคชได้และวิธีแคชในบทความการตรวจสอบที่อยู่จำนวนมาก
การใช้ Memorystore จะช่วยเพิ่มความยืดหยุ่นและความสามารถในการประมวลผลที่อยู่ได้มากขึ้น ขั้นตอนนี้จะเพิ่มสถานะให้กับไปป์ไลน์การประมวลผลทั้งหมด ซึ่งจําเป็นสําหรับการจัดการชุดข้อมูลที่อยู่ขนาดใหญ่มาก เทคโนโลยีฐานข้อมูลอื่นๆ เช่น Cloud SQL[https://cloud.google.com/sql] หรือฐานข้อมูลรูปแบบอื่นๆ ที่ Google Cloud Platform นำเสนอก็ใช้ได้เช่นกัน อย่างไรก็ตาม เราเชื่อว่า Memorystore เหมาะสําหรับการใช้งานมากที่สุดเนื่องจากมีการปรับขนาดและความต้องการความเรียบง่ายที่ลงตัว จึงควรเป็นตัวเลือกแรก
บทสรุป
เมื่อใช้รูปแบบที่อธิบายไว้ที่นี่ คุณจะใช้ Address Validation API สำหรับกรณีการใช้งานต่างๆ และจากกรณีการใช้งานต่างๆ ใน Google Cloud Platform ได้
เราได้เขียนไลบรารี Python แบบโอเพนซอร์สเพื่อช่วยให้คุณเริ่มต้นใช้งานกรณีการใช้งานที่อธิบายไว้ข้างต้น ซึ่งสามารถเรียกใช้จากบรรทัดคำสั่งในคอมพิวเตอร์ หรือเรียกใช้จาก Google Cloud Platform หรือผู้ให้บริการระบบคลาวด์รายอื่นๆ
ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีใช้คลังได้จากบทความนี้
ขั้นตอนถัดไป
ดาวน์โหลดเอกสารประกอบปรับปรุงการชำระเงิน การนำส่ง และการดำเนินการด้วยที่อยู่ที่น่าเชื่อถือ และดูการสัมมนาผ่านเว็บเรื่องการปรับปรุงการชำระเงิน การนำส่ง และการดำเนินการด้วยการตรวจสอบที่อยู่
แหล่งข้อมูลอื่นๆ ที่แนะนํา
- เอกสารประกอบของ Address Validation API
- การแปลงพิกัดภูมิศาสตร์และการตรวจสอบที่อยู่
- ดูการสาธิต Address Validation
ผู้ร่วมให้ข้อมูล
Google เป็นผู้ดูแลบทความนี้ ผู้เขียนเนื้อหาต้นฉบับมีดังนี้
ผู้เขียนหลัก:
Henrik Valve | วิศวกรโซลูชัน
Thomas Anglaret | วิศวกรโซลูชัน
Sarthak Ganguly | วิศวกรโซลูชัน