ออกแบบรูปแบบสำหรับการตรวจสอบที่อยู่ปริมาณมากใน Google Cloud Platform

วัตถุประสงค์

บทแนะนำการตรวจสอบความถูกต้องของที่อยู่ปริมาณมากจะแนะนำสถานการณ์ต่างๆ ที่สามารถใช้การตรวจสอบความถูกต้องของที่อยู่ปริมาณมาก ในบทแนะนำนี้ เราจะแนะนำรูปแบบการออกแบบต่างๆ ภายใน Google Cloud Platform สำหรับการเรียกใช้การตรวจสอบความถูกต้องของที่อยู่ปริมาณมาก

เราจะเริ่มต้นด้วยภาพรวมเกี่ยวกับการเรียกใช้การตรวจสอบที่อยู่ปริมาณมากใน Google Cloud Platform ด้วย Cloud Run, Compute Engine หรือ Google Kubernetes Engine สำหรับการดำเนินการแบบครั้งเดียว จากนั้นเราจะดูว่าความสามารถนี้จะรวมเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลได้อย่างไร

เมื่ออ่านบทความนี้จบ คุณควรจะมีความเข้าใจที่ดีเกี่ยวกับตัวเลือกต่างๆ ในการเรียกใช้การตรวจสอบที่อยู่ปริมาณมากในสภาพแวดล้อม Google Cloud

สถาปัตยกรรมอ้างอิงใน Google Cloud Platform

ส่วนนี้จะเจาะลึกรูปแบบการออกแบบต่างๆ สำหรับการตรวจสอบความถูกต้องของที่อยู่ปริมาณมากโดยใช้ Google Cloud Platform การเรียกใช้บน Google Cloud Platform ช่วยให้คุณผสานรวมกับกระบวนการและไปป์ไลน์ข้อมูลที่มีอยู่ได้

การเรียกใช้การตรวจสอบความถูกต้องของที่อยู่ปริมาณมาก 1 ครั้งใน Google Cloud Platform

ด้านล่างนี้คือสถาปัตยกรรมอ้างอิงของวิธีสร้างการผสานรวม ใน Google Cloud Platform ซึ่งเหมาะกับการดำเนินการแบบครั้งเดียวหรือการทดสอบมากกว่า

รูปภาพ

ในกรณีนี้ เราขอแนะนำให้อัปโหลดไฟล์ CSV ไปยังที่เก็บข้อมูล Cloud Storage จากนั้นจะเรียกใช้สคริปต์การตรวจสอบที่อยู่ปริมาณมากได้จากสภาพแวดล้อม Cloud Run อย่างไรก็ตาม คุณสามารถเรียกใช้ในสภาพแวดล้อมรันไทม์อื่นๆ เช่น Compute Engine หรือ Google Kubernetes Engine นอกจากนี้ยังอัปโหลด CSV เอาต์พุตไปยังที่เก็บข้อมูล Cloud Storage ได้ด้วย

ทำงานเป็นไปป์ไลน์ข้อมูลของ Google Cloud Platform

รูปแบบการติดตั้งใช้งานที่แสดงในส่วนก่อนหน้าเหมาะสำหรับการทดสอบการตรวจสอบที่อยู่ปริมาณมากอย่างรวดเร็วสำหรับการใช้งานครั้งเดียว อย่างไรก็ตาม หากคุณต้องการใช้เป็นประจำในไปป์ไลน์ข้อมูล คุณจะใช้ประโยชน์จากความสามารถดั้งเดิมของ Google Cloud Platform ได้ดียิ่งขึ้นเพื่อให้มีความแข็งแกร่งมากขึ้น การเปลี่ยนแปลงบางอย่างที่คุณทำได้ ได้แก่

รูปภาพ

  • ในกรณีนี้ คุณสามารถทิ้งไฟล์ CSV ในที่เก็บข้อมูล Cloud Storage ได้
  • งาน Dataflow สามารถเลือกที่อยู่ที่จะประมวลผลแล้วแคชใน BigQuery
  • ไลบรารี Python ของ Dataflow สามารถขยายให้มีตรรกะสำหรับการตรวจสอบที่อยู่ปริมาณมากเพื่อตรวจสอบที่อยู่จากงาน Dataflow ได้

การเรียกใช้สคริปต์จาก Data Pipeline เป็นกระบวนการที่เกิดซ้ำเป็นเวลานาน

อีกแนวทางที่ใช้กันโดยทั่วไปคือการตรวจสอบที่อยู่เป็นกลุ่มซึ่งเป็นส่วนหนึ่งของไปป์ไลน์ข้อมูลการสตรีมเป็นกระบวนการที่เกิดขึ้นซ้ำ นอกจากนี้ คุณอาจมีที่อยู่ในที่เก็บข้อมูล BigQuery ด้วย ในแนวทางนี้ เราจะดูวิธีสร้างไปป์ไลน์ข้อมูลที่เกิดซ้ำ (ซึ่งต้องทริกเกอร์ทุกวัน/สัปดาห์/เดือน)

รูปภาพ

  • อัปโหลดไฟล์ CSV เริ่มต้นไปยังที่เก็บข้อมูล Cloud Storage
  • ใช้ Memorystore เป็นที่เก็บข้อมูลแบบถาวรเพื่อรักษาสถานะ ชั่วคราวสำหรับกระบวนการที่ใช้เวลานาน
  • แคชที่อยู่สุดท้ายในที่เก็บข้อมูล BigQuery
  • ตั้งค่า Cloud Scheduler เพื่อเรียกใช้สคริปต์เป็นระยะๆ

สถาปัตยกรรมนี้มีข้อดีดังนี้

  • Cloud Scheduler ช่วยให้คุณตรวจสอบความถูกต้องของที่อยู่ได้เป็นระยะๆ คุณอาจต้องตรวจสอบที่อยู่ซ้ำทุกเดือน หรือตรวจสอบที่อยู่ใหม่ทุกเดือน/ไตรมาส สถาปัตยกรรมนี้ช่วยแก้ปัญหา Use Case ดังกล่าวได้
  • หากข้อมูลลูกค้าอยู่ใน BigQuery คุณจะแคชที่อยู่ที่ตรวจสอบแล้วหรือ Flag การตรวจสอบได้โดยตรง หมายเหตุ: คุณดูรายละเอียดเกี่ยวกับสิ่งที่แคชได้และวิธีการแคชได้ในบทความการตรวจสอบความถูกต้องของที่อยู่ที่มีปริมาณมาก

  • การใช้ Memorystore จะช่วยให้มีความยืดหยุ่นสูงขึ้นและประมวลผลที่อยู่ได้มากขึ้น ขั้นตอนนี้จะเพิ่มสถานะให้กับไปป์ไลน์การประมวลผลทั้งหมด ซึ่งจำเป็นสำหรับการจัดการชุดข้อมูลที่อยู่ขนาดใหญ่มาก คุณยังใช้เทคโนโลยีฐานข้อมูลอื่นๆ เช่น Cloud SQL[https://cloud.google.com/sql] หรือฐานข้อมูลรูปแบบอื่นๆ ที่ Google Cloud Platform มีให้บริการได้ด้วย อย่างไรก็ตาม เราเชื่อว่า Memorystore แบบไร้เซิร์ฟเวอร์จะตอบโจทย์ความต้องการด้านการปรับขนาดและความเรียบง่ายได้อย่างลงตัว จึงควรเป็นตัวเลือกแรก

บทสรุป

การใช้รูปแบบที่อธิบายไว้ที่นี่จะช่วยให้คุณใช้ Address Validation API สำหรับ Use Case ต่างๆ และจาก Use Case ต่างๆ ใน Google Cloud Platform ได้

เราได้เขียนไลบรารี Python แบบโอเพนซอร์สเพื่อช่วยคุณเริ่มต้นใช้งานกรณีการใช้งานที่อธิบายไว้ข้างต้น เรียกใช้ได้จากบรรทัดคำสั่งในคอมพิวเตอร์ หรือจาก Google Cloud Platform หรือผู้ให้บริการระบบคลาวด์อื่นๆ

ดูข้อมูลเพิ่มเติมเกี่ยวกับวิธีใช้คลังได้จากบทความนี้

ขั้นตอนถัดไป

ดาวน์โหลดเอกสารไวท์เปเปอร์ปรับปรุงการชำระเงิน การนำส่ง และการดำเนินงานด้วยที่อยู่ที่เชื่อถือได้ และดูสัมมนาผ่านเว็บการปรับปรุงการชำระเงิน การนำส่ง และการดำเนินงานด้วยการตรวจสอบที่อยู่

อ่านเพิ่มเติมที่

ผู้ร่วมให้ข้อมูล

Google เป็นผู้ดูแลบทความนี้ ผู้ร่วมให้ข้อมูลต่อไปนี้เป็นผู้เขียนบทความนี้
ผู้เขียนหลัก

Henrik Valve | วิศวกรโซลูชัน
Thomas Anglaret | วิศวกรโซลูชัน
Sarthak Ganguly | วิศวกรโซลูชัน