Pola Desain untuk Validasi Alamat Volume Tinggi di Google Cloud Platform

Tujuan

Tutorial Validasi Alamat Volume Tinggi memandu Anda melalui berbagai skenario di mana validasi alamat bervolume tinggi dapat digunakan. Dalam tutorial ini, kami akan memperkenalkan berbagai pola desain dalam Google Cloud Platform untuk menjalankan Validasi Alamat Volume Tinggi (High Volume Address Validation).

Kita akan memulai dengan ringkasan tentang menjalankan Validasi Alamat Volume Tinggi di Google Cloud Platform dengan Cloud Run, Compute Engine, atau Google Kubernetes Engine untuk eksekusi satu kali. Selanjutnya, kita akan melihat bagaimana kemampuan ini dapat disertakan sebagai bagian dari pipeline data.

Di akhir artikel ini, Anda akan memiliki pemahaman yang baik tentang berbagai opsi untuk menjalankan Validasi Alamat dalam volume tinggi di lingkungan Google Cloud Anda.

Arsitektur referensi di Google Cloud Platform

Bagian ini membahas secara lebih mendalam berbagai pola desain untuk Validasi Alamat Volume Tinggi menggunakan Google Cloud Platform. Dengan berjalan di Google Cloud Platform, Anda dapat berintegrasi dengan proses dan pipeline data yang sudah ada.

Menjalankan Validasi Alamat Volume Tinggi satu kali di Google Cloud Platform

Di bawah ini adalah arsitektur referensi tentang cara membangun integrasi di Google Cloud Platform, yang lebih cocok untuk operasi atau pengujian satu kali.

gambar

Dalam hal ini, sebaiknya upload file CSV ke bucket Cloud Storage. Skrip Validasi Alamat Volume Tinggi kemudian dapat dijalankan dari lingkungan Cloud Run. Namun, Anda dapat menjalankannya di lingkungan runtime lain seperti Compute Engine atau Google Kubernetes Engine. CSV output juga dapat diupload ke bucket Cloud Storage.

Menjalankan sebagai pipeline data Google Cloud Platform

Pola deployment yang ditampilkan di bagian sebelumnya sangat bagus untuk menguji Validasi Alamat Volume Tinggi dengan cepat untuk penggunaan satu kali. Namun, jika perlu menggunakannya secara rutin sebagai bagian dari pipeline data, Anda dapat memanfaatkan kemampuan native Google Cloud Platform dengan lebih baik untuk membuatnya lebih tangguh. Beberapa perubahan yang dapat Anda lakukan meliputi:

gambar

  • Dalam hal ini, Anda dapat membuang file CSV di bucket Cloud Storage.
  • Tugas Dataflow dapat mengambil alamat yang akan diproses, lalu meng-cache-nya di BigQuery.
  • Library Python Dataflow dapat diperluas agar memiliki logika pada Validasi Alamat Volume Tinggi guna memvalidasi alamat dari tugas Dataflow.

Menjalankan skrip dari pipeline data sebagai proses berulang yang berlangsung lama

Pendekatan umum lainnya adalah memvalidasi batch alamat sebagai bagian dari pipeline data streaming sebagai proses berulang. Anda juga mungkin memiliki alamat di datastore bigquery. Dalam pendekatan ini, kita akan melihat cara membangun pipeline data berulang (yang perlu dipicu setiap hari/mingguan/bulanan)

gambar

  • Upload file CSV awal ke bucket Cloud Storage.
  • Gunakan Memorystore sebagai datastore persisten untuk dipelihara status perantara untuk proses yang berjalan lama.
  • Cache alamat akhir di datastore BigQuery.
  • Siapkan Cloud Scheduler untuk menjalankan skrip secara berkala.

Arsitektur ini memiliki keunggulan berikut:

  • Dengan menggunakan Cloud Scheduler, validasi alamat dapat dilakukan secara berkala. Anda mungkin ingin memvalidasi ulang alamat setiap bulan atau memvalidasi alamat baru setiap bulan/per kuartal. Arsitektur ini membantu menyelesaikan kasus penggunaan tersebut.
  • Jika data pelanggan ada di BigQuery, maka alamat yang divalidasi atau Tanda validasi dapat langsung disimpan dalam cache di sana. Catatan: Informasi apa yang dapat di-cache dan caranya dijelaskan secara mendetail di artikel Validasi Alamat Volume Tinggi

  • Dengan menggunakan Memorystore, Anda akan mendapatkan ketahanan dan kemampuan yang lebih tinggi untuk memproses lebih banyak alamat. Langkah ini menambahkan statefulness ke seluruh pipeline pemrosesan yang diperlukan untuk menangani set data alamat yang sangat besar. Teknologi database lain seperti cloud SQL[https://cloud.google.com/sql] atau fungsi database lainnya yang ditawarkan Google Cloud Platform juga dapat digunakan di sini. Namun, kami yakin memorystore secara sempurna menyeimbangkan kebutuhan penskalaan dan kemudahan, sehingga harus menjadi pilihan pertama.

Kesimpulan

Dengan menerapkan pola yang dijelaskan di sini, Anda dapat menggunakan Address Validation API untuk berbagai kasus penggunaan dan dari berbagai kasus penggunaan di Google Cloud Platform.

Kami telah menulis library Python open source untuk membantu Anda memulai kasus penggunaan yang dijelaskan di atas. Fungsi ini dapat dipanggil dari command line di komputer Anda atau dari Google Cloud Platform atau penyedia cloud lainnya.

Pelajari lebih lanjut cara menggunakan library dari artikel ini.

Langkah Berikutnya

Download Laporan Resmi Meningkatkan checkout, pengiriman, dan operasi dengan alamat yang andal dan lihat Webinar Meningkatkan checkout, pengiriman, dan operasi dengan Validasi Alamat .

Saran bacaan lebih lanjut:

Kontributor

Google mengelola artikel ini. Kontributor berikut awalnya yang menulisnya.
Penulis utama:

Valve Henrik | Engineer Solusi
Thomas Anglaret | Engineer Solusi
Sarthak Ganguly | Engineer Solusi