Google Cloud Platform で大量の住所確認を行うための設計パターン

目標

大量の住所の検証のチュートリアルでは、大量の住所の検証が使用できるさまざまなシナリオについて説明しました。このチュートリアルでは、大規模な住所検証を実行するための Google Cloud Platform 内のさまざまな設計パターンについて説明します。

まず、Google Cloud Platform で Cloud Run、Compute Engine、または Google Kubernetes Engine を使用して、1 回限りの実行で大量のアドレス検証を実行する方法の概要について説明します。次に、この機能をデータ パイプラインの一部として含める方法について説明します。

この記事の最後まで読めば、Google Cloud 環境で大量の住所検証を実行するためのさまざまなオプションを理解できるはずです。

Google Cloud Platform 上のリファレンス アーキテクチャ

このセクションでは、Google Cloud Platform を使用した大量の住所検証のさまざまな設計パターンについて詳しく説明します。Google Cloud Platform で実行することで、既存のプロセスやデータ パイプラインと統合できます。

Google Cloud Platform で大規模な住所検証を 1 回実行する

以下に、Google Cloud Platform で統合を構築する方法のリファレンス アーキテクチャを示します。これは、1 回限りのオペレーションやテストに適しています。

画像

この場合は、CSV ファイルを Cloud Storage バケットにアップロードすることをおすすめします。大量の住所検証スクリプトは、Cloud Run 環境から実行できます。ただし、Compute EngineGoogle Kubernetes Engine などの他のランタイム環境で実行することもできます。出力 CSV は Cloud Storage バケットにアップロードすることもできます。

Google Cloud Platform データ パイプラインとして実行する

前のセクションで説明したデプロイ パターンは、1 回限りの使用で大量の住所検証をすばやくテストするのに適しています。ただし、データ パイプラインの一部として定期的に使用することが必要な場合は、Google Cloud Platform のネイティブ機能を活用して堅牢性を高めることをおすすめします。変更できる内容は次のとおりです。

画像

  • この場合は、CSV ファイルを Cloud Storage バケットにダンプできます。
  • Dataflow ジョブは、処理するアドレスを取得して BigQuery にキャッシュに保存できます。
  • Dataflow Python ライブラリを拡張して、大量の住所検証のロジックを追加し、Dataflow ジョブの住所を検証できます。

長時間の反復プロセスとしてデータ パイプラインからスクリプトを実行する

別の一般的なアプローチとして、ストリーミング データ パイプラインの一部として、定期的なプロセスとして一連のアドレスを検証する方法があります。住所は BigQuery データストアに保存することもできます。このアプローチでは、(毎日、毎週、毎月トリガーされる必要がある)定期的なデータ パイプラインを構築する方法について説明します。

画像

  • 最初の CSV ファイルを Cloud Storage バケットにアップロードします。
  • 永続的なデータストアとして Memorystore を使用して、長時間実行プロセスの中間状態を維持します。
  • 最終的なアドレスを BigQuery データストアにキャッシュに保存します。
  • スクリプトを定期的に実行するように Cloud Scheduler を設定します。

このアーキテクチャには、次のメリットがあります。

  • Cloud Scheduler を使用すると、住所の検証を定期的に行うことができます。アドレスは毎月再検証するか、新しいアドレスは月単位または四半期単位で検証することをおすすめします。このアーキテクチャは、そのようなユースケースの解決に役立ちます。
  • 顧客データが BigQuery にある場合は、検証済みの住所または検証フラグを BigQuery に直接キャッシュに保存できます。注: キャッシュに保存できる内容と方法については、大量の住所の検証に関する記事をご覧ください。

  • Memorystore を使用すると、復元力が向上し、より多くのアドレスを処理できます。このステップでは、非常に大きな住所データセットを処理するために必要な状態を処理パイプライン全体に追加します。Cloud SQL[https://cloud.google.com/sql] などの他のデータベース テクノロジーや、Google Cloud Platform が提供する他のデータベース フレーバーも使用できます。ただし、Memorystore はスケーリングとシンプルさのニーズを完璧にバランスさせているため、最初の選択肢として推奨されます。

まとめ

ここで説明するパターンを適用することで、Google Cloud Platform のさまざまなユースケースで Address Validation API を使用できます。

上記のユースケースの開始に役立つオープンソースの Python ライブラリを作成しました。パソコンのコマンドラインから呼び出すことも、Google Cloud Platform や他のクラウド プロバイダから呼び出すこともできます。

ライブラリの使用方法について詳しくは、こちらの記事をご覧ください。

次のステップ

住所の信頼性を高めて決済、配送、オペレーションを改善 ホワイトペーパーをダウンロードし、Address Validation で決済、配送、オペレーションを改善する ウェブセミナーをご覧ください。

おすすめの関連情報:

寄稿者

この記事は Google が管理しています。以下は、このページの作成者です。
主な作成者:

Henrik Valve | ソリューション エンジニア
Thomas Anglaret | ソリューション エンジニア
Sarthak Ganguly | ソリューション エンジニア