Obiettivo
Il tutorial sulla convalida degli indirizzi ad alto volume ti ha guidato attraverso diversi scenari in cui è possibile utilizzare la convalida degli indirizzi ad alto volume. In questo tutorial, ti presenteremo diversi pattern di progettazione all'interno della piattaforma Google Cloud per l'esecuzione della convalida degli indirizzi ad alto volume.
Inizieremo con una panoramica sull'esecuzione della convalida degli indirizzi ad alto volume nella piattaforma Google Cloud con Cloud Run, Compute Engine o Google Kubernetes Engine per le esecuzioni una tantum. Vedremo poi come questa funzionalità può essere inclusa in una pipeline di dati.
Al termine di questo articolo dovresti avere una buona conoscenza delle diverse opzioni per eseguire la convalida degli indirizzi in volumi elevati nel tuo ambiente Google Cloud.
Architettura di riferimento sulla piattaforma Google Cloud
Questa sezione approfondisce i diversi pattern di progettazione per la convalida degli indirizzi ad alto volume utilizzando la piattaforma Google Cloud. Se esegui il servizio sulla piattaforma Google Cloud, puoi integrarlo con le tue pipeline di dati e i tuoi processi esistenti.
Eseguire una volta la convalida degli indirizzi ad alto volume su Google Cloud
Di seguito è riportata un'architettura di riferimento su come creare un'integrazione sulla piattaforma Google Cloud più adatta per operazioni una tantum o test.
In questo caso, ti consigliamo di caricare il file CSV in un bucket Cloud Storage. Lo script di convalida degli indirizzi ad alto volume può quindi essere eseguito da un ambiente Cloud Run. Tuttavia, puoi eseguirlo in qualsiasi altro ambiente di runtime, come Compute Engine o Google Kubernetes Engine. Il file CSV di output può essere caricato anche nel bucket Cloud Storage.
Esecuzione come pipeline di dati della piattaforma Google Cloud
Il modello di implementazione mostrato nella sezione precedente è ideale per testare rapidamente la convalida degli indirizzi ad alto volume per un utilizzo una tantum. Tuttavia, se devi utilizzarlo regolarmente all'interno di una pipeline di dati, puoi sfruttare meglio le funzionalità native della piattaforma Google Cloud per renderlo più affidabile. Ecco alcune delle modifiche che puoi apportare:
- In questo caso, puoi eseguire il dump dei file CSV nei bucket Cloud Storage.
- Un job Dataflow può recuperare gli indirizzi da elaborare e poi memorizzarli nella cache in BigQuery.
- La libreria Python di Dataflow può essere estesa per avere la logica per la convalida degli indirizzi ad alto volume per convalidare gli indirizzi dal job Dataflow.
Eseguire lo script da una pipeline di dati come processo ricorrente di lunga durata
Un altro approccio comune è convalidare un batch di indirizzi all'interno di una pipeline di dati in streaming come processo ricorrente. Potresti anche avere gli indirizzi in un data store BigQuery. In questo approccio vedremo come creare una pipeline di dati ricorrente (che deve essere attivata quotidianamente/settimanalmente/mensilmente)
- Carica il file CSV iniziale in un bucket Cloud Storage.
- Utilizza Memorystore come datastore permanente per mantenere lo stato intermedio per il processo a lungo termine.
- Memorizza nella cache gli indirizzi finali in un archivio dati BigQuery.
- Configura Cloud Scheduler per eseguire lo script periodicamente.
Questa architettura presenta i seguenti vantaggi:
- Con Cloud Scheduler, la convalida dell'indirizzo può essere eseguita periodicamente. Ti consigliamo di convalidare nuovamente gli indirizzi su base mensile o di convalidare i nuovi indirizzi su base mensile/trimestrale. Questa architettura aiuta a risolvere questo caso d'uso.
Se i dati dei clienti si trovano in BigQuery, gli indirizzi convalidati o gli indicatori di convalida possono essere memorizzati nella cache direttamente lì. Nota: cosa può essere memorizzato nella cache e come viene descritto nel dettaglio nell'articolo sulla convalida degli indirizzi ad alto volume
L'utilizzo di Memorystore offre una maggiore resilienza e la possibilità di elaborare più indirizzi. Questi passaggi aggiungono uno stato all'intera pipeline di elaborazione, necessario per gestire set di dati di indirizzi di grandi dimensioni. Anche altre tecnologie di database come Cloud SQL[https://cloud.google.com/sql] o qualsiasi altro tipo di database offerto dalla piattaforma Google Cloud possono essere utilizzate qui. Tuttavia, riteniamo che Memorystore perfectless offra il giusto equilibrio tra le esigenze di scalabilità e semplicità, pertanto dovrebbe essere la prima scelta.
Conclusione
Applicando i pattern descritti qui, puoi utilizzare l'API Address Validation per diversi casi d'uso e da diversi casi d'uso sulla piattaforma Google Cloud.
Abbiamo scritto una libreria Python open source per aiutarti a iniziare a utilizzare i casi d'uso descritti sopra. Può essere richiamato da una riga di comando sul computer o dalla Google Cloud Platform o da altri provider cloud.
Scopri di più su come utilizzare la raccolta in questo articolo.
Passaggi successivi
Scarica il white paper Migliora il pagamento, la consegna e le operazioni con indirizzi affidabili e guarda il webinar Migliorare il pagamento, la consegna e le operazioni con la convalida dell'indirizzo .
Letture consigliate:
- Documentazione dell'API Address Validation
- Geocoding e convalida degli indirizzi
- Esplora la demo di Address Validation
Collaboratori
Questo articolo è gestito da Google. È stato scritto originariamente dai seguenti collaboratori.
Autori principali:
Henrik Valve | Solutions Engineer
Thomas Anglaret | Solutions Engineer
Sarthak Ganguly | Solutions Engineer