Wzorce projektowe do walidacji dużej ilości adresów w Google Cloud Platform

Cel

W samouczku Weryfikacja adresów w dużych ilościach omówiono różne scenariusze, w których można stosować weryfikację adresów w dużych ilościach. W tym samouczku zapoznasz się z różnymi wzorcami projektowania w Google Cloud Platform, które umożliwiają przeprowadzanie walidacji adresów na dużą skalę.

Zaczniemy od omówienia wykonywania weryfikacji adresów o dużej liczbie adresów w Google Cloud Platform za pomocą Cloud Run, Compute Engine lub Google Kubernetes Engine w ramach jednorazowych operacji. Następnie zobaczysz, jak można włączyć tę funkcję w ramach potoku danych.

Po przeczytaniu tego artykułu powinieneś dobrze rozumieć różne opcje uruchamiania weryfikacji adresu w dużych ilościach w środowisku Google Cloud.

Architektura referencyjna w Google Cloud Platform

W tej sekcji szczegółowo omawiamy różne wzorce projektowania weryfikacji adresów o dużej liczbie za pomocą Google Cloud Platform. Dzięki działaniu na platformie Google Cloud Platform możesz integrować się z dotychczasowymi procesami i potoki danych.

Jednorazowe uruchamianie weryfikacji adresów o dużej liczbie rekordów w Google Cloud Platform

Poniżej znajduje się architektura referencyjna, która pokazuje, jak tworzyć integrację na Google Cloud Platform. Jest ona bardziej odpowiednia do operacji jednorazowych lub testowania.

obraz

W takim przypadku zalecamy przesłanie pliku CSV do zasobnika Cloud Storage. Skrypt do weryfikacji adresów o dużej liczbie adresów można następnie uruchomić w środowisku Cloud Run. Możesz jednak uruchomić go w dowolnym innym środowisku wykonawczym, takim jak Compute Engine czy Google Kubernetes Engine. Plik CSV z wynikiem możesz też przesłać do zasobnika Cloud Storage.

Uruchamianie jako potok danych Google Cloud Platform

Wzorzec wdrożenia pokazany w poprzedniej sekcji doskonale nadaje się do szybkiego testowania walidacji adresów o dużej liczbie adresów na potrzeby jednorazowego użycia. Jeśli jednak potrzebujesz regularnego korzystania z niego w ramach potoku danych, możesz lepiej wykorzystać funkcje natywne Google Cloud Platform, aby zwiększyć jego niezawodność. Oto niektóre z nich:

obraz

  • W takim przypadku możesz zapisywać pliki CSV w zasobnikach Cloud Storage.
  • Zadanie Dataflow może pobrać adresy do przetworzenia, a potem zapisać je w pamięci podręcznej w BigQuery.
  • Biblioteka Dataflow Python może zostać rozszerzona o logikę weryfikacji adresów o dużym natężeniu, aby weryfikować adresy z zadania Dataflow.

Uruchamianie skryptu z potoku danych jako długotrwały proces powtarzalny

Innym popularnym podejściem jest weryfikowanie zbioru adresów w ramach strumieniowego potoku danych jako powtarzalnego procesu. Adresy mogą też być przechowywane w bigquery datastore. W ramach tego podejścia zobaczysz, jak tworzyć powtarzające się przepływy danych (które muszą być uruchamiane codziennie, co tydzień lub co miesiąc).

obraz

  • Prześlij początkowy plik CSV do zasobnika Cloud Storage.
  • Użyj Memorystore jako trwałego magazynu danych, aby zachować stan pośredni w przypadku długotrwałego procesu.
  • Zapisz do pamięci podręcznej adresy docelowe w magazynie danych BigQuery.
  • Skonfiguruj Cloud Scheduler, aby skrypt był uruchamiany okresowo.

Ta architektura ma następujące zalety:

  • Za pomocą Cloud Scheduler możesz okresowo przeprowadzać weryfikację adresów. Możesz ponownie sprawdzać adresy co miesiąc lub sprawdzać nowe adresy co miesiąc lub co kwartał. Ta architektura pomaga rozwiązać ten problem.
  • Jeśli dane o klientach znajdują się w BigQuery, można zapisać w pamięci podręcznej bezpośrednio tam zweryfikowane adresy lub flagi weryfikacji. Uwaga: informacje o tym, co i jak można przechowywać w pamięci podręcznej, znajdziesz w artykule na temat weryfikacji adresów w dużych ilościach.

  • Korzystanie z Memorystore zapewnia większą odporność i możliwość przetwarzania większej liczby adresów. Te kroki powodują, że cały proces przetwarzania staje się stanowy, co jest potrzebne do obsługi bardzo dużych zbiorów danych adresów. Można tu też używać innych technologii baz danych, takich jak Cloud SQL [https://cloud.google.com/sql] lub innych typów baz danych, które oferuje Google Cloud Platform. Uważamy jednak, że usługa pamięci bezstanowej najlepiej spełnia potrzeby dotyczące skalowalności i prostoty, dlatego powinna być pierwszym wyborem.

Podsumowanie

Stosując opisane tu wzorce, możesz używać interfejsu Address Validation API w różnych przypadkach użycia i w różnych zastosowaniach w Google Cloud Platform.

Aby ułatwić Ci rozpoczęcie korzystania z opisanych wyżej przypadków użycia, opracowaliśmy bibliotekę Pythona open source. Można go wywołać z wiersza poleceń na komputerze lub z Google Cloud Platform lub innych dostawców usług w chmurze.

Więcej informacji o korzystaniu z biblioteki znajdziesz w tym artykule.

Następne kroki

Pobierz białą księgę Ulepsz proces płatności, dostawy i obsługi dzięki wiarygodnym adresom oraz obejrzyj webinar Ulepsz proces płatności, dostawy i obsługi dzięki weryfikacji adresów .

Sugerowane materiały do dalszego zapoznania się z tematem:

Współtwórcy

Google jest autorem tego artykułu. Pierwotnie napisali go autorzy wymienieni poniżej.
Główni autorzy:

Henrik Valve | Inżynier ds. rozwiązań
Thomas Anglaret | Inżynier ds. rozwiązań
Sarthak Ganguly | Inżynier ds. rozwiązań