Données au niveau géographique et au niveau national

Meridian permet de modéliser les données au niveau géographique ou national. Les données au niveau géographique sont des données ventilées selon des régions géographiques mutuellement exclusives, telles que des États, des villes, des zones de marché désignées (DMA) ou même plusieurs pays. Ces régions se trouvent généralement dans une région géographique plus vaste, comme un pays. Les données au niveau national sont des données fournies pour une seule région géographique, généralement un pays entier. Les données au niveau national sont essentiellement des données de zone géographique unique.

Les données au niveau géographique offrent plusieurs avantages et sont donc recommandées lorsque cela est possible. Si des données au niveau géographique sont disponibles pour la plupart des canaux média, mais pas tous, nous vous recommandons d'imputer au niveau géographique les données au niveau national et d'exécuter un modèle géographique. Pour en savoir plus sur l'imputation, consultez Médias au niveau national dans un modèle au niveau géographique. Pour en savoir plus sur le modèle national, consultez Modélisation au niveau national.

Avantages des modèles au niveau géographique

La modélisation statistique repose sur des schémas dans les données. Les modèles récurrents sont plus fréquents dans les données au niveau géographique que dans les données au niveau national.

Voici d'autres avantages des données au niveau géographique :

  • Elles permettent d'accroître la taille effective de l'échantillon en regroupant les données de plusieurs zones géographiques dans la modélisation géographique.
  • Elles fournissent des intervalles crédibles plus réduits, à condition que les zones géographiques soient similaires en termes de mécanisme d'impact média, comme le suppose le modèle. Pour en savoir plus, consultez Modélisation d'un mix média hiérarchique bayésien au niveau géographique.
  • Elles permettent d'améliorer les estimations des effets temporels (tendances et saisonnalité, par exemple), car plusieurs observations par période peuvent être utilisées.
  • Elles peuvent permettre d'utiliser plus de knots pour modéliser le paramètre \(\mu_t\) . Les données au niveau national ont moins de marge de manœuvre pour les effets temporels. Par exemple, un nœud par période sature complètement le modèle au niveau national.
  • Elles permettent d'afficher une plus grande variabilité des dépenses marketing, ce qui est essentiel pour estimer les effets non linéaires, comme la saturation (paramètres de la fonction Hill).
  • Elles réduisent le biais de variable omise en raison de l'absence de facteurs de confusion, en diminuant la corrélation entre les dépenses média et les facteurs de confusion. Pour en savoir plus, consultez la section 4.3 de Modélisation d'un mix média hiérarchique bayésien au niveau géographique.

Sélection de zones géographiques

Lorsque vous sélectionnez des zones géographiques, tenez compte des conseils suivants :

  • Commencez par supprimer les zones géographiques les moins importantes en termes de KPI total. Il s'agit de celles qui contribuent le moins au ROI, mais elles peuvent tout de même avoir une forte influence sur l'ajustement du modèle, en particulier lorsqu'il existe une seule variance résiduelle pour tous les groupes (unique_sigma_for_each_geo = False de ModelSpec).

  • Pour les annonceurs américains qui utilisent la zone de marché désignée comme unité géographique, nous conseillons à titre indicatif de modéliser les 50 à 100 premières zones de marché désignées selon la taille de la population. Cela inclut généralement la grande majorité des unités de KPI, tout en excluant la plupart des petites zones de marché désignées qui génèrent plus de bruit et qui pourraient influer sur l'ajustement du modèle et la convergence.

  • Lorsque chaque zone géographique possède sa propre variance résiduelle (unique_sigma_for_each_geo = True de ModelSpec), les zones géographiques qui génèrent plus de bruit ont moins d'impact sur l'ajustement du modèle. Toutefois, cette option peut rendre la convergence difficile pour certains ensembles de données, car elle ajoute une grande flexibilité au modèle. Si l'échantillonnage MCMC converge avec cette option, il peut être utile de tracer la taille de la population géographique par rapport à l'écart-type résiduel moyen (paramètre sigma). Dans la plupart des cas, vous devriez observer un schéma assez monotone. Si vous ne voyez pas ce schéma, il est peut-être préférable de définir unique_sigma_for_each_geo = False et d'utiliser un sous-ensemble plus petit de zones géographiques.

Si vous souhaitez vous assurer que le modèle représente 100 % de vos unités de KPI, vous pouvez regrouper les zones géographiques plus petites en régions plus étendues. Cette option présente toutefois plusieurs inconvénients :

  • La modélisation au niveau géographique présente un avantage considérable, bien que cet avantage soit réduit lorsque le nombre de zones géographiques est relativement faible. Il peut être préférable d'ajuster un modèle avec une précision géographique plus fine et d'exclure les zones géographiques les plus petites, plutôt que d'agréger les zones géographiques à un niveau plus large.

  • Différentes méthodes de regroupement (agrégation) géographique peuvent donner lieu à des résultats de MMM différents.

  • Les variables d'exécution média, comme les impressions ou les coûts, peuvent généralement s'additionner pour plusieurs zones géographiques. Toutefois, certaines variables de contrôle, comme la température, peuvent être moins simples à agréger.

Médias au niveau national dans un modèle au niveau géographique

Lorsque la plupart des médias sont disponibles au niveau géographique, mais qu'un ou deux d'entre eux ne sont disponibles qu'au niveau national, nous vous recommandons d'imputer les médias de niveau national au niveau géographique et d'exécuter un modèle géographique. Une méthode d'imputation simple consiste à estimer la variable média au niveau géographique à partir de sa valeur au niveau national, en utilisant la proportion de la population dans la zone géographique par rapport à la population totale. Même s'il est préférable de disposer de données précises au niveau géographique pour éviter l'imputation, celle-ci peut toujours fournir des informations utiles sur les paramètres du modèle. Pour en savoir plus, consultez la section 4.4 du document Geo-level Bayesian Hierarchical Media Mix Modeling.