Rejoignez la nouvelle communauté
Discord pour discuter en temps réel, obtenir l'aide de vos pairs et communiquer directement avec l'équipe Meridian.
Données au niveau géographique et au niveau national
Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Meridian permet de modéliser les données au niveau géographique ou national. Les données au niveau géographique sont des données ventilées selon des régions géographiques mutuellement exclusives, telles que des États, des villes, des zones de marché désignées (DMA) ou même plusieurs pays. Ces régions se trouvent généralement dans une région géographique plus vaste, comme un pays. Les données au niveau national sont des données fournies pour une seule région géographique, généralement un pays entier. Les données au niveau national sont essentiellement des données de zone géographique unique.
Les données au niveau géographique offrent plusieurs avantages et sont donc recommandées lorsque cela est possible. Si des données au niveau géographique sont disponibles pour la plupart des canaux média, mais pas tous, nous vous recommandons d'imputer au niveau géographique les données au niveau national et d'exécuter un modèle géographique. Pour en savoir plus sur l'imputation, consultez Médias au niveau national dans un modèle au niveau géographique. Pour en savoir plus sur le modèle national, consultez Modélisation au niveau national.
Avantages des modèles au niveau géographique
La modélisation statistique repose sur des schémas dans les données. Les modèles récurrents sont plus fréquents dans les données au niveau géographique que dans les données au niveau national.
Voici d'autres avantages des données au niveau géographique :
- Elles permettent d'accroître la taille effective de l'échantillon en regroupant les données de plusieurs zones géographiques dans la modélisation géographique.
- Elles fournissent des intervalles crédibles plus réduits, à condition que les zones géographiques soient similaires en termes de mécanisme d'impact média, comme le suppose le modèle. Pour en savoir plus, consultez Modélisation d'un mix média hiérarchique bayésien au niveau géographique.
- Elles permettent d'améliorer les estimations des effets temporels (tendances et saisonnalité, par exemple), car plusieurs observations par période peuvent être utilisées.
- Elles peuvent permettre d'utiliser plus de
knots
pour modéliser le paramètre \(\mu_t\) . Les données au niveau national ont moins de marge de manœuvre pour les effets temporels. Par exemple, un nœud par période sature complètement le modèle au niveau national.
- Elles permettent d'afficher une plus grande variabilité des dépenses marketing, ce qui est essentiel pour estimer les effets non linéaires, comme la saturation (paramètres de la fonction Hill).
- Elles réduisent le biais de variable omise en raison de l'absence de facteurs de confusion, en diminuant la corrélation entre les dépenses média et les facteurs de confusion. Pour en savoir plus, consultez la section 4.3 de Modélisation d'un mix média hiérarchique bayésien au niveau géographique.
Sélection de zones géographiques
Lorsque vous sélectionnez des zones géographiques, tenez compte des conseils suivants :
Commencez par supprimer les zones géographiques les moins importantes en termes de KPI total. Il s'agit de celles qui contribuent le moins au ROI, mais elles peuvent tout de même avoir une forte influence sur l'ajustement du modèle, en particulier lorsqu'il existe une seule variance résiduelle pour tous les groupes (unique_sigma_for_each_geo = False
de ModelSpec
).
Pour les annonceurs américains qui utilisent la zone de marché désignée comme unité géographique, nous conseillons à titre indicatif de modéliser les 50 à 100 premières zones de marché désignées selon la taille de la population.
Cela inclut généralement la grande majorité des unités de KPI, tout en excluant la plupart des petites zones de marché désignées qui génèrent plus de bruit et qui pourraient influer sur l'ajustement du modèle et la convergence.
Lorsque chaque zone géographique possède sa propre variance résiduelle (unique_sigma_for_each_geo =
True
de ModelSpec
), les zones géographiques qui génèrent plus de bruit ont moins d'impact sur l'ajustement du modèle. Toutefois, cette option peut rendre la convergence difficile pour certains ensembles de données, car elle ajoute une grande flexibilité au modèle. Si l'échantillonnage MCMC converge avec cette option, il peut être utile de tracer la taille de la population géographique par rapport à l'écart-type résiduel moyen (paramètre sigma
). Dans la plupart des cas, vous devriez observer un schéma assez monotone. Si vous ne voyez pas ce schéma, il est peut-être préférable de définir unique_sigma_for_each_geo = False
et d'utiliser un sous-ensemble plus petit de zones géographiques.
Si vous souhaitez vous assurer que le modèle représente 100 % de vos unités de KPI, vous pouvez regrouper les zones géographiques plus petites en régions plus étendues. Cette option présente toutefois plusieurs inconvénients :
La modélisation au niveau géographique présente un avantage considérable, bien que cet avantage soit réduit lorsque le nombre de zones géographiques est relativement faible. Il peut être préférable d'ajuster un modèle avec une précision géographique plus fine et d'exclure les zones géographiques les plus petites, plutôt que d'agréger les zones géographiques à un niveau plus large.
Différentes méthodes de regroupement (agrégation) géographique peuvent donner lieu à des résultats de MMM différents.
Les variables d'exécution média, comme les impressions ou les coûts, peuvent généralement s'additionner pour plusieurs zones géographiques. Toutefois, certaines variables de contrôle, comme la température, peuvent être moins simples à agréger.
Médias au niveau national dans un modèle au niveau géographique
Lorsque la plupart des médias sont disponibles au niveau géographique, mais qu'un ou deux d'entre eux ne sont disponibles qu'au niveau national, nous vous recommandons d'imputer les médias de niveau national au niveau géographique et d'exécuter un modèle géographique. Une méthode d'imputation simple consiste à estimer la variable média au niveau géographique à partir de sa valeur au niveau national, en utilisant la proportion de la population dans la zone géographique par rapport à la population totale. Même s'il est préférable de disposer de données précises au niveau géographique pour éviter l'imputation, celle-ci peut toujours fournir des informations utiles sur les paramètres du modèle. Pour en savoir plus, consultez la section 4.4 du document Geo-level Bayesian Hierarchical Media Mix Modeling.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/08/24 (UTC).
[null,null,["Dernière mise à jour le 2025/08/24 (UTC)."],[[["\u003cp\u003ePrioritize modeling larger geos based on total KPI, as smaller geos have less ROI contribution and can negatively impact model fit.\u003c/p\u003e\n"],["\u003cp\u003eFor US advertisers, modeling the top 50-100 DMAs by population generally captures significant KPI units while excluding noisy smaller DMAs.\u003c/p\u003e\n"],["\u003cp\u003eWhen using national-level media in a geo-level model, impute national data to the geo-level, preferably using accurate geo-level data if available.\u003c/p\u003e\n"],["\u003cp\u003eAggregating smaller geos into larger regions can be an option to represent 100% of KPI units, but consider the potential impact on model results and interpretation.\u003c/p\u003e\n"],["\u003cp\u003eAvoid redundant national-level variables when \u003ccode\u003eknots = n_times\u003c/code\u003e by either adjusting \u003ccode\u003eknots\u003c/code\u003e or carefully selecting variables based on interpretation goals.\u003c/p\u003e\n"]]],["When selecting geos, prioritize dropping smaller geos with lower KPI contribution first, especially if using a single residual variance. For US DMAs, model the top 50-100 by population. If each geo has unique residual variance, smaller geos matter less, but convergence may be difficult. National-level media can be imputed to the geo level using population proportions. Avoid national-level controls when each time period has its own parameter, as they create redundancy.\n"],null,["# Geo-level and national-level data\n\nMeridian offers the option to model geo-level or national level-data. Geo-level\ndata is when data is broken down into mutually exclusive geographic regions such\nas states, cities, DMAs, or even multiple countries. These regions are typically\nall within a larger geographic region, such as a country. National-level data is\nwhen data is provided for a single geographic region, typically an entire\ncountry. National-level data is essentially single-geo data.\n\nGeo-level data offers several advantages and is thus recommended when\npossible. If geo-level data is available for most, but not all, media channels,\nthen we recommend imputing the national-level data at the geo-level, and running\na geo-model. For more information on imputation,\nsee [National-level media in a geo-level model](#national-imputation). For more\ninformation on the national model,\nsee [National-level modeling](/meridian/docs/basics/national-models).\n\nGeo-level model advantages\n--------------------------\n\nStatistical modeling relies on patterns in the data. Repeatable patterns\nare more common in geo-level data than national-level data.\n\nHere are some other advantages of geo-level data:\n\n- Increases the effective sample size, by pooling data across geos in geo-modeling.\n- Provides tighter credible intervals, provided the geos are similar in terms of the media impact mechanism as the model assumes. For more information, see [Geo-level Bayesian Hierarchical Media Mix\n Modeling](//research.google/pubs/geo-level-bayesian-hierarchical-media-mix-modeling/).\n- Improves estimates for time-effects (such as trend and seasonality), since there are multiple observations per time period.\n- Can support the use of more `knots` to model the \\\\(\\\\mu_t\\\\) parameter. National-level data has fewer degrees of freedom for time-effects. For example, one knot per time period completely saturates the national-level model.\n- Shows greater variability in marketing spend, which is crucial for estimating non-linear effects, like saturation (Hill function parameters).\n- Reduces omitted variable bias due to missing confounders, by reducing the correlation between media spend and confounders. See section 4.3 of [Geo-level Bayesian Hierarchical Media Mix\n Modeling](//research.google/pubs/geo-level-bayesian-hierarchical-media-mix-modeling/) for more information.\n\nGeo selection\n-------------\n\nWhen you are selecting geos, consider the following guidance:\n\n- Drop the smallest geos by total KPI first. Smaller geos have less\n contribution to ROI, yet they can still have a high influence on model fit,\n particularly when there is a single residual variance for all groups\n (`unique_sigma_for_each_geo = False` of `ModelSpec`).\n\n- For US advertisers using designated market area (DMA) as the geographical\n unit, a rough guideline is to model the top 50-100 DMAs by population size.\n This generally includes the vast majority of the KPI units, while excluding\n most of the noisier small DMAs that might impact model fit and convergence.\n\n- When each geo has its own residual variance (`unique_sigma_for_each_geo =\n True` of `ModelSpec`), noisier geos have less impact on model fit. However,\n this option can make convergence difficult for some datasets because it adds\n so much flexibility to the model. If MCMC sampling does converge under this\n option, it might be worth plotting the geo population size versus the mean\n residual standard deviation (`sigma` parameter) - in most cases, you would\n expect to see a fairly monotone pattern. If you don't see this pattern, then\n it might be better to set `unique_sigma_for_each_geo = False` and use a\n smaller subset of geos.\n\nIf you want to make sure the model represents 100% of your KPI units, you\ncan aggregate smaller geos into larger regions. However, this option comes\nwith several caveats:\n\n- Geo-level modeling provides a significant advantage, although this benefit is\n reduced when there are relatively few geos. It may be better to fit a model at a\n finer geo granularity and exclude the smallest geos, rather than aggregating\n geos to a coarser level.\n\n- Different geo aggregation grouping methods can lead to different MMM results.\n\n- Media execution variables, such as impressions or cost, can usually be\n summed across geos. However, some control variables, such as\n temperature, can be less straightforward to aggregate.\n\nNational-level media in a geo-level model\n-----------------------------------------\n\nWhen most media are available at the geo-level, but one or two are only\navailable at the national level, we recommend imputing the national-level\nmedia at a geo-level and running a geo-model. One naive imputation method is\nto approximate the geo-level media variable from its national level value,\nusing the proportion of the population in the geo relative to the total\npopulation. Although it is preferable to have accurate geo-level data so that\nimputation isn't necessary, imputation can still yield useful information\nabout the model parameters. For more information, see section 4.4 of\n[Geo-level Bayesian Hierarchical Media Mix Modeling](//research.google/pubs/geo-level-bayesian-hierarchical-media-mix-modeling/)."]]