Google Maps Platform 突发事件管理

突发事件的生命周期

Google Maps Platform 遵循 Google Cloud Platform 突发事件管理框架

出现服务中断或服务降级时,产品工程团队和 Google Maps Platform 支持团队将协同解决突发事件并向您传达相关情况。

生命周期

检测

Google 使用内部监控和黑盒监控来检测突发事件并触发提醒,以便我们的工程师展开调查。如需了解详情,请参阅《站点可靠性工程》一书的第 6 章

如果您检测到尚未在问题跟踪器中报告的突发事件,请前往 Google Cloud 控制台,在 Google Maps Platform 的“支持”部分中的“创建支持请求”页面上创建新的支持请求。

初步回应

当 Google 检测到突发事件时,支持团队会主动与您沟通。突发事件的初始通知通常很短,一般只提及受影响的产品以及主要问题。这是因为我们优先考虑快速通知到位,而非提供具体细节。随着对突发事件的深入了解,我们会在后续情况更新中提供更多详细信息。

回应

突发事件沟通渠道

为了向您提供尽可能多的信息,Google Maps Platform 支持团队根据问题的范围和严重程度提供了不同的突发事件沟通渠道:

当您发现问题对您有影响时,应该首先前往 Google 地图公共状态信息中心查看情况。信息中心会显示影响许多客户的突发事件,因此如果您看到其中列出的突发事件,该事件可能与您的问题有关。为了表示严重程度,状态信息中心将突发事件标记为服务中断、服务故障或服务信息。

Google Maps Platform Notifications 论坛是一个公开的 Google 群组,所有大范围的服务中断问题以及其他关于 Google Maps Platform API 的技术更新都会在这里报告。初次检测到服务中断后,所有论坛成员都将收到电子邮件通知,并且会持续收到后续更新信息,直到问题得到解决。

Maps Platform 状态卡片中提供一些说明性信息,该卡片会固定出现在 Cloud 控制台的地图支持部分中,用于显示各项 Maps Platform API 及服务的当前状态。出现活跃突发事件时,该卡片会通过一条消息通知您受影响的产品,并提供 Google 地图公共状态信息中心的链接,以便您查看活跃突发事件。

服务中断

问题跟踪器中包含所有已知突发事件的参考列表。您可以查看未结突发事件,通过订阅它们来跟踪进度,还可以添加评论,帮助我们的团队开展调查。您还可以在 Google Maps Platform 支持文档中找到指向问题跟踪器的链接。

如果是可能只有您的项目遇到了这个问题,或者这个问题影响的客户数量很有限,请提交支持请求。如果系统未声明任何突发事件,但您仍遇到了问题,请前往 Cloud 控制台,在 Google Maps Platform 的“支持”部分中的“创建支持请求”页面上创建新的支持请求。

调查

产品工程团队负责调查突发事件的根本原因。突发事件管理通常由站点可靠性工程师完成,但根据具体情况和产品,也可能由软件工程师或其他人来完成。如需了解详情,请参阅《站点可靠性工程》一书的第 12 章

缓解/解决

只有当 Google 确信所做更改将永久终止问题带来的影响时,才会认为问题“已解决”。例如,所采用的解决操作可能是对导致触发突发事件的更改进行回滚。

当突发事件正在处理中时,支持团队和产品团队会尝试“缓解”问题。缓解是指可以缩减问题的影响或范围,例如通过临时为过载的服务提供额外资源。

如果没有找到任何缓解措施,支持团队会尽可能提供临时解决方案并告知相关方。临时解决方案是指发生突发事件后可用于解决基本需求的操作步骤。临时解决方法可能会对 API 调用使用不同的设置,以避开出现问题的代码路径。

后续跟踪

当突发事件正在发生时,支持团队会定期更新相关情况,通常会提供以下内容:

  • 有关突发事件的更多信息,例如错误消息、受影响的功能及其影响范围。
  • 缓解策略的进展,包括所有临时解决方法。
  • 根据突发事件专门制定的沟通时间表。
  • 状态更新,例如通知“突发事件已解决”。

事后分析

Google 会针对所有突发事件在内部执行事后分析,以便全面了解突发事件,并确定 Google 可作出的可靠性改进,然后跟踪和实施这些改进。如需详细了解 Google 的事后分析,请参阅《站点可靠性工程》一书的第 15 章

突发事件报告

如果突发事件具有非常广泛且严重的影响,Google 会提供突发事件报告,其中概述了事件中出现的问题、影响、根本原因、补救措施以及未来的预防措施。如同事后分析一样,我们会特别注意在了解问题和提高可靠性时所采取的步骤。Google 撰写和发布事后分析的目的是实现公开透明化,并表明我们致力于为客户构建稳定服务的承诺。

常见问题解答

我想在服务中断期间收到通知,该怎么做?

  • 加入 Google Maps Platform Notifications 论坛,即可接收正在发生的问题的通知,还可以实时跟踪突发事件的处理进度。您还可以通过此论坛及时了解产品和平台公告。
  • 使用 Google 地图公共状态信息中心底部的 RSS FeedJSON 历史记录链接,即可查看包含当前突发事件和过往突发事件的 Feed。信息中心内的新动态会同步到 Feed 中。为了让您及时了解最新动态,Feed 中的每个帖子都将包含与信息中心内对应事件相关的所有消息和最新动态。这样一来,您便无需浏览 Feed 历史记录来汇总突发事件的处理进度。RSS Feed 以 XML 格式发布。借助 RSS Subscription Extension(由 Google 提供)等浏览器扩展程序,您可以预览 Feed 内容,并通过您常用的 RSS 阅读器进行订阅。JSON 历史记录是过往突发事件的 JSON Web Feed。各类软件库和 Web 框架都支持通过 JSON Feed 进行内容整合。

信息中心首页提供哪些类型的状态信息?

Google 地图公共状态信息中心提供与 Google Maps Platform 中的 API 和服务相关的信息。出现待处理的突发事件后,系统会在此处发布 Google Maps Platform 中各 API 和服务的信息。系统会始终显示代表各 API 和服务的整体运行状况的状态指标,其中包括:

  • 服务中断:生产系统或服务已中断。解决方法不可用或不易实施。
  • 服务故障:生产系统或服务受到部分影响,并且/或者无法按预期运行。目前有解决方法。
  • 服务信息:生产系统或服务受到部分影响,并且/或者无法按预期运行。一般情况下,相应服务仍然可用,突发事件的影响较小,且只影响少数用户。
  • 可用:服务完全正常并按预期运行。

信息中心是否实时更新?

如果某产品已推出正式版,并且在 Google Maps Platform 服务等级协议 (SLA) 的涵盖范围内,则其状态信息会显示在 Google 地图公共状态信息中心内。我们会在发布之前对所有突发事件进行验证,因此,发布时间可能会比首次检测到突发事件的时间略晚。因此,不应将信息中心用于跟踪正常运行时间。

我能否使用信息中心监控 Google Maps Platform 的正常运行时间?

Google 地图公共状态信息中心不适用于监控 GMP 服务状态是否符合 GMP SLA 的要求,因为信息中心内显示的服务中断时长可能无法反映项目的实际“停机时间”(具体定义见 SLA),尤其是对于严重程度较低的突发事件。此外,显示的时长可能包括问题缓解后用于完全确认问题“已解决”的额外时间。

如需监控 API 用量、创建信息中心和创建提醒,请访问 Google Maps Platform Monitoring

如果我没有在信息中心看到突发事件,该怎么办?

并非所有客户和项目都会受到每个突发事件的影响。信息中心只显示影响范围较广且严重的突发事件。如果您遇到信息中心未列出某个问题的情况,请与支持团队联系

在哪里可以找到以前的服务故障和中断的相关信息?

Google 地图公共状态信息中心的历史记录页面存储有过去 365 天内的服务故障和中断事件。点击某个突发事件,即可查看在该事件处理过程中发表的相关帖子,以及支持团队发布的任何突发事件报告。

谁负责更新信息中心?

全球 Google Maps Platform 支持团队使用许多不同类型的信号来监控服务状态,如果发生广泛性问题,该团队将更新信息中心。如有需要,他们还会在突发事件得到解决后发布详细的分析报告。

“突发事件”和“服务中断”之间有什么区别?

虽然这两个术语通常可以互换使用,但在 Google 地图公共状态信息中心和外部通信文档中,我们会使用“突发事件”来表示所有降级服务期。“服务中断”仅表示最严重的故障,此时服务在某种程度上无法正常运行,导致客户体验受到严重影响。