re:Invent 2023 | 借助 Amazon Trusted Advisor 和 Amazon Well-Architected Framework 加速优化

关键字: [Amazon Web Services re:Invent 2023, Cloud Optimization, Trusted Advisor, Well Architected Framework, Resilience, Governance]

本文字数: 3000, 阅读完需: 15 分钟

视频

如视频不能正常播放，请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1fa4y1o79Z

导读

您知道如何识别云环境中的优化区域来提高运行效率吗？加入本论坛，了解如何使用 Amazon Trusted Advisor 和 Amazon Well-Architected Framework 提供的见解，加速优化。了解如何使用亚马逊云科技最佳实践，根据对业务的影响确定改进的优先级排序。聆听 Georgia Pacific 如何通过实施亚马逊云科技最佳实践和利用 Trusted Advisor 有效地解决工作负载弹性和成本优化挑战。

演讲精华

以下是小编为您整理的本次演讲的精华，共2700字，阅读时间大约是14分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。

亚马逊云科技的Trusted Advisor和Well Architected框架在优化工作负载方面的演讲始于Steven Salem，他是亚马逊云科技Well Architected团队的高级解决方案架构师。接着，他介绍了Arun Rajan，被誉为亚马逊云科技Trusted Advisor的主要产品经理。随后，Steven介绍了第三位演讲者Carlos Wiley，他是Georgia Pacific的企业架构师。Steven表示，尽管可能不熟悉公司名称，但他们很可能每天都与Georgia Pacific的产品互动。Steven列举了一些知名的消费者品牌，如Angel Soft纸巾和Dixie一次性盘子和杯子。

在演讲者介绍完毕后，Steven期待这是一场针对技术实施细节的第300级演讲。此次会议将探讨如何使用Trusted Advisor和Well Architected框架来优化云工作负载。Steven概述了演讲的高级别议程。首先，他将概述云计算优化的定义。接下来，他将介绍一些发现和优化机会的方法和工具。最后，Carlos将分享Georgia Pacific如何利用Trusted Advisor和Well Architected框架优化其关键工作负载的案例。

在过渡到第一部分时，Steven承认，关于云计算优化的含义有很多不同的解释。有些人认为它仅仅是降低成本，而其他人认为它与性能改进是同义的。为了确保他们的谈话有明确的目标，Steven提供一个明确的定义。具体来说，他将云计算优化定义为任何为了构建和运行一个工作负载以最大化其交付业务价值并实现目标潜力的努力。Steven强调，优化可以涉及多个领域，包括但不限于成本、性能、安全和运营。为了说明云计算优化的范围，他提供了一个专注于高可用性的优化的详细示例。

在他的设想中，假设有一个非常受欢迎的SaaS电子商务网站，因其客户影响和收入问题，需要极高的可用性。为了满足这一需求，在该区域的每个可用性区域中都部署了三个独立的重拷贝。在这些重拷贝之前，设置了网络负载均衡器在区域内分配流量。在DNS方面，使用Route 53处理路由和域名解析。

据史蒂文解释，这种独立于AZ的架构如何能提供最大的运行时间。如果一个重拷贝因任何原因崩溃，负载均衡器可以将流量转移到其他区域中健康的重拷贝以保持可用性。虽然这满足了功能要求，但史蒂文强调了它所带来的缺点，这些缺点为优化提供了机会。

首先，管理和协调三个独立的AZ部署在架构和运营中引入了大量的额外复杂性和开销。每次添加更多需要协同工作的活动部件时，都会增加构建、运行、管理和故障排除系统的工作量。

更关键的是，这种架构处理AZ故障恢复的方式存在一个重大缺陷。当一个区域出现问题时，标准的恢复方法直接删除指向受影响区域的DNS记录。这将其从循环中移除，使所有流量都流向剩余的健康区域。但是，通过调用Route 53 API删除DNS记录，您现在依赖于控制平面来执行恢复过程。如果由于断电或中断导致控制平面受损，您将失去转移流量的能力，可能导致整个应用程序关闭。

史蒂文强调，尽管这种架构满足了功能要求，但它带来了缺点，这些缺点明显提供了优化机会。相反，他提出了一种更好的方法，通过利用亚马逊云科技的新功能来减少复杂性和风险。

特别地，他建议使用Amazon Route 53的应用恢复控制器，该控制器具有一种名为区域切换的功能。这一功能允许直接在Route 53的数据平面内将通话从一个特定区域迁移，从而在恢复过程中不再依赖控制平面。这不仅降低了操作复杂性，更重要的是消除了控制平面中断对可用性的影响。

总的来说，史蒂文阐述了如何利用亚马逊云科技上的新功能来优化工作负载。工作负载的优化状态会随着时间的推移而不断变化，而非固定不变。

深入研究推动这种持续变化的原因，史蒂文列出了三个核心因素：首先是行业趋势带来的新范式和最佳实践；其次是不断演变以适应市场动态的业务需求；最后是亚马逊云科技推出的创新服务和功能。

史蒂文强调，由于所有这些变动因素，理想的最优状态概念是短暂的。那么在不断变化的背景下如何优化工作负载呢？这就引出了“架构良好框架”的第二个核心优势。

尽管具体细节可能经常更改，但良好的架构框架建立了一套一致的基础，支持优化的云架构。它提供一个稳定的基石，以便在条件发生变化时调整优化努力。

史蒂文概括了框架的六个支柱：运营卓越、安全、可靠性、成本优化、性能效率和可持续性。遵循这些支柱下的300多个最佳实践，可以确保您的架构正遵循亚马逊云科技的优化指南。

以高可用电子商务网站为例，史蒂文展示了架构良好框架如何指导优化。对于这项工作负载，关键是最大限度地减少任何故障导致的停机时间。查看可靠性支柱后，会发现一个专注于故障管理的部分，其中包括处理故障的最佳实践。

Special attention is paid to the use of data plane control whenever possible in Well Architected principles, rather than relying solely on control plane methods. This directly aligns with the previously discussed opportunities for optimization with Amazon Route 53. As time goes by, new features will emerge, but the cornerstone and best practices provide a fixed direction for optimization efforts.

Switching topics, Steven entered the next portion of the presentation, focusing on discovery. He reiterated that optimization is essentially a continuous improvement iterative process. This involves identifying potential improvement opportunities first, then evaluating the gap between work load and these opportunities, and finally implementing improvements gradually.

Steven emphasized the importance of maintaining this continuous iteration cycle. It allows for gradual enhancement of work loads while ensuring that changes bring about actual business value.

He outlined two core aspects of exploration - technical configuration and organizational processes/personnel. In the technical realm, Amazon Web Services provides automation tools to assess work loads for compliance with best practices. In the organizational discovery sphere, Amazon Web Services offers a structured conversation framework.

In terms of automated assessment, Steven introduced Trusted Advisor. Trusted Advisor is a comprehensive management service provided by Amazon Web Services, which conducts continuous scans of account configurations based on over 400 best practices covering 47 different services. It not only identifies deviations but also provides direct optimization suggestions and repair steps.

Steven noted that all Amazon Web Services customers with a commercial or enterprise support plan can utilize Trusted Advisor. He explained that the service integrates with EventBridge to trigger automatic operations in response to inspection responses. This goes beyond revealing insights; it can also programmatically improve the environment.

In the organizational context, Steven spoke of the Well Architected Tool. This is an interactive tool within the Amazon Web Services control panel that provides a structured framework for discussions with stakeholders about best practices. It includes custom question sets tailored to different roles, such as developers, operations engineers, and security personnel.

史蒂文向与会者介绍了一些近期新增的"架构良好工具"的功能。首先，新的配置文件功能允许根据业务环境定义定制的问题集，从而能够针对特定工作负载确定最相关的最佳实践优先级。其次，该工具现提供审查模板，可预填充常见答案的问题，以简化并扩展整个组织的审查过程。在简要介绍完探索性工具后，史蒂文将发言权交给了阿伦·拉贾纳，以便更深入地了解可信顾问。

阿伦开始了他的演讲，强调可信顾问如何与优化周期的三个核心阶段（学习、衡量和改进）保持一致。最佳做法检查提供了服务背景教育，而扫描则测量工作负载是否符合最佳做法。最后，建议有助于采取行动来改进环境。尽管报告和建议主要涉及学习和衡量方面，但阿伦重点讲解了如何使用可信顾问通过自动化推动改进阶段。例如，他通过使用与EventBridge的集成展示了一个案例，即当检查检测到暴露的IAM访问密钥时，可以触发操作。一旦通过EventBridge收到关于此发现的通知，可以调用一个Step Functions工作流来立即禁用密钥，评估暴露期间的活动，并向安全团队通报事件。通过由可信顾问发现的漏洞触发的修复工作流程，可以从手动流程转向自动化优化和事故响应。除了这一自动化潜力外，阿伦还概述了可信顾问的检查类别如何与架构良好框架的定义的支柱紧密一致。为了增强这种映射，亚马逊云科技最近引入了一个新的检查类别，专门关注运营卓越，涵盖运营就绪最佳做法。此外，阿伦解释称，可信顾问最近已经获得了一个新的数据源——亚马逊云科技Config。通过与Config集成，可信顾问可以将亚马逊云科技Config规则作为额外的检查。这允许将资源配置见解表面为可行动的可信顾问发现。

为了展示这是如何工作的，Arun通过一个新的API Gateway检查，受Config数据驱动，进行了一场演示。当API Gateway尚未配置将执行日志记录到CloudWatch时，这个检查会向用户发出警报。Config规则会验证API Gateway的设置，而Trusted Advisor则将其作为卓越运行检查的一部分呈现给用户。这样，用户立刻就能获得关于启用此关键故障排除数据的推荐。

转向他的下一个主题，Arun谈论了如何处理亚马逊Trusted Advisor的发现。尽管有超过400个检查涵盖了数十个服务，但通常会有很多发现结果超出了组织一次性能够解决的范围。

为了有效确定优先级，Arun提出结合两个关键数据维度——紧迫性和业务影响。紧迫性方面，Trusted Advisor会根据检查状态提供高、中、低三个严重程度级别。要确定业务影响，可以利用Well Architected Framework中记录的每个最佳实践的风险级别。

例如，Arun介绍了一个四象限优先矩阵——高紧迫性/高影响、高紧迫性/低影响、低紧迫性/高影响和低紧迫性/低影响。企业可以根据自身业务情况将发现结果映射到这些类别，并决定先关注哪些区域。

对于大型组织，Arun指出，亚马逊云科技企业支持包括一个Trusted Advisor优先级服务。该服务会根据您的业务优先事项和哪些发现结果会产生最大影响提供定制建议。依靠了解您的工作负载的技术账户经理，您可以加速优化速度，而不是采取纯粹手动的方法。

总之，Arun提到了开源优化启动器解决方案可以帮助您开始自己的自定义优先级的数据收集。该方案包含用于拉取Trusted Advisor的发现结果、将其映射到Well Architected的实践以及生成整合两种数据源的报告的脚本。

在完成对亚马逊Trusted Advisor的深入探讨后，Arun将演讲权交给了Georgia Pacific的Carlos Wiley，让他分享他们在实际应用中如何使用亚马逊云科技的优化工具的经验。

卡洛斯在他的客户案例研究中强调了Georgia Pacific公司运营的SAP HANA ERP系统的重要性。据他介绍，该系统负责处理制造、库存管理、订单接收和物流等关键功能。它为工厂、仓库、销售和分销提供了中枢神经系统。

由于这个系统对业务运营至关重要，卡洛斯强调任何停机或中断都可能造成无法生产产品、接受订单并向客户发货的后果。整个供应链可能会受到严重影响。

为了量化影响，卡洛斯讲述了制造过程中的停机如何导致产品堆积的问题。由于ERP系统关闭，新的订单不能接受，现有的订单也不能履行。这最终阻止了产品到达商店货架，导致了收入和客户满意度的损失。

因此，卡洛斯强调在Georgia Pacific公司最初部署SAP HANA时，恢复力和正常运行时间是非常重要的。他概述了他们采用的多层次方法来实现极高的可用性和强大的灾难恢复保护。

最初的部署包括三个可用区。在每个区域中，他们都准备了SAP HANA数据库的完整副本以及相关应用程序服务器。这可以承受区域级别的故障，避免单点故障。

在他们的关键SAP HANA数据库上，他们实施了额外的数据恢复保护。他们利用Pacemaker复制来保持跨区域的数据库同步。这种主动-主动配置确保了在数据库停机时可以快速进行故障切换。

对于应用程序服务器，他们利用CloudEndure灾难恢复来复制服务器镜像。CloudEndure允许在发生故障时立即自动启动替换服务器。

通过这些措施，他们提供了针对单个区域孤立问题的完全恢复力。然而，卡洛斯指出，地区风险仍然是一个威胁，需要额外的保护。

在这里，他们决定使用EC2容量预留。通过预先预留地区的容量，他们确保恢复系统可以在来自大范围停机的需求激增下启动。

预留容量确实会导致额外成本的增加。为了抵消这一影响，Georgia Pacific公司将其多余的容量重新用于质量保证（QA）系统，从而降低了开支。在进行测试或实际灾难恢复时，可以暂停QA系统以释放预留的容量。这种方法在提供灾难恢复保障的同时，优化了成本结构。然而，Carlos注意到，优化工作的范围远远超出了基础设施配置。"

"一个关键挑战是了解他们众多关键工作负载的弹性风险。为解决此问题，Georgia Pacific公司采用了亚马逊云科技的Resilience Hub。通过模拟他们的核心应用程序及其恢复时间目标（RTO）和恢复点目标（RPO）需求，Resilience Hub允许跨环境集中查看风险和进行评估。这使得他们能够根据应用程序的关键性在整个产品组合中标准化弹性模式和配置。自动评估还加速了对新工作负载和修改的合规性评估。"

"Carlos解释说，虽然Resilience Hub提供了对模拟应用程序的深度洞察，但他们仍然需要在整个亚马逊云科技覆盖范围内实现更广泛的管理。在这里，Trusteed Advisor的弹性检查提供了关键的可见性。通过将Trusteed Advisor的结果集中汇总，他们可以轻松跟踪应用程序内部和外部Resilience Hub的弹性一致性。这种端到端视图确保了全面的风险覆盖和监督。"

"总的来说，Carlos总结了他们在使用这些亚马逊云科技工具进行优化过程中学到的三个关键经验教训。首先，将Well Architected审查问题纳入内部评估增加了更精确和有针对性的发现。其次，依赖自动化评估大大提高了审查的速度、一致性和准确性。最后，实施像Resilience Hub和Trusted Advisor这样的工具来实现端到端的可见性和治理，使整个组织能够实现优化。"

"随着Carlos总结完详细的客户案例，Steven回到讲台总结。他回顾了如何使用Trusted Advisor和Well Architected来指导、实施和管理云优化的过程。

史蒂文一再强调，核心观点在于理解优化是一个持续且具有迭代性的过程，其关注点在于推动商业价值的实现。他特别强调了利用亚马逊云科技所提供的不断发展和最佳实践来支持以业务为核心的优化进程。

接着，史蒂文与阿伦共同回答了最后一个问题，并完成了关于运用Trusteed Advisor和Well Architected Framework优化工作负载的详尽探讨。

下面是一些演讲现场的精彩瞬间：

专注于作为可信顾问和采用良好的架构如何助力优化云计算技术领域。

亚马逊云科技的良好架构工具通过挑选针对性问题及最佳实践，为与利益相关者之间的沟通提供指导。

作为可信顾问，其与其他服务的整合对于优化云计算周期中的改进环节至关重要。

专业的技术客户经理团队协助客户优先处理那些对业务产生最大影响的可信顾问建议。

该团队不断改进监控机制，以便解决诸如EBS抑制之类的问题，这类问题可能导致应用服务器停机，同时更深入地了解亚马逊云科技的使用配额限制。

自动评估确保在实施灾难恢复计划之前，能够完成所有的桌面演练，从而提高效率。

领导层总结了亚马逊云科技部门如何在满足最高要求并实施严格管理的同时，实现成本优化的进展。

总结

演讲者详细阐述了如何运用亚马逊云科技的Well-Architected框架和Trusteed Advisor来优化云计算工作负载。除了成本和性能之外，云优化还涉及安全性、运营等多个方面，以实现其最大潜力。Well-Architected框架为构建安全、高性能、弹性和高效的基础设施提供了指导，涵盖了各个领域（如可靠性、安全和成本优化）的最佳实践。Trusteed Advisor则会根据这些最佳实践扫描配置并识别优化机会。演讲者推荐采用一种迭代的方法来进行云优化，这种方法以业务成果为导向。这一过程包括学习最佳实践，对其进行衡量以找出差距，然后逐步进行改进。诸如Well-Architected审查和Trusteed Advisor之类的工具有助于发现潜在问题。根据紧迫性和业务影响对问题进行优先排序，以确保获得较高的投资回报率。一个实际案例展示了如何将这些理念应用于提高关键ERP应用程序的弹性和治理过程。主要的成果是利用自动化并与Well-Architected一致的架构审查流程。演讲者强调，随着新功能的出现和业务需求的变化，云优化将是一个持续发展的过程。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134814255

想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处，一键获取亚马逊云科技全球最新产品/服务资讯！

点击此处，一键获取亚马逊云科技中国区最新产品/服务资讯！

即刻注册亚马逊云科技账户，开启云端之旅！

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁？

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者，自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务，涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体，以及应用开发、部署与管理等方面；基础设施遍及 31 个地理区域的 99 个可用区，并计划新建 4 个区域和 12 个可用区。全球数百万客户，从初创公司、中小企业，到大型企业和政府机构都信赖亚马逊云科技，通过亚马逊云科技的服务强化其基础设施，提高敏捷性，降低成本，加快创新，提升竞争力，实现业务成长和成功。