Monks 利用 Amazon SageMaker 和 AWS Inferentia2 将实时扩散 AI 图像生成的处理速度提升至四倍

关键要点

在本篇文章中，我们将探讨 Monks 如何通过使用 AWS Inferentia2 芯片与 Amazon SageMaker 的异步推理来显著提升实时图像生成的处理速度和成本效益。结果显示，处理速度提高了四倍，同时每张图像的成本降低了60。

此文由 Benjamin Moody 与 Monks 的团队合作撰写。

Monks 是 S4Capital plc 的全球数字化品牌，凭借创新的传统和专业的技术，致力于加速业务可能性，重新定义品牌和企业与世界的互动。Monks 的系统与工作流程的整合，实现了不受限制的内容生产、规模化体验、企业级技术，以及基于人工智能的数据科学，旨在帮助世界领先企业超越竞争对手。

在创建尖端品牌体验方面，Monks 处于领先地位。我们通过创新和前瞻性的解决方案塑造现代品牌。作为品牌体验专家，我们结合策略、创意和内部制作的协同效应，交付卓越成果。本团队负责利用 AWS 服务和机器学习ML加速的最新进展，开展了一项雄心勃勃的项目，旨在彻底改变实时图像生成。具体来说，我们专注于使用 AWS Inferentia2 芯片结合 Amazon SageMaker 来增强图像生成流程的性能和成本效益。

方案概述

我们采用 AWS Inferentia2 芯片与 SageMaker 的异步推理，有效处理大负载和长延迟的请求，同时保证低延迟响应。我们首先对存储在 Amazon Simple Storage Service 上的特定领域图像进行了 Stable Diffusion XL 模型的微调。借此，我们使用了 Amazon SageMaker JumpStart 服务。

以下是我们解决方案的工作流程组成部分：

创建端点：我们使用现有的 SageMaker 模型创建了异步推理端点，并使用 AWS Inferentia2 芯片以提高价格/性能比。请求处理：用户提交图像生成请求，输入负载存放在 Amazon S3 中，SageMaker 接着将请求排队处理。处理与输出：经过处理后，结果存放回 Amazon S3 的指定输出存储桶。在非工作时段，SageMaker 自动将实例数量缩减为零，显著降低成本，因为只有在端点处理请求时才会产生费用。通知：通过 Amazon Simple Notification ServiceAmazon SNS设定完成通知，以告知用户成功或错误。

以下图表展示了我们的解决方案架构和流程工作流程。

接下来，我们将更详细地讨论解决方案的关键组成部分。

SageMaker 异步端点

SageMaker 的异步端点能够排队处理传入请求，非常适合大负载高达 1GB或处理时间较长最长 60 分钟的推理请求。通过动态扩展，SageMaker 可在流量较少时将实例数量缩减为零，从而优化成本，只在有请求时收取费用。

要了解如何创建 SageMaker 异步端点、附加自动扩展策略并调用该端点，请参阅创建异步推理端点。

AWS Inferentia2 芯片通过硅优化，专为深度学习推理应用提供高性能，且成本最低。它们集成在 SageMaker 的异步推理端点中，支持通过超高速连接进行扩展分布式推理，使我们能够高效且经济地部署大规模生成 AI 模型。

在较大规模的全国性广告活动中，异步计算帮助我们有效管理并发请求的峰值流量，每秒预计会有数百个并发请求。SageMaker 提供的异步推理端点确保了动态扩展和高效的任务管理。

该解决方案的主要优势包括：

高效处理较长的处理时间：SageMaker 异步推理端点能够完美应对每个请求需要大量计算工作。例如，它能够有效管理波动的需求。成本效益的资源利用：异步推理端点自动将计算资源节省至零，降低非活跃期的成本，而不会丢失请求。

使用 Amazon CloudWatch 指标的自定义扩展策略

SageMaker 端点的自动扩展行为依赖于扩展策略，以应对并发使用应用程序的多个用户。该策略定义了何时扩展或缩减资源，以实现最佳性能和成本效益。

对于 SageMaker 的异步端点，我们所需的实时指标并未如愿实现，因此我们采用了自定义的 CloudWatch 指标监测我们的基础设施。

Amazon CloudWatch 自定义指标为我们监控和管理 AWS 云中的应用程序和服务提供了强有力的工具。

我们建立了一系列监控指标，其中一个尤为重要的是跟踪图像生成过程中的缓存未命中。这有助于我们评估端点队列的请求层级。经过计算和分析后，我们对自动扩展策略进行了优化。

僧侣通过使用 Amazon SageMaker 和 AWS Inferentia2 提高实时扩散 A 结果与益处

通过实施 SageMaker 的异步推理端点，我们的架构显著提升了应对不同流量负载以及优化资源利用的能力，表现出性能和成本效益的明显改善：

推理性能：AWS Inferentia2 芯片每小时平均处理 27796 张图像，吞吐量较同类加速计算实例提高了两倍。推理成本节省：执行 AWS Inferentia2 配置，每张图像的处理成本减少了 60。每张图像处理费用为 0000425。尽管需花费时间为 AWS Inferentia2 芯片编译模型，但通过提升吞吐量和降低成本，这些努力获得了回报。平滑流量波动：我们有效地平滑了图像生成请求的峰值流量，过了 97 秒开始生成图像，从而了解了系统的负载潜力。

结论

本文探讨了 SageMaker 和 AWS Inferentia2 芯片在生成型 AI 应用中的应用潜力。SageMaker 的完全托管异步端点使应用有能力以结构化的方式应对突发和可预测的需求。虽然为 Stable Diffusion XL 模型编译适配过程存在一定的学习曲线，但 AWS Inferentia2 芯片显著提升了我们的低延迟推理能力，为用户提供了良好的体验，同时保持了成本效益。

要了解更多关于 SageMaker 部署选项的信息，参考 Amazon SageMaker 的模型托管模式的系列文章。可以通过以下示例开始使用 SageMaker 和 AWS Inferentia2 托管 Stable Diffusion 模型。

关注 Monks 了解更多，发现我们如何通过整合媒体、数据、社交平台、工作室制作以及品牌战略等多种解决方案，成为全面的数字合作伙伴，以高效创建内容、扩展体验和推动基于 AI 的数据洞察。

关于作者

Benjamin Moody 是 Monks 的高级解决方案架构师，专注于设计和管理高性能、安全的架构，使用广泛的 AWS 服务。

Karan Jain 是 AWS 的资深机器学习专家，负责帮助客户加速其生成 AI 和 ML 之旅。

Raghu Ramesha 是 AWS 的高级生成 AI/ML 解决方案架构师，专注于帮助企业客户构建和部署 AI/ML 生产工作负载。

Rupinder Grewal 是 AWS 的高级生成 AI/ML 解决方案架构师，目前专注于 SageMaker 的模型服务和 MLOps。

Parag Srivastava 是 AWS 的高级解决方案架构师，专注于将生成 AI 应用于商业场景。

标签：AI/ML Amazon Machine Learning Amazon SageMaker AWS Customer Generative AI machinelearning

加速器永久免费

加载评论

使用 AWS WAF 挑战和 CAPTCHA 操作防护机器人网络与内容交付

使用 AWS WAF 防范机器人攻击关键要点AWS WAF 使用 CAPTCHA 和 Challenge 动作来保护应用程序免受机器人的威胁。Challenge 动作要求客户端完成计算密集型任务，而 ...

在 Amazon RDS for Oracle 中设置数据库资源管理器数据库博客

在 Amazon RDS for Oracle 中设置数据库资源管理器关键要点在将 Oracle 数据库迁移至 Amazon RDS for Oracle 后，您可能希望对 CPU 及其他资源进行更高...

僧侣通过使用 Amazon SageMaker 和 AWS Inferentia2 提高实时扩散 A

Monks 利用 Amazon SageMaker 和 AWS Inferentia2 将实时扩散 AI 图像生成的处理速度提升至四倍

关键要点