在 Amazon OpenSearch Ingestion 与 Amazon OpenSearch Serverless 中的流式异常检测

关键要点

在数据驱动的现代环境中，流式异常检测随着机器生成数据量的增加变得至关重要。借助 Amazon OpenSearch Ingestion 和 Amazon OpenSearch Serverless，用户可以轻松实现流式异常检测，及时识别数据中的异常并采取必要措施。本文展示了如何在自己的 AWS 环境中配置和实施流式异常检测，帮助组织有效管理数据并节省资源。

无监督机器学习分析作为一种强大的工具，在当今数据丰富的环境中，尤其是在机器生成数据量日益增长的背景下，广泛应用于异常检测。流式异常检测能够实时提供数据异常的洞察，促进主动响应。 Amazon OpenSearch Serverless 旨在无缝可扩展并管理搜索工作负载；而 Amazon OpenSearch Ingestion 则为索引数据上的异常检测提供了强大的解决方案。

本文将提供一个使用 OpenSearch Ingestion 的解决方案，使您能够在自己的 AWS 环境中执行流式异常检测。

使用 OpenSearch Ingestion 进行流式异常检测

OpenSearch Ingestion 使流式异常检测变得简单且成本低廉。流式异常检测帮助您节省索引成本，并避免处理大数据时需要的复杂资源。它使组织能够适时应用适当的资源，管理大数据，并降低开支。借助同行转发器和聚合处理器固然可以实现更复杂的操作，但 OpenSearch Ingestion 能够显著降低这些问题。

解决方案概述

在以下示例中，我们展示如何使用随机切割森林 (random cut forest) 异常检测器来监控 5 分钟内的日志数量，并通过索引原始日志来演示数据流的整体情况。如果您的用例需要分析原始日志，可以简化流程，跳过初始管道，直接进行流式异常检测，仅索引已识别的异常。

以下图示展示了解决方案架构。

配置中包含两个 OpenSearch Ingestion 管道。第一个非广告管道接收 HTTP 数据，对其进行时间戳处理，并将其转发到广告管道和 OpenSearch 索引nonadindex。第二个广告管道接收此数据，在 5 分钟的窗口内根据 ID 进行聚合，并进行异常检测。结果存储在广告异常索引adanomalyindex中。该设置展示了 OpenSearch Service 中数据处理、异常检测和存储的集成，提高了分析能力。

实施解决方案

完成以下步骤以设置解决方案：

飞兔加速器破解版ios创建管道角色。创建集合。创建管道，并指定管道角色。

管道将假设此角色，以便向 OpenSearch Serverless 集合端点签名请求。在以下管道配置中指定所需参数的值：

对于 stsrolearn，指定您创建的管道角色的 Amazon 资源名称 (ARN)。对于 hosts，指定您创建的集合的端点。将 serverless 设置为 true。

yamlversion 2

第一个管道

nonadpipeline source http path /{pipelineName}/testingestionpath processor date fromtimereceived true destination @timestamp sink pipeline name adpipeline opensearch hosts [ https//{collectionid}useast1aossamazonawscom ] index nonadindex

    aws      stsrolearn arnawsiam{accountid}role/pipelinerole      region useast1      serverless true

第二个管道

adpipeline source pipeline name nonadpipeline processor aggregate identificationkeys [id] action count groupduration 300s anomalydetector keys [value] # value 将包含日志总数 mode randomcutforest outputafter 200 sink opensearch hosts [ https//{collectionid}useast1aossamazonawscom ] aws stsrolearn arnawsiam{accountid}role/pipelinerole region useast1 serverless true index adanomalyindex

有关所需参数和任何限制的详细指南，请参见 Amazon OpenSearch Ingestion 管道的支持插件和选项。

更新配置后，通过选择验证管道来确认您的管道设置的有效性。

如果验证成功，将显示“管道配置验证成功”的消息，如下图所示。

如果验证失败，请参考 Amazon OpenSearch Service 故障排除指南寻求帮助。

OpenSearch Ingestion 的费用估算

您只需为分配给管道的 Ingestion OpenSearch 计算单元Ingestion OCUs付费，无论管道是否有数据流动。OpenSearch Ingestion 会根据使用情况立即调整管道容量。有关费用概览，请查阅 Amazon OpenSearch Ingestion 的定价。

以下表格展示了根据特定吞吐量和计算需求的近似月费用。假设运营时间为工作日的早上 8 点到晚上 8 点，费用为每小时每个 OCU 024。

使用 Amazon OpenSearch Ingestion 和 Amazon OpenSearch

公式为：每月总费用 = OCU 需求 OCU 价格每天小时数每月天数。

吞吐量所需计算 (OCUs)每月费用 (USD)1 Gbps1057610 Gbps100576050 Gbps50028800100 Gbps100057600500 Gbps5000288000

清理

完成解决方案后，请删除您创建的资源，包括管道角色、管道和集合。

总结

通过 OpenSearch Ingestion，您可以探索在 OpenSearch Service 中进行流式异常检测的可能性。本文中的用例展示了 OpenSearch Ingestion 如何简化实现过程，以更少的资源实现更多目标。它展示了该服务分析日志速率、生成异常通知并支持主动应对异常的能力。借助 OpenSearch Ingestion，您可以提高运营效率，增强实时风险管理能力。

欢迎在评论中留下您的想法和问题。

作者介绍

Rupesh Tiwari 是一名 AWS 解决方案架构师，专注于现代化应用程序，特别是在数据分析、OpenSearch 和生成性 AI 方面。他以创建可扩展、安全的解决方案而著称，这些解决方案利用云技术实现变革性的商业成果，并积极参与社区互动与技术分享。

Muthu Pitchaimani 是 Amazon OpenSearch Service 的搜索专家，负责构建大规模搜索应用程序和解决方案。他对网络和安全主题非常感兴趣，目前主要在德克萨斯州奥斯丁工作。

介绍 AWS Lambda 函数的高级日志控制计算博客

AWS Lambda 函数的高级日志控制介绍作者：David Boyne，于 2023 年 11 月 16 日发布于 Amazon CloudWatch AWS Lambda 无服务器架构重点摘要AW...

当云转型带来个人转型培训与认证博客

云转型如何促进个人成长关键要点AWS 提供 12 种认证考试，验证不同角色和专业的云技能与专长。Ian Butler 在公司云转型的背景下，通过获得全部 AWS 认证，实现了个人和职业的巨大变化。AN...

使用 Amazon OpenSearch Ingestion 和 Amazon OpenSearch

在 Amazon OpenSearch Ingestion 与 Amazon OpenSearch Serverless 中的流式异常检测

关键要点