

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 关于 AWS DevOps 代理
<a name="about-aws-devops-agent"></a>

AWS DevOps Agent 是一种边境代理，可以解决并主动预防事件，从而不断提高可靠性和性能。

AWS DevOps 工程师以经验丰富的 DevOps 工程师的身份调查事故并确定运营方面的改进。

该代理的工作方式是：
+ 了解您的资源及其关系。
+ 使用您的可观察性工具、技能、代码存储库和 CI/CD 管道。
+ 关联遥测、代码和部署数据，以了解应用程序资源之间的关系。
+ 支持多云和混合环境中的应用程序。

## 主要 功能
<a name="key-features"></a>

AWS DevOps Agent 通过以下功能提供全面的事件响应和预防功能：

### 始终在线、自主的事件响应
<a name="always-on-autonomous-incident-response"></a>

AWS DevOps Agent 会在问题发生的那一刻即自动进行调查：
+ **自动事件调查** — 收到警报或支持请求后立即开始调查
+ **AWS DevOps Agent Chat**-在整个 Ag DevOps ent Space Web 应用程序中使用自然语言查询您的基础架构、分析系统运行状况并指导调查。聊天会根据你正在查看的页面提供情境感知响应，无论是询问拓扑中的资源、指导调查还是在 Prevention 中筛选建议。
+ **详细的缓解计划** — 提供具体措施来解决事件、验证成功并在需要时恢复更改
+ **自动协调事件** — 通过您首选的沟通渠道（例如 Slack 和 ServiceNow
+ **AWS 支持集成** — 直接根据调查创建 AWS 支持案例，并向 AWS 支持专家提供即时背景信息

### 防止未来事件
<a name="prevent-future-incidents"></a>

AWS DevOps 代理分析历史事件的模式，以帮助您从被动的消防转变为主动的运营改进：
+ **有针对性的建议** — 提供具体、可操作的改进，以加强四个关键领域：可观察性（监控、警报、记录）、基础架构优化（自动扩展、容量调整）和部署管道增强（测试、验证）。
+ **持续学习** — 根据团队的反馈完善建议

### 从您的 DevOps 工具中获得更多收益
<a name="get-more-from-your-devops-tools"></a>

AWS DevOps Agent 无需更改工作流程即可与您的现有工具集成：
+ **应用程序资源映射**-生成应用程序资源及其关系的拓扑图
+ **内置集成** — 可与流行的可观察性工具（Amazon CloudWatch、Dynatrace、Datadog、New Relic 和 Splunk）、代码存储库和 CI/CD 管道（GitHub 操作和存储库、工作流程和存储库、工作流程和存储库）配合使用 GitLab 
+ **自定义工具集成** — 通过连接到您自己的模型上下文协议 (MCP) 服务器来扩展功能，以获取其他工具
+ **对话式基础设施查询** — 使用自然语言查询 AWS 资源、系统指标和警报状态，无需浏览多个控制台。Chat 可以理解上下文，并保留对话历史记录以备后续问题之用。

## AWS DevOps 代理的工作原理
<a name="how-aws-devops-agent-works"></a>

AWS DevOps 代理通过双控制台架构运行。管理员使用 AWS 管理控制台来创建和管理代理空间、配置集成以及设置访问控制。运营团队使用 AWS DevOps 代理 Web 应用程序进行 day-to-day事件响应和调查活动。在 Web 应用程序中，操作员可以与代理调查进行交互，浏览跨账户应用程序拓扑，并了解可观察性、代码、管道和基础设施架构的预防性改进。要了解更多信息，请参阅[主动预防事故](working-with-devops-agent-proactive-incident-prevention.md)。

该服务围绕代理空间进行组织，代理空间是定义 AWS DevOps 代理可以访问和调查的内容的逻辑容器。每个代理空间都包含您的 AWS 账户配置、第三方工具集成和访问权限。要了解更多信息，请参阅[什么是 DevOps 代理空间？](about-aws-devops-agent-what-are-devops-agent-spaces.md)。

AWS DevOps Agent 会自动构建映射您的资源及其关系的应用程序拓扑。此拓扑有助于服务在调查期间了解您的应用程序架构。要了解更多信息，请参阅[什么是 DevOps 代理拓扑？](about-aws-devops-agent-what-is-a-devops-agent-topology.md)。

## 优势
<a name="benefits"></a>
+ **缩短平均解决时间 (MTTR)** — 自主调查立即开始，将事件解决时间从几小时缩短到几分钟
+ **防止事件反复发生** — 针对性建议可解决根本原因并增强系统弹性
+ **提高运营效率** — 将您的团队从重复的调查任务中解放出来，专注于创新
+ **在现有工作流程中工作** — 无需中断即可与现有工具和流程集成

# 什么是 DevOps 代理 Web 应用程序？
<a name="about-aws-devops-agent-what-is-a-devops-agent-web-app"></a>

AWS DevOps 代理使用双控制台架构，将管理功能与 day-to-day操作活动分开。这种设计使管理员能够配置服务，而运营团队则专注于事件响应和预防。

## 控制台
<a name="consoles"></a>

AWS DevOps 代理提供两个不同的接口：
+ **AWS 管理控制台**-管理员使用 AWS 管理控制台来设置和管理 AWS DevOps 代理。在此控制台中，您可以[创建代理空间](getting-started-with-aws-devops-agent-creating-an-agent-space.md)连接 AWS 服务和第三方工具，并管理组织的访问权限。
+ **DevOps 代理 Web 应用程序-** 运营团队使用 A DevOps gent Space Web 应用程序进行日常事件响应活动。这个独立的应用程序提供了一个界面，待命工程师可以在其中启动调查、通过自然语言聊天与代理互动、查看应用程序拓扑以及查看事件预防建议。

## Web 应用程序功能
<a name="web-app-capabilities"></a>

代 DevOps 理 Web 应用程序提供以下主要功能：
+ **事件响应-** 您可以在该页面上创建和跟踪事件调查，并生成缓解计划以解决事件。
+ **事件预防 —** 在 “预防” 页面中，您可以在这里找到改善可观察性态势、交付流程和基础设施架构的建议，以防止将来发生事件。
+ **拓扑-** 拓扑页面提供了账户资源及其在关联账户中所有资源之间的关系的交互式可视化表示。您可以使用 “显示” 下拉列表在 “系统”、“容器” 和 “资源” 视图之间切换，查看具有不同详细级别的拓扑。
+ **技能** — 模块化指令集，可扩展 AWS DevOps Agent 的专业能力。技能包括针对您的基础架构量身定制的领域知识、调查方法和工具配置。每种技能都支持特定的工具，并且只有在与调查相关的情况下才会逐步披露指令。
+ **自然语言聊天界面** — Chat 是一款由 AI 驱动的对话助手，可在整个 Web 应用程序中使用，它使您能够使用自然语言查询基础架构、分析系统运行状况和进行调查。Chat 会根据您正在查看的页面提供情境感知响应。

## 身份验证
<a name="authentication"></a>

AWS DevOps 代理支持灵活的身份验证方法，以适应不同的组织需求：
+ **IAM Identity Center 集成（用户访问）**— 组织可以使用 AWS 身份中心（IAM 身份中心）来集中管理用户对 A DevOps gent Space 网络应用程序的访问权限。IAM Identity Center 可以通过标准的 OIDC 和 SAML 协议与外部身份提供商联合，包括 Okta、Ping Identity 和 Microsoft Entra ID 等提供商。此方法支持您的身份提供商提供的多因素身份验证。
+ **外部身份提供商 (IdP) 身份验证 — 组织可以将兼容 OIDC 的身份**提供商（例如 Okta 或 Microsoft Entra ID）直接连接到 Agent Space 网络应用程序，而无需使用 IAM 身份中心。用户通过 IdP 使用其公司凭据登录。有关设置说明，请参阅[设置外部身份提供商 (IdP) 身份验证](aws-devops-agent-security-setting-up-external-identity-provider-idp-authentication.md)。
+ **IAM 身份验证链接（管理员访问权限）**— 另一种方法允许您使用现有的控制台会话从 AWS 管理控制台直接访问 Web 应用程序。在实现完整的 Identity Center 集成之前，此选项很有用，但会话限制在 10 分钟以内。

# 什么是 DevOps 代理空间？
<a name="about-aws-devops-agent-what-are-devops-agent-spaces"></a>

 DevOps 代理空间是一个逻辑容器，用于定义 AWS DevOps 代理可以访问的工具和基础架构。每个 Agent Space 都独立运营，拥有自己的 AWS 账户访问权限、第三方集成和用户权限。

代理空间代表了 AWS DevOps 代理在事件响应期间可以访问和调查的边界。创建 Agent Space 时，您可以定义代理可以访问哪些 AWS 帐户、可以连接到哪些外部工具以及组织中的哪些用户可以与代理进行交互。

每个代理空间都充当 AWS DevOps 代理的独立部署。您可以通过 AWS 管理控制台配置座席空间，而您的运营团队则使用座席空间的 Web 应用程序在该空间内进行调查和查看建议。

## 代理空间是如何隔离的
<a name="how-agent-spaces-are-isolated"></a>

Agent Spaces 保持隔离，以确保安全并防止跨不同环境或团队的意外访问：
+ **AWS 账户隔离** — 每个代理空间都使用专用 IAM 角色，这些角色仅授予对特定 AWS 账户和资源的访问权限。代理无法访问为代理空间明确配置的 AWS 资源之外的资源。
+ **用户访问隔离**-您可以控制哪些用户或组可以访问每个代理空间。这使您可以将访问权限与您的组织结构保持一致，从而确保团队仅与其指定的代理空间进行交互。
+ **数据隔离** — 调查数据、事件历史记录和建议在每个代理空间中单独维护。来自一个代理空间的信息不可见，也无法从另一个代理空间访问。
+ **聊天数据隔离**-聊天对话历史记录也隔离在每个代理空间中。一个座席空间中的对话和查询不可见，也无法从另一个座席空间访问。

## 特工空间 Web 应用程序
<a name="agent-space-web-app"></a>

每个 Agent Space 都有一个专用 Web 应用程序，可在 AWS 管理控制台之外进行访问。[什么是 DevOps 代理 Web 应用程序？](about-aws-devops-agent-what-is-a-devops-agent-web-app.md)要了解有关 Web 应用程序的更多信息，请参阅。

## 何时使用多个代理空间
<a name="when-to-use-multiple-agent-spaces"></a>

考虑创建多个座席空间以支持不同的组织需求：
+ **团队分离** — 为不同的应用程序团队或业务部门创建专用的代理空间，以保持代理空间中明确的所有权界限。
+ **环境隔离** — 将生产环境和非生产环境分成不同的代理空间，以防止意外跨环境访问。
+ **服务边界** — 使代理空间与特定的服务或应用程序边界保持一致，以保持调查的重点和相关性。
+ **合规性要求** — 使用不同的访问控制或数据驻留设置配置单独的代理空间，以满足监管要求。

**注意**  
**创建多个代理空间时，您可以使用专用 AWS 帐户作为代理空间的主帐户，并将不同的应用程序帐户作为辅助帐户进行连接。这种方法允许您保持精细的访问控制，同时确保即使使用自动角色创建功能，每个代理空间也只能访问特定于其预期范围的资源。

# 什么是 DevOps 代理拓扑？
<a name="about-aws-devops-agent-what-is-a-devops-agent-topology"></a>

AWS DevOps Agent's 会自动发现和可视化应用程序中的资源和关系，并在事件调查和提出预防性建议时使用生成的拓扑来了解您的基础架构。

## 拓扑图是如何创建的
<a name="how-topology-graphs-are-created"></a>

AWS DevOps Agent 通过几个自动化流程生成拓扑图：
+ **资源发现** — 代理会自动扫描您的 AWS 帐户，以识别作为应用程序一部分的资源，例如计算实例、存储服务、网络组件和数据库。
+ **关系检测**-代理分析配置数据、 CloudFormation 堆栈和资源标签，以确定资源如何相互关联。
+ **代码和部署映射**-连接到 CI/CD 管道时，代理会将基础架构资源链接回其部署流程以及更改的应用程序和基础架构代码。
+ **可观察性行为映射** — 来自可观测性系统（例如 Amazon CloudWatch 应用程序信号和 Dynatrace）的数据用于识别观察到的表明资源之间关系的行为。

## 关键功能
<a name="key-capabilities"></a>

资源映射提供了多种增强事件调查和预防的功能：
+ **交互式可视化** — 通过操作员 Web 应用程序中的交互式图表探索您的应用程序拓扑。您可以缩放和浏览拓扑以了解资源之间的复杂关系。您也可以使用 Chat 使用自然语言查询拓扑信息，例如 “向我显示连接到此 DynamoDB 表的所有 Lambda 函数” 或 “此警报会影响哪些资源？”。
+ **情境调查** — 在事故调查期间，资源拓扑结构可协助 AWS DevOps 代理识别受影响的组件，了解爆炸半径，并跟踪系统中的撞击路径。
+ **根本原因分析** — 对资源关系的详细了解有助于查明问题的根源，即使在具有许多相互依赖关系的复杂分布式系统中也是如此。
+ **影响评估** — 在分析事件时，代理可以通过识别拓扑中的依赖链来更好地确定哪些下游服务可能受到影响。
+ **预防性建议** — 代理利用拓扑洞察力为弹性改进提出有针对性的建议，提出对系统稳定性影响最大的变更建议。

## 拓扑视图
<a name="topology-views"></a>

Operator Web App 的 “拓扑” 页面中的拓扑可视化提供了多个详细级别：
+ **L** earden — 默认视图，由特工空间理解技能生成。显示按逻辑服务和请求路径组织的基础架构的结构化摘要。
+ **系统**-显示高级账户和区域边界。
+ **容器**-显示部署堆栈，例如包含相关资源的 CloudFormation 堆栈。
+ **组件**-显示容器内的各个组件及其关系。
+ **所有资源**-显示包含所有已发现资源及其关系的完整视图。

## 资源发现
<a name="resource-discovery"></a>

通过两种方法发现资源：
+ **CloudFormation 堆栈** — 代理列出主 AWS 账户和所有关联的辅助账户中的所有 CloudFormation 堆栈及其资源。任何 CloudFormation 用于部署的 infrastructure-as-code工具（包括 C AWS loud Development Kit (AWS CDK)）都支持此功能。
+ **资源浏览器**-对于未从中部署的资源 CloudFormation，将从资源浏览器中发现带标签的 AWS 资源。目标 AWS 账户必须启用资源浏览器。这对于识别通过 AWS 管理控制台 APIs、 AWS 服务或其他 infrastructure-as-code框架部署的资源的应用程序边界非常有用。

## 拓扑以外的调查范围
<a name="investigation-scope-beyond-topology"></a>

虽然应用程序拓扑在调查期间提供了重要的上下文，但 A AWS DevOps gent 不仅限于调查拓扑中显示的资源。代理可以使用其他数据源（例如 AWS 服务 APIs 或连接的可观测性工具）来调查不在应用程序拓扑中的资源。

要限制代理可以访问的资源，请将分配给代理的角色的策略限制为访问跨账户资源。有关更多信息，请参阅 [限制 AWS 账户中的代理访问权限](aws-devops-agent-security-limiting-agent-access-in-an-aws-account.md)。

## 拓扑和座席空间理解技能
<a name="topology-and-the-agent-space-understanding-skill"></a>

拓扑图将输入到Agent Space理解所学技能中，该技能对基础架构的结构化摘要进行编码，以供调查期间使用。完成新代理空间的拓扑发现后，系统会自动生成座席空间理解技能。有关所学技能的更多信息，请参阅[学到的技能](about-aws-devops-agent-learned-skills.md)。

# DevOps 特工技能
<a name="about-aws-devops-agent-devops-agent-skills"></a>

AWS DevOps Agent Skills 是模块化指令集，可通过针对您的基础设施和运营工作流程量身定制的专业领域知识和调查方法来扩展代理的能力。

## 什么是技能
<a name="what-are-skills"></a>

技能是包含为代理提供专门功能的 Markdown 指令的独立目录。 AWS DevOps AWS DevOps 代理支持 Agent Skills [规范（打包代理](https://agentskills.io/)指令和资源的开放标准）的子集，仅支持不可执行的文档：Markdown 指令 PDFs、图像和数据文件。

每项技能都需要一个 Skill.md 文件，其中包含你要为特工提供的说明。 AWS DevOps 除了必需的 Skill.md 文件外，技能还可能包括：
+ 针对特定场景或基础设施类型的@@ **调查工作流程**。
+ **参考资料**，包括架构模式和操作程序。
+ **座席类型定位 — 可以将技能定位**到特定的代理类型（通用、按需、事件分类、事件 RCA、事件缓解、评估），以减少情境消耗并提高代理的注意力。

## 为什么要使用技能
<a name="why-use-skills"></a>

技能将 AWS DevOps Agent 从通用助理转变为基础架构和操作工作流程的专家。与聊天消息中提供的一次性说明不同，技能是可重复使用的功能，在与 AWS DevOps 代理执行的任务相关时会自动加载。

**主要好处：**
+ **专业化您的代理** — Tailor AWS DevOps Agent 提供针对您的基础架构和运营模式的调查程序、最佳实践和组织知识。
+ **减少重复** — 只需创建一次调查工作流程， AWS DevOps Agent 即可在所有相关调查中自动使用这些工作流程，无需重复提供相同的指导。
+ **撰写能力**-结合多种技能来构建 end-to-end调查工作流程。 AWS DevOps 代理在执行期间读取多种技能，例如用于从自定义 CI/CD 管道检索部署的技能和搜索代码存储库的技能。
+ **Amplify 自定义工具** — 创建指导 AWS DevOps 代理有效使用自定义 MCP 服务器工具的技能。技能可以记录何时调用特定工具、在不同场景中使用哪些参数，以及如何解释结果以完成特定于您的基础架构的工作流程。

## 技能是如何运作的
<a name="how-skills-work"></a>

当 AWS DevOps Agent 遇到相关任务时，它会加载相应的技能并按照说明指导其调查。例如，“数据库性能调查” 技能可能包括分析 RDS 限制问题的 step-by-step程序，使代理能够系统地检查警报状态、分析连接指标和识别慢速查询。

## 技能结构
<a name="skill-structure"></a>

技能按目录进行组织，其中包含：

```
my-skill/
├── SKILL.md              # Main skill instructions
├── references/           # Optional: additional reference documentation
└── assets/               # Optional: images, diagrams, data files
```

### skill.md
<a name="skillmd"></a>

`SKILL.md`是唯一的必填文件。它包含以 Markdown 格式编写的核心指令。这个文件应该：
+ 描述何时以及如何使用该技能。
+ 提供 step-by-step调查程序。
+ 包括不同场景的决策树。
+ 记录预期产出和成功标准。

### 前置问题
<a name="frontmatter"></a>

Frontmatter 是`SKILL.md`文件顶部的元数据块，封闭在`---`分隔符之间。它包含`name`和`description`字段， AWS DevOps 特工在调查或任务期间使用这些字段来确定何时激活技能。

```
---
name: rds-performance-investigation
description: Investigation procedures for RDS performance issues including
  connection exhaustion, slow queries, replication lag, and storage capacity.
  Use this skill when investigating database latency, connection errors, or
  read/write performance degradation.
---
```

**名称**-技能的唯一标识符。仅使用小写字母、数字和连字符（最多 64 个字符）。不得以连字符开头或结尾。

**描述**-详细说明 AWS DevOps 代理何时以及为何应使用此技能。 AWS DevOps 代理评估此字段以确定该技能是否与当前任务相关。即使说明写得很好，模糊或缺失的描述也可能导致特工完全跳过技能。

**重要**-从代理的角度写下描述。包括应触发技能的特定场景、服务、错误类型或症状。例如，“在调查 Amazon RDS 实例的数据库延迟、连接错误或查询超时时时使用此技能” 比 “RDS 技能” 更有效。

当你在用户界面中创建技能时，系统会根据你提供的名称和描述自动生成 frontmatter。以 zip 文件形式上传的技能必须在文件中包含 frontmatter `SKILL.md`。

## 示例：完成技能
<a name="example-complete-skill"></a>

以下示例显示了用于调查 RDS 性能问题的完整、成熟的技能。它演示了目录结构、Skill.md frontmatter、可行的调查程序和补充参考文件。

**目录结构：**

```
rds-performance-investigation/
├── SKILL.md
├── references/
│   └── rds-metrics-reference.md
└── assets/
    └── rds-investigation-flowchart.png
```

**skill.md：**

```
---
name: rds-performance-investigation
description: Investigation procedures for RDS performance issues including
  connection exhaustion, slow queries, replication lag, and storage capacity.
  Use this skill when investigating database latency, connection errors, or
  read/write performance degradation.
---

# RDS Performance Investigation

Use this skill when customers report database latency, connection errors,
query timeouts, or read/write performance degradation.


## Step 1: Check alarm status

Query CloudWatch for active alarms on the affected RDS instance. Look for:
- `DatabaseConnections` exceeding 80% of max_connections
- `ReadLatency` or `WriteLatency` above 20ms
- `FreeStorageSpace` below 20% of total storage
- `ReplicaLag` above 30 seconds (read replicas only)


## Step 2: Analyze connection metrics

Retrieve `DatabaseConnections` over the past hour. If connections are near
the max_connections limit, check for connection pool misconfiguration or
long-running idle connections.


## Step 3: Identify slow queries

Use Performance Insights (`pi:GetResourceMetrics`) to retrieve the top SQL
statements by average active sessions. Focus on queries with high `db.load`
contribution or frequent I/O waits.


## Step 4: Summarize findings

Provide a summary with:
1. Current performance status (healthy / degraded / critical)
2. Root cause hypothesis with supporting metrics
3. Recommended remediation steps ranked by priority
```

**references/ .mdrds-metrics-reference:**

```
# RDS CloudWatch Metrics Reference


| Metric | Normal Range | Investigation Threshold |
|---|---|---|
| DatabaseConnections | < 70% max_connections | > 80% max_connections |
| ReadLatency | < 5ms | > 20ms |
| WriteLatency | < 5ms | > 20ms |
| FreeStorageSpace | > 30% total storage | < 20% total storage |
| ReplicaLag | < 5 seconds | > 30 seconds |
| CPUUtilization | < 70% | > 85% |
```

## 创造技能
<a name="creating-skills"></a>

在创建技能之前，你必须有一个特工空间。有关更多信息，请参阅 [创建代理空间](getting-started-with-aws-devops-agent-creating-an-agent-space.md)。

您可以通过两种方式创建技能，具体取决于您的工作流程偏好和技能复杂性：

### 在 UI 中创建技能
<a name="creating-a-skill-in-the-ui"></a>

在 A AWS DevOps gent Operator Web 应用程序中创建的技能在一个 Skill.md 文件中包含名称、描述和说明。

**要在用户界面中创建技能，请执行以下操作：**
+ 在 Agent Space Operator Web 应用程序中导航到 “技能” 页面。
+ 单击 “添加技能”。
+ 从模式中选择 “创建技能”。
+ 填写技能表：
  + **名称**-仅限小写字母、数字和连字符（最多 64 个字符）。不得以连字符开头或结尾。示例：`rds-throttling-investigation`
  + **描述**-简要说明何时使用此技能（建议最少 100 个字符，最多 1,024 个字符）。这可以帮助代理确定何时激活技能。
  + **状态**-设置为 “活动”（默认）或 “非活动”。特工不使用非活动技能。
  + **代理类型**-选择一个或多个可以使用此技能的代理类型。默认情况下，“**通**用” 处于选中状态，该技能可供所有代理类型使用。要定位特定的代理，请取消选择 “通用”，然后选择：按需、事件分类、事件 RCA、事件缓解或评估。
  + **说明** — Markdown 格式的 Step-by-step程序。要具体且具有可操作性。
+ 单击 “创建” 保存技能。

系统会自动生成一个具有适当前题结构的 Skill.md 文件。

**要编辑在 UI 中创建的技能，请执行以下操作：**
+ 导航到技能列表中的技能，然后单击该技能将其打开。
+ 单击**编辑**。
+ 修改名称、描述或说明。
+ 单击 “**保存**” 更新技能。

### 上传技能
<a name="uploading-a-skill"></a>

以 zip 文件形式上传的技能包含 Skill.md 文件以及其他资源，例如参考资料或资产。

**技能结构：**

```
my-skill.zip
├── SKILL.md              # Required: main skill instructions
├── references/           # Optional: reference documentation
│   ├── architecture.md
│   └── troubleshooting.md
└── assets/               # Optional: images, diagrams, data files
    ├── topology.png
    └── metrics.csv
```

**Skill.md 前题要求：**

作为 zip 文件上传的技能必须包含 skill.md 中的前题，以及`name`和字段。`description` AWS DevOps 代理使用这些字段来确定何时激活技能。有关撰写有效 frontmatter 的详细信息，请参阅本主题前面的 Frontmatter 部分。

```
---
name: rds-performance-analysis
description: Comprehensive RDS performance investigation procedures
  for connection exhaustion, slow queries, and storage capacity issues.
  Use when investigating database latency or read/write degradation.
---


# RDS Performance Analysis


[Your skill instructions here...]
```

**要通过 zip 上传创建技能，请执行以下操作：**
+ 按照上述结构创建一个包含技能文件的目录。
+ 确保 Skill.md 包含正确的前言（名称和描述）。
+ 将该目录压缩成.zip 文件。
+ 在 Agent Space Operator Web 应用程序中导航到 “技能” 页面。
+ 单击 “添加技能”。
+ 从模式中选择 “上传技能”。
+ 拖放您的.zip 文件或单击进行浏览（仅限 ZIP 文件，最大 6 MB）。
+ 选择一个或多个可以使用此技能的代理类型（默认情况下选择通用并适用于所有代理类型；取消选择则专门针对按需、事件分类、事件 RCA、事件缓解或评估）。
+ 查看 zip 文件要求和验证结果。
+ 单击 “上传” 将技能添加到您的特工空间。

**以 zip 文件形式上传技能的重要限制：**
+ **目前不支持脚本** — `scripts/` 目录中包含脚本的技能将在上传过程中被拒绝。一旦代理可以访问安全的编码环境，脚本执行功能将在未来的版本中启用。
+ **大小限制**-压缩文件总大小不得超过 6 MB（包括所有文件）。
+ **需要 skill.md** — zip 文件必须包含一个带有有效 frontmatter 的 Skill.md 文件。

**命名技巧的最佳实践：**

使用清晰的描述性名称，比如 “rds-throttling-investigation”，而不是通用名称。一个好的技能名称反映了它所涉及的特定场景或服务，因此可以更轻松地一目了然地识别出正确的技能。

## 管理技能
<a name="managing-skills"></a>

AWS DevOps Agent 通过操作员 Web 应用程序提供全面的技能管理功能：

**列出技能** — 查看特工空间中的所有技能。技能页面显示技能名称、活动或非活动状态、创建日期、上次更新日期和可用操作。

**查看技能** — 单击任意技能可查看其详细视图。在 UI 中创建的技能会显示可编辑的内容，您可以直接在 UI 中修改名称、描述或说明，然后单击 “保存” 进行更新。作为 zip 文件上传的技能会显示一个文件树，其中显示 Skill.md 以及任何其他目录，例如引用/ 和 assets/。单击树中的文件可在只读模式下查看其内容。

**为技能选择代理**-配置在创建或编辑技能时可以使用每种技能的代理类型。在座席类型下拉列表中，使用复选框选择一个或多个代理类型：**通**用（默认-适用于所有座席类型）、**按需**（对话查询）、**事件分类**（初始事件评估）、**事件 RCA**（根本原因分析）、**事件缓解（自动事件**响应）或**评估**（主动建议）。默认情况下，“通用” 处于选中状态，该技能可供所有代理类型使用。针对特定代理的技能可以减少情境消耗并提高代理的注意力。

**激活和停用技能**-暂时禁用技能而不使用 Active/Inactive 切换按钮将其删除。打开技能详细信息视图并将开关切换到 “非活动”，以防止代理在保留所有内容和配置的同时加载技能详细信息以进行新的调查。正在进行的调查仍在继续使用该技能。切换回 “激活” 以使该技能立即再次可用。

**更新技能**-根据现有技能的创建方式对其进行修改。对于在用户界面中创建的技能，请在技能详细信息视图中单击 “编辑”，修改名称、描述或说明，然后单击 “保存” 进行更新。对于以 zip 文件形式上传的技能，请在本地修改文件，创建新的 zip 文件，然后上传新版本。

**删除技能**-永久移除特工空间中的技能。打开技能列表视图，点击更多选项菜单 () 并选择 “删除”，查看有关永久删除的警告，键入要确认的技能名称，然后单击 “删除技能”。删除操作无法撤消。如果正在进行的调查尝试加载已删除的技能，则可能会受到影响。对于以 zip 文件形式上传的技能，请先下载 zip 文件，然后再将其作为备份删除。如果您再次需要该技能，可以考虑停用该技能，而不是将其删除。

## 从 Runbook 迁移
<a name="migrating-from-runbooks"></a>

现有 Runbook 会自动迁移到技能，无需客户采取任何行动。当你的 Agent Space 过渡到技能模型时，所有 Runbook 都将转换为技能并出现在你的技能用户界面中。迁移后，您可以：
+ **查看迁移的技能**-检查自动迁移是否正确转换了您的 Runbook。
+ **根据需要更新**-直接在用户界面中编辑技能以完善说明、更新描述或配置代理类型定位。
+ **使用参考文献进行扩展** — 对于可以从其他参考资料或架构图中受益的技能，请将它们重新创建为带有参考文献或资产/目录的 zip 上传技能。
+ **创建新技能**-为 Runbook 以前未涵盖的调查工作流程添加新技能。

如果您在自动迁移的技能方面遇到任何问题，或者需要有关迁移后更新的帮助，请联系 AWS Support。

# 学到的技能
<a name="about-aws-devops-agent-learned-skills"></a>

## 什么是学到的技能？
<a name="what-are-learned-skills"></a>

所学技能是特工根据您的 DevOps 代理空间数据生成的结构化知识文件。每项学习的技能都对特 AWS DevOps 工在执行任务时使用的特定知识类型进行编码。在发布时，有两种学习的技能可供选择：Agent Space 理解和工具使用最佳实践。

### 代理空间理解
<a name="agent-space-understanding"></a>

Agent Space 理解技能 (`understanding-agent-space`) 分析您连接的云帐户、代码存储库和遥测集成，以绘制代理空间中的资源和关系地图。

该技能会生成一个主`SKILL.md`文件和一组参考文件。主文件包含包含关键域概念的简单语言系统概述、部署环境（AWS 账户和区域对、Azure 订阅和区域等）、显示逻辑服务如何连接的容器级架构图、对应用程序至关重要的请求路径及其遍历的组件，以及代码存储库到容器的映射。

每个逻辑容器都会收到一个专门的参考文件，该文件描述了其内部组件（计算、数据、消息、网络等）以及资源类型和物理标识符（例如 ARNs表名和队列） URLs。参考文件还捕获了可观测性覆盖范围，包括与每个组件关联的警报、仪表板和监视器。它还将每个组件映射到其关联的代码存储库、包和 infrastructure-as-code定义，从而提供从源代码到已部署资源的完整可追溯链。

每个关键请求路径都会收到一个专门的参考文件，该文件描述了从入口点到每个中间服务、数据存储和外部依赖关系的组件粒度的完整 end-to-end请求流。该文件包括一个按顺序排列的流程图，显示了组件之间的操作顺序和交互机制，以及每个参与者的责任。它还对与路径相关的可观察性信号进行分类：每个跳的日志组模式、关键指标（延迟、错误率、限制、令牌配额）及其警报名称和维度，以及可以跨服务和账户关联的分布式跟踪跨度。

### 工具使用最佳实践
<a name="tool-use-best-practices"></a>

Tool Use Best Practices 技能分析了过去使用的调查工具，以提取有效的使用模式、常见的故障模式和参数指导。这有助于 DevOps 代理避免已知的陷阱，减少浪费的步骤进行调查。该技能会生成一个主文件和一组每个工具的参考文件。主文件用作路由索引，其中列出了每个工具及其支持的调查方案，并链接到相应的参考文件。

每个工具的参考文件最多可以包含三个部分：
+ **最佳实践** — 从成功使用工具中提取的以调查为导向的技术，例如 CloudWatch Logs Insights 查询模板、特定于环境的指标命名空间和维度以及事件源过滤器。 CloudTrail 每个条目都是围绕调查情景组织的，包括具体的参数值和在过去的调查中观察到的示例。
+ **常见错误**-反复出现的故障模式及其修复方法。每个条目都描述了特定的错误情况，例如查询无法访问的帐户或构造格式错误的聚合查询，并提供了纠正措施，以便代理可以在不浪费调查步骤的情况下避免错误或从错误中恢复。
+ **输出管理** — 针对往往会返回大量响应的工具调用指南。每个条目都描述了一种参数更改或处理策略，该策略可在保持诊断值的同时减小输出大小。

当可以访问实时基础架构时，该技能会先根据您的环境验证模式，然后再将其包括在内。已确认的模式是自信地陈述的，未经证实的模式使用谨慎的语言，不包括被驳回的模式。这样可以使技能与基础架构的当前状态保持一致。

## 管理所学技能
<a name="managing-learned-skills"></a>

**更新** — DevOps 代理会根据你在特工空间中的活动自动生成和更新学到的技能。以下内容描述了每项技能的更新时间。

 DevOps 代理每 30 次调查生成一个更新的 “**工具使用最佳实践**” 技能。

**Agent Space 理解**技能由学习代理生成，每当您添加、更新或移除 Agent Space 功能或集成时，该技能都会运行。

要手动重新生成已学技能，请在操作员应用程序的拓扑页面上选择**重新生成**按钮，或者与代理聊天并要求其更新所学技能。

**停用**-默认情况下，学到的技能处于激活状态。处于活动状态时， DevOps 代理会在每个 DevOps 代理任务开始时加载它们。要阻止应用已学到的技能，请在操作员应用程序的技能查看器中将其停用。停用技能不会将其删除。该技能会被保留，可以随时重新激活。当技能被停用时， DevOps 特工会在该技能不知情的情况下进行操作。

**拓扑视图** — Agent Space 的 Web 应用程序中的拓扑页面使用座席空间理解技能将你的座席空间环境直观地显示为逻辑容器和组件。单击任何容器即可查看其组件、资源标识符和遥测数据。

# 支持的区域：
<a name="about-aws-devops-agent-supported-regions"></a>

本主题描述了您可以使用 AWS DevOps 代理的 AWS 区域。有关 AWS 区域的更多信息，请参阅《[账户*管理参考指南》中的 “指定您的AWS 账户*可以使用的 AWS 区域](https://docs.aws.amazon.com/accounts/latest/reference/manage-acct-regions.html)”。

## 跨区域资源监控
<a name="cross-region-resource-monitoring"></a>

AWS DevOps 无论您在哪个支持 AWS 区域创建代理空间，代理都可以监控和调查位于任何区域的 AWS 账户中的资源。当您将 AWS 账户与代理空间关联时，代理会发现该账户内所有区域的资源并将其映射。这意味着您不需要在工作负载运行的每个区域都有一个代理空间。

根据您的首选数据驻留地、与运营团队的距离或组织要求选择支持的区域。

## 支持的区域：
<a name="supported-regions"></a>

AWS DevOps 代理可在以下 AWS 地区使用。


| 区域名称 | 区域代码 | 控制台链接 | 
| --- | --- | --- | 
| 美国东部（弗吉尼亚州北部） | us-east-1 | [打开控制台](https://us-east-1.console.aws.amazon.com/aidevops/home?region=us-east-1) | 
| 美国西部（俄勒冈州） | us-west-2 | [打开控制台](https://us-west-2.console.aws.amazon.com/aidevops/home?region=us-west-2) | 
| 亚太地区（悉尼） | ap-southeast-2 | [打开控制台](https://ap-southeast-2.console.aws.amazon.com/aidevops/home?region=ap-southeast-2) | 
| 亚太地区（东京） | ap-northeast-1 | [打开控制台](https://ap-northeast-1.console.aws.amazon.com/aidevops/home?region=ap-northeast-1) | 
| 欧洲地区（法兰克福） | eu-central-1 | [打开控制台](https://eu-central-1.console.aws.amazon.com/aidevops/home?region=eu-central-1) | 
| 欧洲地区（爱尔兰） | eu-west-1 | [打开控制台](https://eu-west-1.console.aws.amazon.com/aidevops/home?region=eu-west-1) | 

## 服务端点
<a name="service-endpoints"></a>


| 区域名称 | 区域代码 | 端点 | 协议 | 
| --- | --- | --- | --- | 
| 美国东部 (弗吉尼亚北部) | us-east-1 | aidevops.us-east-1.amazonaws.com | HTTPS | 
| 美国西部（俄勒冈州） | us-west-2 | aidevops.us-west-2.amazonaws.com | HTTPS | 
| 亚太地区（悉尼） | ap-southeast-2 | aidevops.ap-southeast-2.amazonaws.com | HTTPS | 
| 亚太地区（东京） | ap-northeast-1 | aidevops.ap-northeast-1.amazonaws.com | HTTPS | 
| 欧洲地区（法兰克福） | eu-central-1 | aidevops.eu-central-1.amazonaws.com | HTTPS | 
| 欧洲地区（爱尔兰） | eu-west-1 | aidevops.eu-west-1.amazonaws.com | HTTPS | 

## 注意事项
<a name="considerations"></a>
+ **Agent Space 区域选择** — 代理空间及其数据（调查、

拓扑、推荐）存储在您创建拓扑的区域中。选择符合您的数据驻留要求的区域。
+ **跨区域监控**-与代理关联的 AWS 账户中的资源

无论这些资源部署在哪个区域，都会对空间进行监控。您无需在运行工作负载的每个区域中创建单独的代理空间。
+ **第三方集成** — 与 CI/CD 提供商的连接 (GitHub、 GitLab)、

可观察性工具（Dynatrace、Datadog、New Relic、Splunk）和 MCP 服务器是按代理空间配置的，不依赖于区域。