👁️ 可观测性 — 第二大脑

10 篇笔记

指标设计：RED/USE黄金指标体系

指标设计：RED/USE黄金指标体系指标设计方法论概览监控指标设计是可观测性的基础。RED和USE是两种经典的方法论，分别面向服务和资源，帮助团队定义关键监控指标。指标设计方法论： ┌─────────────────────────────────────────────────┐ │...

⏱ 3m 架构指标设计REDUSE

日志架构：结构化采样与集中管理

日志架构：结构化采样与集中管理日志架构设计原则现代分布式系统的日志架构需要平衡可观测性、存储成本和查询性能。核心原则包括：结构化输出、智能采样、集中收集和生命周期管理。日志架构分层： ┌─────────────────────────────────────────────────┐ │...

⏱ 2m 架构日志架构结构化日志采样

Chaos Mesh实战：Pod故障与网络延迟注入

Chaos Mesh实战：Pod故障与网络延迟注入 Chaos Mesh实战概览 Chaos Mesh是CNCF孵化的混沌工程平台，支持在Kubernetes环境中注入多种类型的故障。本章聚焦实战场景和常见故障模式。 Chaos Mesh故障类型： ├── Pod故障 │ ├── Pod Kil...

⏱ 2m 架构Chaos Mesh故障注入混沌实验

告警架构：分级抑制与On-Call设计

告警架构：分级抑制与On-Call设计告警架构概览告警系统是运维的眼睛，负责在系统异常时及时通知相关人员。良好的告警架构应减少噪音、精准触发、分级响应。告警流程：监控数据 → 规则评估 → 告警触发 → 路由分组 → 通知发送 → 人员响应 → 问题处理 │ │...

⏱ 2m 架构告警On-Call分级

ELK/EFK日志管道：Filebeat/Logstash架构

ELK/EFK日志管道：Filebeat/Logstash架构 ELK/EFK架构概览 ELK（Elasticsearch + Logstash + Kibana）和EFK（Elasticsearch + Fluentd + Kibana）是主流的日志收集和分析平台。Filebeat替代Logsta...

⏱ 3m 架构ELKEFK日志

分布式链路追踪：Jaeger与Zipkin架构

分布式链路追踪：Jaeger与Zipkin架构分布式追踪原理分布式链路追踪通过在请求入口生成唯一Trace ID，贯穿整个调用链，记录每个Span的耗时和状态，用于分析分布式系统的性能瓶颈。用户请求 → API Gateway → Service A → Service B → Databas...

⏱ 2m 架构链路追踪JaegerZipkin

OpenTelemetry：统一可观测性框架

OpenTelemetry：统一可观测性框架 OpenTelemetry架构 OpenTelemetry是CNCF孵化的可观测性框架，提供统一的API、SDK和工具，用于采集Traces、Metrics和Logs三大支柱数据。 OpenTelemetry架构： ┌──────────────────...

⏱ 2m 架构OpenTelemetry可观测性Traces

Grafana仪表盘：多数据源与告警配置

Grafana仪表盘：多数据源与告警配置 Grafana架构概览 Grafana是开源的数据可视化平台，支持多种数据源，提供丰富的图表类型和告警功能。是可观测性体系的可视化核心。 Grafana架构： ┌────────────────────────────────────────────────...

⏱ 2m 架构Grafana仪表盘可视化

Prometheus架构：TSDB与AlertManager设计

Prometheus架构：TSDB与AlertManager设计 Prometheus架构概览 Prometheus是CNCF毕业的开源监控系统，采用Pull模型采集指标，内置时序数据库，支持强大的查询语言和灵活的告警机制。 Prometheus架构： ┌──────────────────────...

⏱ 2m 架构PrometheusTSDBAlertManager

监控三支柱：Metrics/Logging/Tracing架构

监控三支柱：Metrics/Logging/Tracing架构可观测性三支柱概览可观测性（Observability）是通过系统外部输出推断内部状态的能力。三大支柱分别从不同维度提供系统洞察：可观测性三支柱： ┌─────────────────────────────────────────...

⏱ 2m 架构可观测性监控日志