-
我的服务跑了几个月一直好好的,某天突然各种 No space left on device,数据写不进、健康检查失败,连同节点上别的服务一起遭殃,排查发现是日志文件没配轮转涨到了几十 G 把磁盘撑满了的深度复盘
我的服务一直把日志写到一个文件 app.log,平稳跑了好几个月。某天毫无征兆地一堆故障同时爆发:报 No space left on device、数据写不进、健康检查失败被重启,连同节点上别的服务也跟着遭殃。登机器 df -h 一看磁盘 100% 满了,du 一查祸首是 app.log——它悄悄涨到了几十 GB。复盘才意识到:我只关心了把日志记下来,却从没考虑日志写到哪、会涨多大、怎么清理;一…- 0
- 0
-
AI Agent 工程化实战:工具设计、循环控制、上下文管理与可观测性
用现在的框架搭一个 AI Agent 的 demo 有多容易?几十行代码挂个大模型、注册几个工具、写个 ReAct 循环,它就能自己思考、自己调工具、自己给答案。我们当初就这么搭出第一版,会议室里输入"帮我查这个订单为什么没发货并通知客户",它真去查了订单、读了物流、起草了通知,全场惊艳。可放给真实用户一周,各种匪夷所思的翻车就来了:陷入死循环反复调同一个工具几百次,一夜烧掉一…- 0
- 0
-
从古老交付运维体系 手动 SSH 上服务器跑命令部署 + 在我机器上能跑物理机手装环境 + 手动管理进程没有编排 + 手点云控制台开机器无基础设施代码化 + 手改配置文件到处漂移 + 没有 CI 靠人肉构建测试 + 停机部署中断用户 + 出事手动翻日志手动回滚 + 没有监控告警靠用户打电话才知道挂了 + 密钥明文写在配置里 → 2026 现代云原生交付运维体系 容器化 Docker 统一环境 + Kubernetes 编排调度自愈 + Terraform/Ansible 基础设施即代码 + GitHub Actions CI/CD 流水线全自动 + 不可变基础设施 + 蓝绿与金丝雀零停机发布 + ArgoCD GitOps 声明式交付 + Prometheus/Grafana/Loki/Jaeger 可观测三件套 + Vault 密钥集中管理 + 自动回滚 87 天战役复盘:47 套工程修法 + 7 个 P0 复盘 + 6 条工程哲学
14 位平台工程与 SRE 工程师 87 天把一套跑了七年的粗放交付运维体系——上线要手动 SSH 登服务器一条条敲命令、scp 传包改配置启动几十步全靠人记忆一步手抖就是事故、应用裸跑在机器上环境靠手装这台 JDK8 那台 JDK11"在我机器上能跑"一上线就挂、几十个进程靠人肉盯着挂了手动重启、服务器网络全在云控制台手点出来没人说得清线上有啥、配置手改到处漂移、没有 CI …- 0
- 0
-
OpenTelemetry 分布式追踪工程化完全指南:从一次"P99 8 秒但 Zipkin 只显示 800ms"看懂为什么加 Sleuth 远远不够
2023 年我们公司有一套微服务系统跑在 Kubernetes 上大概 80 个 service 分布在 6 个 namespace 一开始我们用 spring-cloud 的 Sleuth 接 Zipkin 做调用链追踪看起来该有的都有 trace_id span_id 服务调用关系图谱也能画出来看上去很完整但真正发生故障的时候我们才发现一系列问题第一种最让我傻眼某天业务报告下单接口慢 P99 …- 0
- 0
-
LLM 应用可观测性完全指南:从一次"用户说答案错了,我却完全不知道当时发生了什么"看懂链路追踪
2024 年我给一个产品做了个 LLM 功能用户问一句后台拼好提示词调大模型把答案返回功能上线了日志怎么打这件事我压根没多想第一版我做得很顺手在调用大模型那行代码的前后各打一条日志一条记开始调用一条记最终的答案文本就完事了本地跑一跑真不错可等这功能真正上线面对成千上万的真实用户一串问题冒了出来第一种最先把我打懵一个用户截图来投诉答案是错的我翻到那条日志日志里确实躺着那个错答案可我盯着它完全不知道当…- 4
- 0
-
应用日志治理完全指南:从一次"线上出问题、翻遍日志却定位不到"看懂结构化日志与日志分级
2021 年我做一个后端服务日志这件事我从没认真当回事。第一版我做得很省事哪里觉得需要看一眼就 print 一句哪里觉得可能出错就 print 出错了全打到一个文件里。本地开发时真不错程序一跑屏幕上哗哗地滚我想看的都看得见。我心里很踏实日志嘛需要的地方 print 一句出问题了翻一翻不就行了。可等这个服务真正上线扛起真实流量一串问题冒了出来。第一种最先把我打懵某天线上一个接口出了故障我满怀希望去翻…- 0
- 0
-
Prometheus 高基数治理实战:1850 万 series 砍到 180 万
Prometheus 内存吃 64GB,head series 1850 万,查询 30 秒,Alertmanager 评估失败。本文实录高基数定位 + 7 个常见陷阱 + 应用层 path 模板化 + relabeling + native histogram + sample_limit 门禁 + VictoriaMetrics 替代方案,内存降到 8GB。- 0
- 0
可观测性
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!







