-
一个 JVM 服务因为默认永久缓存了 DNS 解析结果,在下游域名切换 IP 后还死连着早已下线的旧地址,连接全失败:一次 DNS 缓存的深度复盘
下游第三方做机房迁移,把域名解析到新 IP、旧 IP 下线,域名没变我们本该无感,结果服务大面积连接失败,而服务器上 nslookup 查的是新 IP、重启服务就好了。根因是 JVM 有独立于 OS 的 DNS 缓存,networkaddress.cache.ttl 默认可能是 -1(永久缓存)——进程首次把域名解析成旧 IP 后就永久记住、再也不重新解析,下游换 IP 后还死连旧地址、不重启不自…- 2
- 0
-
一次发布把服务全杀了:K8s 健康检查与滚动更新的坑
一次寻常的版本上线,滚动更新刚启动,Pod 就一个接一个跳进 CrashLoopBackOff,可用副本像退潮一样往下掉。可 exec 进容器手动 curl 健康接口明明是 200——没有一行业务代码出错,凶手是一段从别处抄来、从没认真理解的健康检查 YAML。从这次"配置杀人"事故出发,这篇文章把 liveness/readiness/startup 三种探针的区别、探针阈值…- 3
- 0
-
Kubernetes 生产工程化完全指南:从一次"一个 pod 内存泄漏拖垮整个 node 业务雪崩 30 分钟"看懂为什么 kubectl apply 远远不够
2023 年我们公司有一套核心交易系统跑在 Kubernetes 上大概 60 个 service 4 个 namespace 一开始 K8s 集群是云厂商管的我接手时配置很默认 resource request limit 凭感觉拍 HPA 全开 default 没设 PodDisruptionBudget 调度策略默认 namespace 没 quota 测试环境跑得也挺顺但上线半年我们陆续踩…- 0
- 0
-
Kubernetes 探针完全指南:从一次"健康的 Pod 被反复重启"看懂 liveness 与 readiness
2023 年初我们把核心订单服务迁上 Kubernetes,照教程给每个服务都配了 liveness probe——"探活嘛,容器死了 K8s 帮你重启"。大促那天流量上来,服务明明还在正常成交订单,Pod 却开始成片 CrashLoopBackOff:被反复 kill、反复重启,重启中的 Pod 不接流量,活着的扛更多压力变得更慢,它们的探针也开始超时被 kill,十分钟内整…- 0
- 0
-
K8s 集群利用率 18% 治理:requests 调准 + HPA + 弹性伸缩实战
120 节点 K8s 集群,CPU 平均利用率只有 18%,1800+ Pod 裸跑无 requests,高峰频繁 OOM 和驱逐,大促靠人肉堆机器。三周治理:精准设 requests/limits + HPA + VPA 推荐 + 反亲和调度 + Cluster Autoscaler + LimitRange 兜底。利用率提升到 45%,节点 120 降到 75,稳定性反而更好,省 110w/年…- 0
- 0
-
Docker 镜像瘦身实录:80 服务从 800MB 平均降到 120MB
80 个微服务镜像平均 800MB,CI 25min。三周瘦身实录覆盖 Java/Node/Python/Go 四个栈:distroless + scratch + 多阶段 + BuildKit 缓存挂载 + jlink + Spring AOT + dive/Trivy 扫描。平均降到 120MB,CI 25min→6min,扩容 60s→8s。- 0
- 0
-
KEDA 自动扩缩落地实战:K8s 从 cron 扩缩到事件驱动
K8s HPA 只能按 CPU/内存,业务真实需求是按 Kafka lag/QPS/队列长度。本文实录 KEDA 落地全过程:5 大场景(Kafka/Prometheus/RabbitMQ/Cron/ScaledJob)+ 4 大坑(抖动/认证/超时/OR 逻辑)+ scale-to-zero + 监控告警。资源用量降 35%,SLA 提升。- 2
- 0
-
K8s CNI 从 Calico 迁 Cilium 一个季度实录:eBPF 替 iptables
500 节点 5000 Pod K8s 集群从 Calico 迁 Cilium 一个季度实录:架构对比 + 性能压测 + chained 共存迁移 + kubeProxyReplacement + L7 NetworkPolicy + Hubble 可观测 + 6 大坑修法 + 决策清单。- 0
- 0
-
MinIO 对象存储 · 面试 10 问 完全指南:速查、踩坑与最佳实践
MinIO 对象存储 · 面试 10 问 —— S3 兼容的私有方案 —— 本文聚焦高频面试题及参考答案 + 加分点。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 2
- 0
-
MinIO 对象存储 · 生产案例剖析 完全指南:速查、踩坑与最佳实践
MinIO 对象存储 · 生产案例剖析 —— S3 兼容的私有方案 —— 本文聚焦从真实业务场景出发讲完整解决方案。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
MinIO 对象存储 · 5 个常见坑与对策 完全指南:速查、踩坑与最佳实践
MinIO 对象存储 · 5 个常见坑与对策 —— S3 兼容的私有方案 —— 本文聚焦生产真实碰到的 5 个坑 + 修复方法。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
MinIO 对象存储 · 性能优化实战 完全指南:速查、踩坑与最佳实践
MinIO 对象存储 · 性能优化实战 —— S3 兼容的私有方案 —— 本文聚焦基准测试 + 调优方法,数据说话。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
etcd 一致性存储 · 生产案例剖析 完全指南:速查、踩坑与最佳实践
etcd 一致性存储 · 生产案例剖析 —— Kubernetes 元数据存储 —— 本文聚焦从真实业务场景出发讲完整解决方案。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
MinIO 对象存储 · 原理详解 完全指南:速查、踩坑与最佳实践
MinIO 对象存储 · 原理详解 —— S3 兼容的私有方案 —— 本文聚焦从底层机制讲透,讲清楚怎么实现的。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
etcd 一致性存储 · 性能优化实战 完全指南:速查、踩坑与最佳实践
etcd 一致性存储 · 性能优化实战 —— Kubernetes 元数据存储 —— 本文聚焦基准测试 + 调优方法,数据说话。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
etcd 一致性存储 · 面试 10 问 完全指南:速查、踩坑与最佳实践
etcd 一致性存储 · 面试 10 问 —— Kubernetes 元数据存储 —— 本文聚焦高频面试题及参考答案 + 加分点。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
etcd 一致性存储 · 原理详解 完全指南:速查、踩坑与最佳实践
etcd 一致性存储 · 原理详解 —— Kubernetes 元数据存储 —— 本文聚焦从底层机制讲透,讲清楚怎么实现的。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
etcd 一致性存储 · 5 个常见坑与对策 完全指南:速查、踩坑与最佳实践
etcd 一致性存储 · 5 个常见坑与对策 —— Kubernetes 元数据存储 —— 本文聚焦生产真实碰到的 5 个坑 + 修复方法。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
Vault 密钥管理 · 生产案例剖析 完全指南:速查、踩坑与最佳实践
Vault 密钥管理 · 生产案例剖析 —— 动态密钥 / 加密即服务 —— 本文聚焦从真实业务场景出发讲完整解决方案。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
Vault 密钥管理 · 面试 10 问 完全指南:速查、踩坑与最佳实践
Vault 密钥管理 · 面试 10 问 —— 动态密钥 / 加密即服务 —— 本文聚焦高频面试题及参考答案 + 加分点。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 3
- 0
-
Vault 密钥管理 · 5 个常见坑与对策 完全指南:速查、踩坑与最佳实践
Vault 密钥管理 · 5 个常见坑与对策 —— 动态密钥 / 加密即服务 —— 本文聚焦生产真实碰到的 5 个坑 + 修复方法。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
Vault 密钥管理 · 性能优化实战 完全指南:速查、踩坑与最佳实践
Vault 密钥管理 · 性能优化实战 —— 动态密钥 / 加密即服务 —— 本文聚焦基准测试 + 调优方法,数据说话。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
Nomad 调度器 · 生产案例剖析 完全指南:速查、踩坑与最佳实践
Nomad 调度器 · 生产案例剖析 —— 比 K8s 更轻的方案 —— 本文聚焦从真实业务场景出发讲完整解决方案。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 0
- 0
-
Vault 密钥管理 · 原理详解 完全指南:速查、踩坑与最佳实践
Vault 密钥管理 · 原理详解 —— 动态密钥 / 加密即服务 —— 本文聚焦从底层机制讲透,讲清楚怎么实现的。本文用 1 万字+ 的篇幅讲清楚原理、最简模板、内部机制、性能要点、踩坑速查、真实项目案例与配套生态,目标是看完一篇能上手,踩坑了能回查,工作里说得出门道。- 3
- 0
云原生
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!
























