-
从 Nginx 1.18 + HAProxy 2.0 + OpenResty + iptables → Nginx 1.27 + HAProxy 3.0 + Envoy 1.32 + Istio 1.24 Ambient + Cilium 1.16 + eBPF + HTTP/3 全栈升级 67 天踩坑录:17 反模式 + 19 修法
27 位 SRE + 网络工程师 67 天把公司"南北向网关 + 东西向 mesh + DNS + CDN + 全球加速 + 边缘节点"6 大网络底座,从 Nginx 1.18 + HAProxy 2.0 + OpenResty + ELB + iptables + BIND 重构到 Nginx 1.27 + HAProxy 3.0 + OpenResty 1.27 + Env…- 43
- 0
-
全球 SaaS 网关 TLS 1.3 握手 P99 从 65ms 飙到 820ms 的 4 天复盘:OCSP stapling 失效 + session ticket 跨集群不共享 + 0-RTT 配置不当三重叠加 + 11 条 TLS 工程纪律
我们一个面向全球的 SaaS 网关,TLS 握手 P99 突然从 65ms 飙到 820ms,北美用户首屏白屏 4 秒,客服一夜接 230 工单。4 天复盘找到三重根因:CA OCSP responder 在欧洲被北美节点查询超时、18 台 Nginx 集群 ticket key 不共享 resume 命中率 18%、0-RTT 启用后 anti-replay cache 满 40% reject…- 2
- 0
-
LLM 客服流式输出被 Nginx + Cloudflare + uvicorn + HTTP/2 四层代理悄悄变成批量的 3 天复盘:SSE 链路全栈优化 + 零缓冲发布模板
OpenAI 50ms 一个 chunk 流畅输出,用户却感受到一字憋几秒一下子吐出来。3 天复盘揪出 Nginx proxy_buffering、Cloudflare smart buffer、uvicorn chunk 合并、HTTP/2 frame 合并四层叠加根因,5 种修法 + 5 种流式协议横向对比 + 决策树 + 10 条 LLM SSE 链路工程纪律,NPS 从 42 提到 67。- 0
- 0
-
Nginx 性能调优与超大并发完全指南:从一次"直播开播 5 分钟 worker_connections 1024 撞墙全站 502"看懂为什么 apt install nginx 远远不够
2023 年我们做一个直播弹幕推送系统业务量从 1 万 QPS 涨到 30 万 QPS 用 Nginx 做反代加静态资源加 WebSocket upgrade 第一版直接 apt install nginx 改个 server_name 就上线老板说 Nginx 这么稳直播开播 5 分钟 Nginx 直接 502 全站崩第一种最让我傻眼是 worker_connections 默认 1024 30…- 0
- 0
-
Nginx 性能调优完全指南:从一次"30 万 QPS 促销 502 满天飞 CPU 跑满 30 分钟"看懂为什么默认配置远远不够
2021 年我加入一家短视频公司接手 API 网关用 Nginx 做反向代理后端 50 个微服务日常 QPS 5 万高峰 20 万第一版我用 Nginx 默认配置装好就上业务跑了半年没事直到一次促销活动流量瞬间冲到 30 万 QPS Nginx CPU 100% 大量 502 用户疯狂吐槽老板半夜把我电话打爆然后我们陆续踩了一堆坑第一种最让我傻眼 worker_processes 默认 1 单核跑…- 5
- 0
-
Nginx 反向代理完全指南:从一次"灰度发布把会话切串了"看懂 proxy_pass 的尾斜杠为什么这么重要
2023 年我维护一个内部 API 服务用 Nginx 做反向代理前面挂着多个上游应用上线一年多一直很稳直到某次产品要做个大功能上线灰度需要按用户 ID 把 10% 的流量切到新版本服务我心里很笃定 Nginx 配置嘛简单加几个 upstream 加个 split_clients 切流量就行可等真把这套上线一串问题冒了出来第一种最先把我打懵新版本上线后旧版本依然有零星 504 客户端报 upstr…- 6
- 0
-
CDN 缓存完全指南:从一次"发了新版用户还看旧的、源站一挂整站全白"看懂 CDN 的正确用法
2022 年我做一个内容网站要给静态资源接入 CDN 加速。第一版我做得很省事把域名 CNAME 到 CDN 厂商配一个回源地址指向我的源站完事。本地和小流量下测了测真不错图片 JS CSS 加载肉眼可见地快了。我心里很踏实CDN 嘛把域名 CNAME 过去静态资源自动就走 CDN 加速了不就行了。可等这个网站真正上线扛起真实的用户流量一串问题冒了出来。第一种最先把我打懵我发布了一版新代码改了 C…- 0
- 0
-
Nginx 反向代理与负载均衡完全指南:从一次"后端挂了一台、用户每三次请求就撞一次 502"看懂代理层
2022 年我给一个后端服务加了 Nginx 做负载均衡。原本服务只有一台机器扛不住量我加到三台前面挂一个 Nginx 分流。第一版我做得很省事写一个 upstream 把三台后端的地址填进去 location 里 proxy_pass 一指完事。本地一测真香请求轮着打到三台机器负载看着挺均匀。我心里很踏实负载均衡嘛不就是 upstream 里写几个后端地址 Nginx 自动帮我分流。可等它真正上…- 0
- 0
-
AI 流式回答总是憋半天一次性蹦出来:一次 SSE 流式输出被 Nginx 缓冲的复盘
做了个 AI 助手核心体验是打字机效果,用 SSE 实现后端每收到大模型一小段就往响应流写一段前端收到一段渲染一段,本地开发逐字蹦出丝滑得很,一上线变成点发送后空白十几秒然后整段答案唰一下全冒出来,后端前端代码一个字没改两头都还在流为什么用户那头就不流了。排查梳理:流式是端到端特性从大模型到用户要穿过后端 Nginx CDN 多层任何一层攒一攒再发流式就死,决定性工具 curl -N 关掉 cur…- 0
- 0
-
chmod 777 了还报 Permission denied:一次 Linux SELinux 拦截排查复盘
给 Nginx 配了一个非标准的静态文件目录,一访问浏览器就 403 Forbidden。ls -l 看权限 644 属主 nginx 全都对,一级级往上查目录权限也都对,干脆 chmod -R 777 把目录对全世界彻底敞开——刷新还是 403。一个权限已经是 777 的文件,Nginx 就是打不开它,错误日志写着 Permission denied,777 和权限被拒公然互相矛盾。排查梳理:L…- 0
- 0
-
nginx 配置全对却 403:一次 Linux SELinux 安全上下文排查复盘
nginx 配置、目录权限、文件属主全对,浏览器访问却稳定 403 Forbidden。排查梳理:Linux 文件访问要过两道门,传统 rwx 之外还有 SELinux 强制访问控制;getenforce 看模式、setenforce 0 快速确认;安全上下文的进程类型与文件类型、ls -Z 看 type;ausearch 与 sealert 读 AVC 拒绝日志;semanage fcontex…- 2
- 0
-
页面间歇性 502:一次 Nginx 配置排查的复盘
上线后页面间歇性打不开、随机 502/504,后端监控却一切正常。问题在最前面那层平时没人碰的 Nginx:upstream 残留死节点、超时参数误判、缓冲区过小。几天梳理 Nginx 配置:502/504 排查、location 匹配优先级、文件上传 413、性能安全加固、监控告警。- 6
- 0
-
Nginx 接入层 60w QPS 雪崩复盘:长连接复用 + 代理缓存 + 限流实战
Nginx 集群 8 台承载日 80 亿请求,活动峰值 60w QPS 出现 502/504,worker CPU 100%,TIME_WAIT 6w+。两周治理:worker 调优 + upstream keepalive 长连接池 + reuseport + 代理缓存 + limit_req 限流 + 主被动健康检查。承载 120w QPS,502 归零。- 0
- 0
-
Nginx 高并发调优实录:单机 10w→60w QPS 全过程
入口 Nginx 集群压测大促瓶颈,单机 10w QPS 撞墙、5xx 飙到 8%。一周调优全实录:worker 进程/连接、upstream keepalive、TLS Session + ECC + HTTP/2、HTTP/3 QUIC、内核 TCP 参数、limit_req 限流。单机 QPS 提到 60w,5xx 降到 0.02%。- 0
- 0
-
Nginx upstream keepalive 漏一行配置,QPS 直接砍 6 倍
新搭 Nginx 反代,QPS 2000 后端就 502。本文讲清楚 Nginx 默认到 upstream 是短连接、三件套配置缺一不可、非幂等重试的坑、WebSocket/SSE/gRPC 反代差异,附完整配置 + CI 自检脚本 + 6 条必读规则。- 0
- 0
-
HTTPS 握手慢 380ms 排查:OCSP Stapling 救场的全过程
用户反馈网站慢 300ms,DevTools 看是 SSL 握手阶段。本文复盘 OCSP 在线校验阻塞握手的真相、Nginx 启用 OCSP Stapling 的完整配置、resolver 漏配的坑、TLS 1.3 + Session Cache 叠加优化,以及 6 行验证命令。- 0
- 0
-
凌晨被叫起来排查 TIME_WAIT 堆 5 万的故事:从端口耗尽到连接池治理
一台业务网关凌晨开始报 Cannot assign requested address,netstat 看到 5.6 万个 TIME_WAIT。本文复盘从端口耗尽到连接池修复的全过程,涵盖 Java/Go/Python HTTP 客户端正确写法、Nginx keepalive 配置、tcp_tw_recycle 为什么不能开,以及 6 行排查命令。- 0
- 0
Nginx
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

















