ping通了scp大文件却卡死:一次LinuxMTU路径黑洞排查复盘-小栋博客

两个机房之间拉了一条 VPN 隧道,ping 通、SSH 登录正常、敲小命令流畅,可 scp 传大文件卡在某个进度死住,curl 下大页面、git clone 全卡。一条小数据全过大数据全卡的通一半的网络。排查梳理:ping 通只证明小包能往返完全不证明大包能过,网络连通性是有包大小这个维度的;小操作正常大操作卡死第一个怀疑 MTU;用 ping -M do -s N 测路径 MTU,-M do 设 DF 位不许分片是关键;数据是切成一个个包传的一个包最大就是 MTU 以太网标准是 1500;一条路径真正能过的包取决于这一路上最窄那段的 MTU 木桶效应;VPN 和隧道要给每个包再套一层封装壳所以隧道接口 MTU 必然比 1500 小;PMTUD 本该让网络自动协商包大小靠的是路由器回的 ICMP type 3 包太大通知;防火墙无脑禁掉所有 ICMP 会掐断 PMTUD 制造大包黑洞表现为大数据诡异卡死;VPN 隧道场景标准解法是在网关做 MSS clamping,iptables TCPMSS --clamp-mss-to-pmtu;ICMP 可以收紧但 type 3 必须放行,无脑全禁等于亲手制造 PMTUD 黑洞;正确解法是把接口 MTU 调成和路径一致、网关做 MSS 钳制、放行关键 ICMP,以及一套 MTU 与网络连通性排查纪律。

2023 年,我在两个机房之间拉了一条 VPN 隧道,然后碰上一个让我怀疑人生的故障。隧道拉通之后,我从 A 机房 SSH 登录 B 机房的一台服务器——秒连,顺畅得很。我在上面敲 ls、cd、cat 小文件,全都行云流水,一点毛病没有。我心想:网络通了,活干完了。可当我用 scp 往那台服务器传一个几百兆的安装包时,事情变了:进度条走到某个位置——比如 1%——就【彻底卡住】,一动不动,最后超时断开。我以为是文件坏了,换个文件,还是卡。我换成 curl 下载一个大页面,卡住;git clone 一个稍大的仓库,卡在某个百分比;yum update,卡。可与此同时,ping 那台服务器,0% packet loss,延迟稳定;SSH 敲小命令,依然丝般顺滑。我整理出一个怪到家的规律:这条网络,凡是"小"的数据,都能过;凡是"大"的数据,全都过不去。网络要么通、要么不通,我从没见过"通一半"的网络——能 ping 通、能 SSH、却传不了大文件。我盯着那个卡死的进度条,第一次开始怀疑:是不是"网络通不通",根本不是一个"是或否"的问题?这件事逼着我把 MTU、数据包分片、PMTUD 黑洞这一整套彻底理清了。本文复盘这次实战。

问题背景

环境:两个机房之间一条 VPN 隧道,A 机房访问 B 机房服务器
事故现象:
- ★ ping 通、SSH 登录正常、敲小命令流畅
- ★ scp 传大文件 / curl 下大页面 / git clone,卡在某个进度死住
- 小数据全过,大数据全卡 —— 一条"通一半"的网络

现场排查:
# 1. ping 完全正常
$ ping -c 4 10.20.0.5
64 bytes from 10.20.0.5: ... time=8.1 ms
4 packets transmitted, 4 received, 0% packet loss   # ★ 一点不丢

# 2. SSH 小命令流畅,scp 大文件卡死
$ ssh 10.20.0.5 'uptime'
 10:22:01 up 30 days ...                             # ★ 秒回
$ scp bigfile.tar.gz 10.20.0.5:/tmp/
bigfile.tar.gz   1%   3.2MB  ...                     # ★ 卡在 1% 不动了

# 3. ★ 关键测试:用 ping 发"大包",带上"不许分片"
$ ping -c 2 -M do -s 1472 10.20.0.5
PING 10.20.0.5 ... 1480 bytes of data.
ping: local error: message too long, mtu=1400       # ★ 大包发不出去!
# ★ -s 1472:载荷 1472 字节(+28 包头 = 1500,标准 MTU)
# ★ -M do  :设置 DF 位,不许中途分片
# ★ 结果:这个 1500 的包,过不去。mtu=1400 是提示。

# 4. ★ 二分法,试出到底多大的包能过
$ ping -c 2 -M do -s 1372 10.20.0.5     # 1372+28=1400
2 packets transmitted, 2 received, 0% packet loss    # ★ 1400 能过
$ ping -c 2 -M do -s 1373 10.20.0.5     # 1401
ping: local error: message too long ...              # ★ 1401 就不行
# ★ 实锤:这条路径,最大只能过 1400 字节的包。

# 5. ★ 看本地网卡的 MTU
$ ip link show eth0
... mtu 1500 ...                                     # ★ 网卡却以为是 1500

# 6. 看那条 VPN 隧道接口的 MTU
$ ip link show tun0
... mtu 1400 ...                                     # ★ 隧道只有 1400!

根因(后来想清楚的):
1. ★ 网络上传数据,不是一股脑灌过去,是切成一个个
   【数据包】发的。一个包能有多大,有个上限,
   叫 MTU(最大传输单元)。以太网标准 MTU 是 1500。
2. ★ VPN 隧道会给每个包【套一层自己的包头】(加密、
   封装)。套了壳,留给真实数据的空间就小了 ——
   所以隧道接口的 MTU 只有 1400,比 1500 小。
3. SSH 敲小命令、ping:数据量小,包小,1400 装得下,
   畅通无阻。★ 这就是"小数据能过"。
4. ★ scp 传大文件:数据被切成一个个【接近 1500
   的大包】,还带着 DF 位(不许分片)。这种 1500
   的大包,进不了那条 1400 的隧道。
5. ★ 本该有个 ICMP 消息回来告诉发送方"包太大了,
   改小点",但这个 ICMP 被路上的防火墙拦了 ——
   发送方收不到通知,只知道"包发出去了没回应",
   于是傻傻地重发同样的大包,永远卡死。
   这叫 PMTUD 黑洞。
不是网络不通,是大包超过了路径 MTU,又没人告诉发送方。

修复 1:ping 通不等于网络通

# === ★ 先纠正一个根深蒂固的误解 ===

# === ★ "ping 通了 = 网络没问题" —— 这句话是错的 ===
# ping 默认发的是【很小】的包:
$ ping -c 1 10.20.0.5
64 bytes from 10.20.0.5: ...
# ★ 注意 "64 bytes" —— ping 默认载荷才 56 字节,
#   加包头也就 84 字节。这是个【小得不能再小】的包。
# ★ ping 通,只证明了一件事:"小包能往返"。它
#   【完全没有】证明"大包也能往返"。

# === ★ 网络的连通性,不是"通/不通"两个值 ===
# 我一直以为网络就两种状态:通,或不通。
# ★ 真相:连通性还有"包多大"这个维度。完全可能:
#  - 小包能过,大包过不去(本文这次)。
#  - 一个方向通,另一个方向不通。
#  - 偶尔丢包(时通时不通)。
# ★ "ping 通"只覆盖了"小包、能往返"这一个角。

# === ★ 一个典型信号:小操作正常,大操作卡死 ===
# 出现下面这种,几乎可以锁定是 MTU / 大包问题:
#  - ★ ping 通、SSH 能登、敲小命令流畅。
#  - ★ scp/sftp 传大文件,卡在某个进度死住。
#  - curl/wget 下大文件,下一点就不动。
#  - git clone 卡在某个百分比。
#  - 网页能打开但大图/大资源加载不出来。
#  - 数据库小查询正常,大结果集查询卡住。
# ★ 共同点:"数据量大小"成了能不能成的分水岭 ——
#   这就是 MTU 在作怪的指纹。

# === ★ 怎么验证"是不是大包问题" ===
# 不要只 ping。要发个【大包】试试:
$ ping -c 3 -M do -s 1472 目标IP
# -s 1472:载荷 1472 字节(+28 = 1500,标准大包)
# -M do  :带 DF 位,不许分片(模拟 TCP 大包的行为)
# ★ 小 ping 通、大 ping 不通 -> 实锤,就是 MTU/大包。

# === 认知 ===
# ★ "ping 通"是一个低标准的连通性证明,它只说明
#   小包能过。遇到"小操作正常、大操作卡死",别再
#   用一句"ping 通了"把网络问题排除掉 —— 它没通透。

修复 2:MTU 是什么——一个数据包的大小上限

# === ★ 理解 MTU:数据包能有多大 ===

# === ★ 数据是"切成包"传的 ===
# 网络传数据,不是把一个大文件原样灌过去。它会把
#   数据切成一个个【数据包(packet)】,一个一个发。
# ★ 而每个包,有一个【大小上限】 —— 这个上限,
#   就是 MTU(Maximum Transmission Unit,最大传输单元)。

# === ★ 以太网的标准 MTU 是 1500 ===
$ ip link show eth0
2: eth0: <...> mtu 1500 ...
#                  ^^^^ ★ 这块网卡:一个包最大 1500 字节
# ★ 1500 是以太网的"祖传"默认值。这 1500 字节里:
#  - IP 包头  : 20 字节
#  - TCP 包头 : 20 字节
#  - 真正的数据(载荷):最多 1500 - 40 = 1460 字节
# ★ TCP 那个"一个包最多装 1460 数据"的值,叫 MSS。
#   MSS 基本就是 MTU 减去包头。

# === ★ 关键:一条路径上,MTU 可能【变小】 ===
# 数据从 A 到 B,中间要经过好多设备(交换机、路由器、
#   VPN 隧道、隧道...)。★ 每一段链路,都有自己的 MTU。
# ★ 整条路径真正能过的最大包,是这一路上【最小的
#   那个 MTU】 —— 这个值叫"路径 MTU(Path MTU)"。
# 木桶效应:一条路径,卡在最窄的那一段。

# === ★ 谁会让 MTU 变小 —— VPN / 隧道 ===
# 最常见的"MTU 变小"元凶,是 VPN 和各种隧道:
# ★ VPN 要把你的原始数据包,整个【再包一层】
#   (加密 + 封装)。这层"外壳"也占字节数。
#  - 原始包还是按 1500 来装数据。
#  - VPN 给它套上外壳 -> 总大小超过 1500 了!
# ★ 所以隧道接口必须用更小的 MTU(如 1400),
#   给那层外壳【预留出空间】。
$ ip link show tun0
... tun0: <...> mtu 1400 ...        # ★ 隧道 MTU 比物理网卡小

# === ★ 这次的矛盾就清楚了 ===
# - 应用(scp)按 eth0 的 MTU=1500 来切包,发 1500 的大包。
# - 这个 1500 的包,要进 MTU 只有 1400 的隧道 ——
#   ★ 装不下。
# - 包带着 DF 位(不许分片),进不去又不能切小 ->
#   只能被丢弃。

# === 认知 ===
# ★ MTU 是"一个数据包的体型上限"。一条网络路径,
#   真正能过的包,取决于这一路上【最窄】的那一段。
#   VPN/隧道会因为要套壳,让 MTU 变小 —— 这是
#   "大包过不去"最常见的根源。

修复 3:用 ping 精确测出路径能过多大的包

# === ★ 把"路径到底能过多大的包"精确测出来 ===

# === ★ 核心工具:ping 的 -M do 和 -s ===
# -s N    :让 ping 的载荷为 N 字节。
#           ★ 实际 IP 包大小 = N + 28(20 IP头 + 8 ICMP头)。
# -M do   :给包打上 DF 位(Don't Fragment,不许分片)。
#           ★ 这一条是关键 —— 它逼着这个包要么【整个】
#           过去,要么被丢。不许中途被切小。
# ★ 没有 -M do,中间路由器会把大包偷偷切小放过去,
#   你就测不出真实的路径 MTU 了。

# === ★ 测法:发一个"标准 1500 大包"试试 ===
$ ping -c 2 -M do -s 1472 10.20.0.5
# 1472 + 28 = 1500 —— 标准以太网大包
# ★ 两种结果:
#  - 正常收到回复 -> 路径能过 1500,MTU 没问题。
#  - local error: message too long, mtu=XXXX
#    -> ★ 本地网卡就知道发不出去,且告诉你 mtu=XXXX。
#  - 发出去了但收不到回复(超时)
#    -> ★ 包被路上某处丢了 —— 典型的 PMTUD 黑洞。

# === ★ 二分法:逐步逼近,试出确切的路径 MTU ===
# 在"能过"和"不能过"之间二分:
$ ping -c 2 -M do -s 1472 10.20.0.5    # 1500 不行
$ ping -c 2 -M do -s 1372 10.20.0.5    # 1400 行
$ ping -c 2 -M do -s 1422 10.20.0.5    # 1450 不行
$ ping -c 2 -M do -s 1372 10.20.0.5    # 1400 行
# ★ 一直二分,直到找到"能过的最大值"。本文这次:
#   1372 能过、1373 不能 -> 路径 MTU = 1372+28 = 1400。

# === ★ 更省事:tracepath 自动探测路径 MTU ===
$ tracepath 10.20.0.5
 1:  ...                          0.123ms
 2:  ...                          1.456ms  pmtu 1400
#                                          ^^^^^^^^^ ★ 它直接告诉你
 ...
     Resume: pmtu 1400
# ★ tracepath 会一跳一跳走,自动报告路径 MTU,
#   还能看出是【在哪一跳】MTU 变小的。比手动二分快。

# === ★ 看看本机各接口的 MTU,做个对照 ===
$ ip link | grep -E 'mtu|: '
1: lo: <...> mtu 65536 ...
2: eth0: <...> mtu 1500 ...        # 物理网卡
3: tun0: <...> mtu 1400 ...        # ★ 隧道,小一截
# ★ 走隧道的流量,真实可用 MTU 是 1400,可应用
#   常常还按 1500 在切包 —— 错配就发生了。

# === 认知 ===
# ★ ping -M do -s N 是测路径 MTU 的精确工具:
#   -M do 不许分片,-s 控制包大小,二分逼近就能
#   测出"这条路最大能过多大的包"。tracepath 更省事。

修复 4:大包为什么会被"悄悄丢掉"——PMTUD 黑洞

# === ★ 理解最诡异的一环:为什么是"卡死"而不是"报错" ===

# === ★ 正常情况:网络本该会"自我协商"包的大小 ===
# 网络设计者早想到了 MTU 不一致的问题,有套机制
#   叫 PMTUD(Path MTU Discovery,路径 MTU 发现):
#  1. 发送方先按自己的 MTU(1500)发大包,带 DF 位。
#  2. ★ 包走到那段"窄路"(MTU 1400),过不去。
#  3. ★ 那段窄路上的路由器,会回一个 ICMP 消息:
#     "Fragmentation Needed —— 包太大了,你最大
#      只能发 1400"。
#  4. 发送方收到这个 ICMP,"哦",于是改用更小的包
#     重发。★ 网络就自动适配好了。
# ★ 只要这套机制正常,MTU 不一致【不会】出问题。

# === ★ 黑洞:那个关键的 ICMP 被防火墙拦了 ===
# 问题出在第 3 步那个 ICMP 消息上。很多网管出于
#   "安全",会在防火墙上【粗暴地禁掉所有 ICMP】。
# ★ 一旦这个 "Fragmentation Needed" 的 ICMP 被拦:
#  - 发送方发了大包,包被丢了。
#  - 本该回来的"包太大"通知,被防火墙吃掉了。
#  - ★ 发送方什么都没收到 —— 它不知道包被丢了,
#    更不知道是"因为太大"被丢的。
#  - 它只当是普通丢包,于是【重发同样的大包】。
#  - 大包再次被丢,通知再次被拦... 死循环。
# ★ 这就是 PMTUD 黑洞:大包一去不回,发送方
#   蒙在鼓里,永远卡死。这解释了"为什么是卡死"。

# === ★ 为什么小包没事 ===
# ping、SSH 小命令的包,本来就远小于 1400,
#   根本不触发"包太大",自然畅通。
# ★ 于是现象就是:小包顺畅,大包进黑洞。

# === ★ 验证黑洞:大 ping 发出去但收不到回复 ===
$ ping -c 3 -M do -s 1472 10.20.0.5
PING ... 1480 bytes of data.
--- 10.20.0.5 ping statistics ---
3 packets transmitted, 0 received, 100% packet loss
# ★ 包发出去了(transmitted=3),一个没回(received=0)。
#   不是"local error 发不出去",是"发出去石沉大海"
#   —— 这正是黑洞:包被丢了,也没人告诉你。

# === ★ 查防火墙是不是拦了关键 ICMP ===
# 关键的那种 ICMP 是 type 3 code 4(Frag Needed)。
# 防火墙规则里如果有 "drop all icmp",就是它。
# ★ 正确做法:ICMP 可以收紧,但 type 3
#   (Destination Unreachable)【必须放行】 ——
#   PMTUD 全靠它。

# === 认知 ===
# ★ MTU 不一致本不致命,网络有 PMTUD 机制自动适配。
#   真正致命的是:有人为了"安全"把 ICMP 全禁了,
#   掐断了 PMTUD 的通知通道 —— 大包从此进黑洞,
#   表现为"诡异的卡死"。别无脑禁 ICMP。

修复 5:正确解法——让包的大小匹配路径

# === ★ 解法:让发出的包,不超过路径真实能过的大小 ===

# === ★ 解法 1:把接口 MTU 调成和路径一致 ===
# 既然隧道路径只能过 1400,就把走隧道那个接口的
#   MTU 直接设成 1400(或更稳妥,留余量设小一点):
$ ip link set dev tun0 mtu 1400
# ★ 永久生效:写进网卡配置文件。CentOS:
#   /etc/sysconfig/network-scripts/ifcfg-tun0 加 MTU=1400
# ★ 这样应用切包时就按 1400 来,不会再发超大包。
$ ip link show tun0        # 验证
... tun0: <...> mtu 1400 ...

# === ★ 解法 2(最实用):MSS clamping —— 钳住 TCP 的包大小 ===
# 改不了所有机器的 MTU?在网关/路由器上做 MSS 钳制,
#   一劳永逸。原理:TCP 建连时双方会协商 MSS,
#   在网关上把这个协商值【强行改小】到匹配路径:
$ iptables -t mangle -A FORWARD -p tcp --tcp-flags SYN,RST SYN \
    -j TCPMSS --clamp-mss-to-pmtu
# ★ --clamp-mss-to-pmtu:自动把 MSS 钳到路径 MTU。
# 或者直接指定一个值:
$ iptables -t mangle -A FORWARD -p tcp --tcp-flags SYN,RST SYN \
    -j TCPMSS --set-mss 1360
# ★ MSS clamping 是 VPN/隧道场景的【标准解法】 ——
#   不用动每台机器,在隧道两端的网关上配一次即可。

# === ★ 解法 3:别禁掉关键的 ICMP,让 PMTUD 能工作 ===
# 根治黑洞:防火墙务必放行 "Fragmentation Needed"
#   这种 ICMP(type 3)。
$ iptables -A INPUT  -p icmp --icmp-type fragmentation-needed -j ACCEPT
$ iptables -A OUTPUT -p icmp --icmp-type fragmentation-needed -j ACCEPT
# ★ 安全收紧 ICMP 可以,但不能把 type 3 也禁了 ——
#   那等于亲手制造 PMTUD 黑洞。

# === ★ 解法 4:确认网卡两端 MTU 一致 ===
# 普通局域网里,如果有人给某台机器的网卡设了
#   非标准 MTU(比如开了 jumbo frame 9000,
#   但交换机不支持),也会出同样的毛病。
$ ip link show eth0 | grep mtu
# ★ 同一个网段里,所有设备的 MTU 最好【保持一致】。
#   要么都 1500,要么都 9000(且交换机支持)。

# === ★ 解法 5:临时应急 —— 关掉 DF 位 / 用小包 ===
# 救急时,可以让本机不要发带 DF 的大包(允许分片):
$ sysctl -w net.ipv4.ip_no_pmtu_disc=1     # 应急,不推荐长期
# ★ 这是绕过,不是根治。根治还是解法 1/2/3。

# === 验证 ===
$ ping -c 3 -M do -s 1372 10.20.0.5     # ★ 路径 MTU 内的大包能过
3 packets transmitted, 3 received, 0% packet loss
$ scp bigfile.tar.gz 10.20.0.5:/tmp/    # ★ 大文件不再卡死
bigfile.tar.gz   100%  380MB  ...
$ curl -o /dev/null http://10.20.0.5/big.iso   # ★ 大下载正常
# ★ 大 ping 通、scp 跑完、curl 下完 —— 才算真修好。

口诀放进脑子:小操作正常大操作卡死,先 ping -M do -s 测路径 MTU。

修复 6:MTU 与网络连通性排查纪律

# === 这次事故暴露的认知盲区,定几条纪律 ===

# === 1. ★ ping 通只证明小包能过,不证明大包能过,网络连通性是有"包大小"维度的 ===

# === 2. ★ 小操作正常、大操作卡死(scp/curl/git clone),第一个怀疑 MTU ===

# === 3. ★ 用 ping -M do -s N 测路径 MTU,-M do 不许分片是关键 ===
$ ping -c 3 -M do -s 1472 目标IP

# === 4. 数据是切成包传的,一个包最大就是 MTU,以太网标准 MTU 是 1500 ===

# === 5. ★ 一条路径真正能过的包,取决于这一路最窄那段的 MTU(木桶效应)===

# === 6. ★ VPN/隧道要给包套一层壳,所以隧道接口 MTU 必然比 1500 小 ===

# === 7. PMTUD 本该自动协商包大小,靠的是 ICMP type 3 那个"包太大"通知 ===

# === 8. ★ 防火墙无脑禁掉所有 ICMP,会掐断 PMTUD,制造大包黑洞,表现为卡死 ===

# === 9. ★ VPN/隧道场景标准解法是 MSS clamping(iptables TCPMSS --clamp-mss-to-pmtu)===

# === 10. 排查"小的能通大的卡死"的步骤链 ===
$ ping 目标                        # ① 小包(确认基本连通)
$ ping -M do -s 1472 目标          # ② ★ 大包(测 MTU)
$ tracepath 目标                   # ③ 看路径 MTU 在哪跳变小
$ ip link 看各接口 mtu             # ④ 对照本机 MTU
$ 调 MTU / MSS clamping / 放行 ICMP # ⑤ 让包匹配路径
# 按这个顺序,"通一半的网络"基本能定位、能根治。

命令速查

需求                        命令
=============================================================
看网卡 MTU                  ip link show eth0
看所有接口 MTU              ip link | grep mtu
发大包测 MTU(不许分片)    ping -c 3 -M do -s 1472 目标IP
二分逼近路径 MTU            ping -M do -s N 目标（调 N 试)
自动探测路径 MTU            tracepath 目标IP
临时改接口 MTU              ip link set dev tun0 mtu 1400
永久改 MTU(CentOS)        ifcfg 文件里加 MTU=1400
MSS 钳制(网关上)          iptables -t mangle -A FORWARD -p tcp \
                            --tcp-flags SYN,RST SYN -j TCPMSS \
                            --clamp-mss-to-pmtu
放行关键 ICMP               iptables -A INPUT -p icmp \
                            --icmp-type fragmentation-needed -j ACCEPT
看 TCP 连接的 MSS           ss -i （输出里有 mss)

口诀:ping 通只代表小包能过,scp 大文件卡死要 ping -M do -s 测路径 MTU
      VPN 隧道套壳会让 MTU 变小,标准解法是 MSS clamping,别无脑禁 ICMP

避坑清单

ping 通只证明小包能往返,完全不证明大包能过,网络连通性是有包大小这个维度的
小操作正常大操作卡死,scp 传大文件 curl 下大页面 git clone 卡在某进度,第一个怀疑 MTU
用 ping -M do -s N 测路径 MTU,-M do 设 DF 位不许分片是关键,没它中途会被偷偷切小测不准
数据是切成一个个包传的,一个包最大就是 MTU,以太网标准 MTU 是 1500 字节
一条路径真正能过的包取决于这一路上最窄那段的 MTU,木桶效应卡在最窄一段
VPN 和隧道要给每个包再套一层封装壳,所以隧道接口的 MTU 必然比物理网卡的 1500 小
PMTUD 本该让网络自动协商包大小,靠的是路由器回的 ICMP type 3 包太大通知
防火墙为了安全无脑禁掉所有 ICMP,会掐断 PMTUD 制造大包黑洞,表现为大数据诡异卡死
VPN 隧道场景标准解法是在网关做 MSS clamping,iptables TCPMSS --clamp-mss-to-pmtu
ICMP 可以收紧但 type 3 目标不可达必须放行,无脑全禁等于亲手制造 PMTUD 黑洞

总结

这次"网络能 ping 通、能 SSH、却传不了大文件"的事故,纠正了我一个关于"连通"的、二元到近乎幼稚的世界观。在我脑子里,"网络通不通",一直是一个【开关】式的问题:要么是"开"——网络通了,什么都能干;要么是"关"——网络断了,什么都干不了。这中间,不存在任何过渡地带。而 ping,在我心里,就是那个用来读取这个开关状态的探针:ping 通了,开关就是"开",事情就到此为止,我可以放心地认定"网络这一层没问题"了。正因为抱着这个开关式的世界观,这次的现象才会让我如此错乱——我的 ping 通了,SSH 也连上了,开关明明白白指向"开";可大文件就是传不过去。一个"开着"的网络,怎么会"传不了东西"?这在我的二元世界里,是一个逻辑上的死结。我反复地 ping,反复地确认那个开关确实是"开",然后我就卡住了,因为我手里那个只有"开/关"两格的模型,根本没有一个刻度,能用来描述"开着、但只开了一半"这种状态。复盘到根上,我才明白,网络的连通性,从来就不是一个开关,它是一个有【宽度】的通道。数据不是一道无形的电流,"通"了就畅行无阻;数据是一个个有体积的、实实在在的包裹,要从这个通道里挤过去。而这个通道,是有一个"门框尺寸"的——这就是 MTU。ping 默认发的,是最小号的包裹,小到任何门框它都能轻松钻过;所以 ping 通,只证明了"最小的包裹能过",它对"大包裹能不能过"这件事,一个字都没说。我的大文件,被切成了一个个接近门框上限的大包裹,而那条 VPN 隧道,因为要给每个包裹再套一层加密的外壳,它的门框,比标准尺寸悄悄缩小了一截。于是大包裹卡在了门框上——网络是"通"的,通道确实存在,只是这个通道的"宽度",容不下我要发的东西。我用一个"有没有通道"的问题(ping 通不通),去回答一个"通道有多宽"的问题,这两个问题根本不在一个维度上,我却用前者的答案,理直气壮地把后者给"回答"掉了。这次最大的收获,是我对"验证"这件事,生出了一层新的警惕。我一直以为,做了验证、拿到了一个"通过"的结果,就等于"这一块没问题了"。可这次的 ping 让我看清:一个验证手段,它能验证的范围,是有【边界】的;它给你的那个"通过",只在它自己那个狭小的边界之内有效。ping 的边界,是"小包、能往返";它在这个边界内说"通过",百分百属实——可我却把这个边界内的"通过",擅自放大成了对整个网络的"通过"。问题从来不在 ping 这个工具上,它很诚实;问题在于我没有去问:这个工具,它到底在替我验证什么?它【没有】验证的,又是什么?所以下一次,当我用某个手段验证某件事、并准备拿着那个"通过"的结果往下走时,我会先停下来,逼自己看清那个结果的边界:它说的"没问题",到底是"哪一种情况下没问题"?在它的探照灯照亮的那一小圈之外,还有多大一片地方,是它根本没有照到、而我却默认它"也没问题"的?——很多时候,事故不是因为我们的验证失败了,恰恰是因为我们的验证"成功"了,而我们把那个范围有限的"成功",当成了一张覆盖全场的免检通行证。

—— 别看了 · 2026

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理邮箱1846861578@qq.com。

{{userData.name}}已认证

ping 通了 scp 大文件却卡死:一次 Linux MTU 路径黑洞排查复盘