-
同一张图片,模型每次预测的结果都不一样,准确率还莫名其妙地掉了:我忘了在 PyTorch 推理前调用 model.eval() 的复盘
训练好的图像分类模型拿去推理,同一张图预测两次结果竟然不一样,整体准确率还比验证集低一截。检查输入和权重都没问题,最后发现是我推理前忘了调 model.eval()——模型停在训练模式,Dropout 还在随机丢弃神经元(导致结果随机)、BatchNorm 还用当前 batch 统计量(导致单张图变差)。这篇从 Dropout/BatchNorm 训练推理为何不同讲到 model.eval()+t…- 2
- 0
-
从 PyTorch 1.13 + Transformers 4.30 + Hugging Face Inference + OpenAI GPT-3.5 + 单 GPU 推理 + 手写 Prompt 字符串 单栈 → PyTorch 2.5 + JAX 0.4.35 + DeepSpeed 0.16 + FSDP 2 + Megatron-Core + vLLM 0.7 + SGLang 0.4.3 + TensorRT-LLM 0.16 + Llama 4 + DeepSeek V3 + Qwen 2.5 + Gemma 3 + Phi 4 + LangChain 0.4 + LangGraph 0.3 + LlamaIndex 0.12 + DSPy 2.5 + Outlines 0.1 + Instructor 1.7 + Ray 2.40 + Kubeflow 1.10 + MLflow 2.20 + W&B + Triton 24.10 + KServe 0.14 + BentoML 1.4 + Modal 0.66 + Ragas + DeepEval + LangSmith + Langfuse + Helicone + NeMo Guardrails + Llama Guard 3 + Presidio + pgvector 0.8 + Qdrant 1.13 + BGE 全栈 LLM + Agent + RAG + 安全护栏 + 推理 + 训练 + 评测现代化 87 天踩坑录
27 位 AI 工程师 + MLOps + 数据工程师 + 评测工程师 + 安全工程师 87 天把公司核心 AI 链路从 PyTorch 1.13 + Transformers 4.30 + 单 GPU 推理 + 手写 Prompt 字符串单栈,整体重构到 2026 年 vLLM 0.7 + SGLang + TensorRT-LLM + DeepSpeed ZeRO-3 + FSDP 2 + L…- 6
- 0
-
PyTorch 大模型训练工程化完全指南:从一次"8 卡 A100 训练加速比只有 3 倍 显存还莫名爆掉"看懂为什么 model.fit 远远不够
2024 年我们公司有一个 ML 团队业务是给广告主做素材推荐用的是 transformers 加 custom training loop 单卡 A100 跑实验模型大概 1B 参数数据集 5 亿样本第一阶段我们用 PyTorch 默认 DataLoader 加 num_workers=4 拉数据训练跑了一周才走完一个 epoch 第二阶段我们换 A100 8 卡用 DataParallel 训…- 0
- 0
PyTorch
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!



