-
Pandas 50GB ETL 跑 240 分钟+月月 OOM 的 2 年挣扎:6 天 Polars 重写压到 11 分钟+1.2GB 内存全过程 + 7 个迁移坑 + 选型决策树
我接手数据组心累两年的 ETL 任务:每天 50GB JSONL+1.2 亿行,Pandas 跑 240 分钟、内存 58GB、月月 OOM 半夜被叫起来重跑。6 天用 Polars Lazy+streaming 重写完成,11 分钟跑完、内存 1.2GB、年省云成本 18 万。这篇完整复盘踩到的 7 个 Pandas→Polars 数据语义坑(null/类型/groupby 顺序/nunique…- 0
- 0
ETL
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
-
¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!

