全部标签

SSE

我让大模型以流式方式返回一段 JSON,想着边收到边解析更快,结果每次拿到的都是残缺的半截 JSON 解析直接报错,而且流到一半模型出错时前面已经发给用户的内容根本收不回来的深度复盘

我做了个功能让大模型返回一段结构化 JSON,为了更快用了流式(streaming),模型一边生成一边把 token 一段段推给我,我想着边收到边解析更流畅,于是每收到一段就 JSON.parse 一下累积的内容。结果问题百出:大部分时候 JSON.parse 直接报 Unexpected end of JSON input,因为我拿到的是 {"name": "张这…
技术教程
- 6
- 0
Mores6月3日
LLM 客服流式输出被 Nginx + Cloudflare + uvicorn + HTTP/2 四层代理悄悄变成批量的 3 天复盘:SSE 链路全栈优化 + 零缓冲发布模板

OpenAI 50ms 一个 chunk 流畅输出,用户却感受到一字憋几秒一下子吐出来。3 天复盘揪出 Nginx proxy_buffering、Cloudflare smart buffer、uvicorn chunk 合并、HTTP/2 frame 合并四层叠加根因,5 种修法 + 5 种流式协议横向对比 + 决策树 + 10 条 LLM SSE 链路工程纪律,NPS 从 42 提到 67。
技术教程
- 0
- 0
Mores5月26日
LLM 流式输出完全指南:从一次"用户点了发送对着空白屏幕等十几秒"看懂为什么 AI 对话必须用流式

2024 年我做一个网页端的 AI 对话功能用户输入一个问题后端调用大模型把模型的回答显示出来这件事我没多想就有了方案后端调用模型拿到完整的回答字符串返回给前端前端显示出来第一版我做得很顺手后端一个接口里面调模型的 API 等它返回那段完整的文本把文本塞进 JSON 响应里返回前端拿到响应把文本渲染到对话框本地拿几个短问题一测问今天星期几这种一秒不到就出来了我心里很笃定调模型嘛不就是发个请求等个响…
技术教程
- 3
- 0
Mores5月22日
LLM 流式响应 SSE 解析完全指南:从一次"JSON.parse 偶尔报错、答案中间莫名少一段"看懂 chunk 边界

2024 年我给一个产品接大模型的流式对话用户问一句答案像打字机一样一个字一个字蹦出来前端怎么接这个流这件事我压根没多想第一版我做得很顺手 fetch 拿到响应用 response.body 的 reader 一段一段读每读到一段就解码成字符串按空行切成几个 SSE 事件每个事件去掉 data 前缀 JSON.parse 一下把里面的增量文字拼到界面上就完事了本地测一测真不错字一个个往外冒丝般顺滑…
技术教程
- 10
- 0
Mores5月22日
大模型流式输出完全指南:从一次"用户盯着空白屏幕等了十几秒以为卡死"看懂 SSE 流式响应

2024 年我做一个 AI 对话产品。核心功能很简单用户输入一个问题后端调大模型把答案返回给前端显示。第一版我做得很直接前端发请求后端调模型的接口等模型把答案完整生成完把这一整段答案一次性返回给前端前端拿到后整段渲染出来。本地一测能用答案也对。可真正给同事试用问题立刻就来了同事点了发送然后对着一片空白的屏幕干等。等了三秒屏幕还是空的等到八秒他以为卡死了伸手就想刷新页面直到第十几秒答案才啪地一下整段…
技术教程
- 5
- 0
Mores5月21日
大模型流式输出完全指南:从一次"用户问完干等十几秒才看到回答"看懂 SSE 流式响应

2023 年我做一个 AI 对话产品,用户输入问题,后端调大模型,把回答返回前端展示。第一版我的写法最直觉:后端收到问题,调模型接口,等模型把整段回答生成完,拿到完整文本一次性返回前端。本地测一两秒出结果挺好,可一上线问稍复杂的问题体验就糟糕得我自己都用不下去:用户点发送后屏幕什么都没有,一个空白转圈的加载状态持续十几秒,直到三四百字回答全部生成完才整段蹦出来,这十几秒里用户完全不知道发生了什么,…
技术教程
- 0
- 0
Mores5月21日
LLM 流式输出完全指南:从一次"前端等了 20 秒白屏"看懂 SSE 流式响应

2024 年我给产品做 AI 对话助手,第一版很朴素:等大模型整段答案生成完再一次性返回。同事试用时盯着空白对话框干等了二十秒,扭头问我是不是卡死了。我想到该做流式,以为就是把后端 return 改成 yield、前端循环读一下。结果改完问题一个接一个:套了 Nginx 流式完全没生效,还是白屏然后整段蹦出;前端偶发 JSON.parse 报错本地复现不出;模型生成到一半报限流错前端直接僵死;用户…
技术教程
- 2
- 0
Mores5月21日
大模型流式输出完全指南:从"转圈圈"到打字机效果的工程实现

2024 年初我做了一个接入大模型的 AI 对话产品,第一版用最直白的方式:前端发普通 HTTP 请求,后端调大模型等【完整回答】生成好一次性返回。本地测短问题没事,一上线用户开始抱怨"卡"——问个复杂问题让模型写长解释,屏幕一片空白干等十几秒,我自己都怀疑服务挂了,直到第十几秒一整段几百字凭空出现。我忽然懂了那个"卡"不是真卡,是那十几秒纯空白等待让人本能…
技术教程
- 2
- 0
Mores5月21日
AI 流式回答总是憋半天一次性蹦出来:一次 SSE 流式输出被 Nginx 缓冲的复盘

做了个 AI 助手核心体验是打字机效果,用 SSE 实现后端每收到大模型一小段就往响应流写一段前端收到一段渲染一段,本地开发逐字蹦出丝滑得很,一上线变成点发送后空白十几秒然后整段答案唰一下全冒出来,后端前端代码一个字没改两头都还在流为什么用户那头就不流了。排查梳理:流式是端到端特性从大模型到用户要穿过后端 Nginx CDN 多层任何一层攒一攒再发流式就死,决定性工具 curl -N 关掉 cur…
技术教程
- 0
- 0
Mores5月21日