Subscribe to 中国テック番犬

AI #LLM#Semiconductor

推理时代的瓶颈,已经不只是 GPU 数量

当大模型进入持续在线推理阶段,真正决定体验和成本的,开始变成带宽、调度和缓存结构。

讨论算力时,市场最常见的表达还是“缺卡”。但对很多已经上线 AI 产品的团队来说,问题早就不只是卡够不够,而是怎么把推理请求稳定送进系统、再把成本压下来。

训练时代强调峰值性能,推理时代更在意持续吞吐。模型如果需要长期在线,就会放大一整串基础设施问题:网络带宽、显存占用、冷启动延迟、批处理策略、请求峰谷波动。

这意味着芯片竞争也在变。真正有机会的,不只是一颗更强的芯片,而是整个推理系统方案,包括互联、软件栈、调度层和缓存层。

对媒体报道来说,后续观察点很明确:

  • 云厂商是否开始更频繁强调推理优化,而非训练基准。
  • 新一代推理芯片是否拿得出稳定的生产案例。
  • 应用公司是否开始把模型选择和基础设施选择一起打包决策。

谁能把“推理成本曲线”讲清楚,谁才真正理解了下一阶段的 AI 基础设施战争。