适用于TensorRT-LLM推理
2025-03-02正规炒股配资 当FP4的魔法与Blackwell的巨大算力再见,会碰撞出何如的火花? 谜底是:推感性能暴涨25倍,资本狂降20倍! 跟着DeepSeek-R1土产货化部署的爆火,英伟达也躬行下场,开源了首个基于Blackwell架构的优化决议——DeepSeek-R1-FP4。 在新模子的加执下,B200杀青了高达21,088 token每秒的的推理模糊量,比拟于H100的844 token每秒,晋升了25倍。 与此同期,每token的资本也杀青了20倍的裁汰。 通过在Blackwell架构上