适用于TensorRT-LLM推理
当FP4的魔法与Blackwell的巨大算力再见,会碰撞出何如的火花?
谜底是:推感性能暴涨25倍,资本狂降20倍!
跟着DeepSeek-R1土产货化部署的爆火,英伟达也躬行下场,开源了首个基于Blackwell架构的优化决议——DeepSeek-R1-FP4。
在新模子的加执下,B200杀青了高达21,088 token每秒的的推理模糊量,比拟于H100的844 token每秒,晋升了25倍。
与此同期,每token的资本也杀青了20倍的裁汰。
通过在Blackwell架构上应用TensorRT DeepSeek优化,英伟达让具有FP4分娩级精度的模子,在MMLU通用智能基准测试中达到了FP8模子性能的99.8%。
在近期不会再次加息的市场普遍预期下,巴克莱此番预测显得十分激进。
DeepSeek-R1初度基于Blackwell GPU优化现在,英伟达基于FP4优化的DeepSeek-R1查抄点现已在Hugging Face上开源。
模子地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4
后观测量化
模子将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT-LLM推理。
这种优化将每个参数从8位减少到4位,从而让磁盘空间和GPU显存的需求减少了约1.6倍。
使用TensorRT-LLM部署
要使用TensorRT-LLM LLM API部署量化后的FP4权重文献,并为给定的教导生成文本反馈,请参照以下示例代码:
硬件要求:需要解救TensorRT-LLM的英伟达GPU(如B200),而且需要8个GPU来杀青tensor_parallel_size=8的张量并行。
性能优化:代码哄骗FP4量化、TensorRT引擎和并行盘算推算,旨在杀青高效、低资本的推理,凯丰优配稳当分娩环境或高模糊量应用。
关于这次优化的扬弃,网友暗意热爱。
「FP4魔法让AI将来依然好坏!」网友Isha驳斥谈。
网友algorusty则宣称,有了这次的优化后,好意思国供应商概况以每百万token 0.25好意思元的价钱提供R1。
「还会有益润。」
网友Phil则将这次的优化与DeepSeek本周的开源5连发集会了起来。
「这展示了硬件和开源模子集会的可能性。」他暗意。
DeepSeek全面开源如今DeepSeek执续5天的「开源周」一经进行到了第3天。周一,他们开源了FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,格外针对变长序列进行了优化,现在已负责投产使用。
周二开源了DeepEP,这是一个专为混杂行家系统(MoE)和行家并行(EP)联想的通讯库。
周三开源的是DeepGEMM。这是一个解救蕃昌和MoE模子的FP8 GEMM(通用矩阵乘法)盘算推算库,可为V3/R1的观测和推理提供巨大解救。
总的来说,岂论是英伟达开源的DeepSeek-R1-FP4,如故DeepSeek开源的三个仓库,齐是通过对英伟达GPU和集群的优化,来鼓动AI模子的高效盘算推算和部署。
本文开端:新智元,原文标题:《英伟达下场,初度优化DeepSeek-R1!B200性能狂飙25倍,碾压H100》
风险教导及免责条目 市集有风险,投资需严慎。本文不组成个东谈主投资提议,也未探讨到个别用户特等的投资贪图、财务情状或需要。用户应试虑本文中的任何认识、不雅点或论断是否合乎其特定情状。据此投资,包袱自诩。