栏目分类

你的位置：凯丰优配 > 在线配资 > 适用于TensorRT-LLM推理

适用于TensorRT-LLM推理

发布日期：2025-03-02 13:40 点击次数：69

当FP4的魔法与Blackwell的巨大算力再见，会碰撞出何如的火花？

谜底是：推感性能暴涨25倍，资本狂降20倍！

跟着DeepSeek-R1土产货化部署的爆火，英伟达也躬行下场，开源了首个基于Blackwell架构的优化决议——DeepSeek-R1-FP4。

在新模子的加执下，B200杀青了高达21，088 token每秒的的推理模糊量，比拟于H100的844 token每秒，晋升了25倍。

与此同期，每token的资本也杀青了20倍的裁汰。

通过在Blackwell架构上应用TensorRT DeepSeek优化，英伟达让具有FP4分娩级精度的模子，在MMLU通用智能基准测试中达到了FP8模子性能的99.8%。

在近期不会再次加息的市场普遍预期下，巴克莱此番预测显得十分激进。

DeepSeek-R1初度基于Blackwell GPU优化

现在，英伟达基于FP4优化的DeepSeek-R1查抄点现已在Hugging Face上开源。

模子地址：https://huggingface.co/nvidia/DeepSeek-R1-FP4

后观测量化

模子将Transformer模块内的线性算子的权重和激活量化到了FP4，适用于TensorRT-LLM推理。

这种优化将每个参数从8位减少到4位，从而让磁盘空间和GPU显存的需求减少了约1.6倍。

使用TensorRT-LLM部署

要使用TensorRT-LLM LLM API部署量化后的FP4权重文献，并为给定的教导生成文本反馈，请参照以下示例代码：

硬件要求：需要解救TensorRT-LLM的英伟达GPU（如B200），而且需要8个GPU来杀青tensor_parallel_size=8的张量并行。

性能优化：代码哄骗FP4量化、TensorRT引擎和并行盘算推算，旨在杀青高效、低资本的推理，凯丰优配稳当分娩环境或高模糊量应用。

关于这次优化的扬弃，网友暗意热爱。

「FP4魔法让AI将来依然好坏！」网友Isha驳斥谈。

网友algorusty则宣称，有了这次的优化后，好意思国供应商概况以每百万token 0.25好意思元的价钱提供R1。

「还会有益润。」

网友Phil则将这次的优化与DeepSeek本周的开源5连发集会了起来。

「这展示了硬件和开源模子集会的可能性。」他暗意。

DeepSeek全面开源如今DeepSeek执续5天的「开源周」一经进行到了第3天。

周一，他们开源了FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，格外针对变长序列进行了优化，现在已负责投产使用。

周二开源了DeepEP，这是一个专为混杂行家系统（MoE）和行家并行（EP）联想的通讯库。

周三开源的是DeepGEMM。这是一个解救蕃昌和MoE模子的FP8 GEMM（通用矩阵乘法）盘算推算库，可为V3/R1的观测和推理提供巨大解救。

总的来说，岂论是英伟达开源的DeepSeek-R1-FP4，如故DeepSeek开源的三个仓库，齐是通过对英伟达GPU和集群的优化，来鼓动AI模子的高效盘算推算和部署。

本文开端：新智元，原文标题：《英伟达下场，初度优化DeepSeek-R1！B200性能狂飙25倍，碾压H100》

风险教导及免责条目市集有风险，投资需严慎。本文不组成个东谈主投资提议，也未探讨到个别用户特等的投资贪图、财务情状或需要。用户应试虑本文中的任何认识、不雅点或论断是否合乎其特定情状。据此投资，包袱自诩。