Posts by Anjali Shah
精选
2026年 4月 28日
NVIDIA Nemotron 3 Nano Omni 在单个高效开放模型中助力多模态智能体推理
代理式系统通常会在单个感知到动作循环中跨屏幕、文档、音频、视频和文本进行推理。但是,它们仍然依赖于碎片化的模型链,即视觉、
3 MIN READ
数据中心/云端
2025年 3月 18日
NVIDIA Blackwell 实现世界纪录的 DeepSeek-R1 推理性能
NVIDIA 在 NVIDIA GTC 2025 上宣布了创下世界纪录的 DeepSeek-R1 推理性能 。 搭载 8 个 NVIDIA…
5 MIN READ
智能体/生成式 AI
2025年 2月 14日
使用 NVIDIA TensorRT-LLM 前瞻性解码优化 Qwen2.5-Coder 吞吐量
专注于编码的 大语言模型(LLMs) 已稳步应用于开发者工作流程。从配对编程到自我改进的 AI 智能体 ,这些模型可帮助开发者完成各种任务,
3 MIN READ
智能体/生成式 AI
2025年 1月 16日
在 NVIDIA TensorRT-LLM 中引入新型 KV 缓存重用优化策略
语言模型通过预测下一个令牌 (给定所有先前的令牌,包括输入文本令牌) 来生成文本。在 LLM 服务中,先前令牌的键和值元素用作历史语境,
2 MIN READ
智能体/生成式 AI
2024年 12月 17日
借助 NVIDIA TensorRT-LLM 预测解码,将 Llama 3.3 的推理吞吐量提升 3 倍
随着近期新增的 Llama 3.3 70B (一种纯文本指令调整模型),Meta 的开放 大语言模型 (LLMs) 集合将继续增长。
4 MIN READ
智能体/生成式 AI
2024年 12月 11日
NVIDIA TensorRT-LLM 现支持动态批处理加速编码器 - 解码器模型
NVIDIA 最近宣布, NVIDIA TensorRT-LLM 现可加速编码器 – 解码器模型架构 。
1 MIN READ