在小语言模型(SLM)和扩散模型(例如 FLUX.2、GPT-OSS-20B 和 Nemotron 3 Nano)质量持续提升的推动下,PC 上的 AI 开发者活动呈现爆发式增长。与此同时,ComfyUI、llama.cpp、Ollama 和 Unsloth 等 AI PC 框架在功能上不断进步,过去一年中,使用 PC 级模型的开发者数量增长了十倍,相关工具的受欢迎程度也实现翻倍。开发者不再局限于尝试生成式 AI 工作流,而是基于 NVIDIA GPU,构建从数据中心延伸至 NVIDIA RTX AI PC 的新一代软件堆栈。
在 CES 2026 上,NVIDIA 宣布了 AI PC 开发者生态系统的多项新进展,包括:
- 加速 PC 上的热门开源工具,如 llama.cpp 和用于 SLM 的 Ollama,以及用于扩散模型的 ComfyUI。
- 优化适用于 NVIDIA GPU 的主流开源模型,包括全新的 LTX-2 音视频模型。
- 提供一套工具,用于加速 RTX PC 和 NVIDIA DGX Spark 上的代理式 AI 工作流。
通过开源 AI 框架提升推理速度
NVIDIA 与开源社区合作,全面提升 AI PC 堆栈的推理性能。
ComfyUI 的性能持续提升
在扩散方面,ComfyUI 通过 PyTorch-CUDA 优化了 NVIDIA GPU 的性能,并支持 NVFP4 和 FP8 格式。这些量化格式可分别节省 60% 和 40% 的内存,同时提升运行速度。采用 NVFP4 和 NVFP8 后,开发者的平均性能将分别提升至原来的 3 倍和 2 倍。
ComfyUI 的更新包括:
- NVFP4 支持:线性层可采用具备优化内核的 NVFP4 格式运行,其吞吐量较 FP16 和 BF16 线性层提升 3 至 4 倍。
- 融合的 FP8 量化内核:通过消除受内存带宽限制的计算操作,有效提升模型性能。
- 融合的 FP8 去量化内核:在未配备第四代 Tensor Core(即 NVIDIA Ada 架构之前)的 NVIDIA RTX GPU 上,进一步提升 FP8 工作负载的执行效率。
- 权重流:借助并发的系统内存与 CPU 计算流,权重流能够隐藏内存延迟,提升吞吐量,尤其适用于显存受限的 GPU 环境。
- 混合精度支持:允许模型在单个网络中组合使用多种数字格式,实现细粒度的性能调优,兼顾准确性与运行效率。
- RMS 与 RoPE 融合:将扩散转换器中常见且受内存带宽限制的运算符进行融合,降低内存占用并减少延迟。该优化使各类 DiT 模型在不同数据类型下均能受益。
可在 ComfyUI kitchen 仓库中获取优化的示例代码。HuggingFace 也提供了 NVFP4 和 FP8 检查点,包含 LTX-2、FLUX.2、FLUX.1-dev、FLUX.1-Kontext、Qwen-Image 以及 Z-Image。
在支持 llama.cpp 和 Ollama 的 RTX AI PC 上实现加速
对于小语言模型,在多专家模型(MoE)上的 token 代吞吐量性能在 NVIDIA GPU 的 llama.cpp 上提升了 35%,在 RTX PC 的 Ollama 上提升了 30%。
1 月 26 日构建时使用了以下环境变量和标志运行:GGML_CUDA_GRAPH_OPT = 1、FA = ON 以及后端采样。
llama.cpp 的更新包括:
- GPU token 采样: 将多种采样算法(TopK、TopP、Temperature、minK、minP 及多序列采样)卸载至 GPU,从而提升响应质量、一致性和准确性,同时增强整体性能。
- QKV 预测的并发性: 支持并发运行 CUDA 流,以加速模型推理。使用该功能时,需传入 -CUDA_GRAPH_OPT=1 标志。
- MMVQ 内核优化: 通过将数据预加载至寄存器,并提升其他任务的 GPU 利用率以隐藏延迟,显著加快内核执行速度。
- 加快模型加载速度: 在 DGX Spark 上模型加载速度最高提升 65%,在 RTX GPU 上最高提升 15%。
- NVIDIA Blackwell GPU 上的原生 MXFP4 支持: 利用 Blackwell GPU 搭载的第五代硬件级 NVFP4 Tensor Core,可在大语言模型上实现提示处理速度最高提升 25%。
Ollama 的更新包括:
- 默认情况下,闪光注意力:许多模型现已采用该技术作为标准。此技术通过“平铺”方式在较小的数据块中计算注意力,减少 GPU VRAM 与系统 RAM 之间的数据传输次数,从而提升推理效率和内存使用效率。
- 内存管理方案:新方案为 GPU 分配更多内存,加快 token 的生成与处理速度。
- API 中新增的 LogProbs 功能:为分类、困惑度计算及自我评估等应用场景提供更丰富的开发者支持。
- 上游 GGML 库中的最新优化。
请查看 llama.cpp 仓库和 Ollama 仓库以开始使用,并可在 LM Studio 或 Ollama 应用等工具中进行测试。
RTX AI PC 上的全新高级音视频模型
NVIDIA 与 Lightricks 将发布 LTX-2 模型权重,这是一款先进的音视频模型,性能可媲美在 RTX AI PC 或 DGX Spark 上运行的云模型。该模型是一个开放且面向生产的音视频基础模型,支持高达 4K 分辨率、最长 20 秒的同步智能汽车内容生成,帧率可达 50 fps。同时,它为开发者、研究人员及工作室提供具备高可扩展性的多模态控制能力。
模型权重支持 BF16 和 NVFP8 格式。量化检查点可减少 30% 显存占用,使模型在 RTX GPU 和 DGX Spark 上实现高效运行。
在过去几周里,我们见证了数十个新模型的发布,每个都在推动生成式 AI 的前沿发展。
适用于本地 AI 的代理式 AI 工具包
私有、本地代理的用例数不胜数。然而,构建可靠、可重复且高质量的私有代理仍面临诸多挑战。当您在 PC 上通过蒸馏和量化模型以适应有限的 VRAM 预算时,LLM 的质量往往会出现下降。随着代理式工作流在与各类工具或操作交互时对稳定性和一致性的要求不断提高,对准确性的需求也日益增强。
为了解决这一问题,开发者通常采用两种工具来提升准确性:微调和检索增强生成(RAG)。NVIDIA 发布了更新,以加速该工作流中代理式 AI 的构建工具。
Nemotron 3 Nano 是一个 32B 参数的 MoE 模型,专为代理式 AI 和微调任务进行了优化。凭借 36 亿个激活参数和长达 100 万个 token 的上下文窗口,该模型在编码、指令遵循、长上下文推理以及 STEM 任务等多个基准上表现出色。模型已针对 RTX PC 和 DGX Spark 平台,通过 Ollama 和 llama.cpp 实现了高效运行,同时支持使用 Unsloth 进行微调。
该模型具有高度开放性,权重、配方和数据集均可广泛获取。开放的模型与数据集使开发者能够更便捷地进行模型定制,有助于避免重复的微调工作,并防止数据泄露,从而为可靠高效的工作流程提供客观的基准测试。建议从基于 LoRA 的微调开始入手。
对于 RAG,NVIDIA 与 Docling 展开合作,Docling 是一个将文档提取、分析并处理为机器可理解语言的软件包,专为 RAG 工作流设计。该软件针对 RTX PC 和 DGX Spark 进行了优化,性能达到 CPU 的 4 倍。
Docling 有两种使用方式:
- 传统的 OCR 工作流:这是一个依赖库和模型的工作流,可通过 RTX 上的 PyTorch-CUDA 实现加速。
- 基于 VLM 的工作流:适用于复杂多模态文档的高级处理流程,可在 WSL 及 Linux 环境中结合 vLLM 使用。
Docling 由 IBM 开发,并贡献于 Linux 基金会。阅读此 操作简便的指南,立即开始使用 RTX。
适用于音频和视频效果的 SDK
借助 NVIDIA Video and Audio Effects SDK,开发者可在多媒体工作流中集成 AI 特效,通过消除背景噪音、应用虚拟背景或实现眼神交流等功能,提升音视频质量。
CES 2026 上的最新更新强化了视频重照明功能,可在不同环境中实现更自然、更稳定的效果,同时将性能提升至原来的 3 倍(将运行该功能所需的最低 GPU 降低到 NVIDIA GeForce RTX 3060 或更高版本),并最多将模型大小缩减至原来的六分之一。如需了解支持 AI 重新照明的 Video Effects SDK 的实际应用,可查看新版 NVIDIA Broadcast 应用。
我们很高兴与 AI PC 工具开源社区携手,为开发者提供模型、优化方案、工具及工作流支持。立即开始为 RTX PC 和 DGX Spark 进行开发吧!