AI 模型

探索并部署由社区构建的优质 AI 模型,这些模型通过 NVIDIA AI 推理平台加速,并可在 NVIDIA 加速基础设施上运行。

探索模型查看性能


AI Model - DeepSeek logoDeepSeek

DeepSeek 是一系列开源模型,采用混合专家(MoE)架构,具备强大的多款模型和先进的推理能力。DeepSeek 模型可以通过 TensorRT-LLM 优化性能,适用于数据中心部署。您可以使用 NIM 亲自试用这些模型,或者使用开源的 NeMo 框架进行定制。

优化

使用 TensorRT-LLM 优化 LLM 的推理工作负载。了解如何在 TensorRT-LLM 中设置和开始使用 Llama。

开始使用适合您开发环境的模型。

Model

借助 NVIDIA NIM 获取生产就绪型 DeepSeek 模型。

只需 API 调用,即可实现快速原型设计。

Model

NVIDIA DeepSeek R1 FP4

NVIDIA DeepSeek R1 FP4 模型是 DeepSeek R1 模型的量化版本,后者是使用优化的 Transformer 架构的自回归语言模型。NVIDIA DeepSeek R1 FP4 模型使用 TensorRT Model Optimizer 进行量化。

Model

Ollama 上的 DeepSeek

Ollama 可让您快速将 DeepSeek 部署到所有 GPU。

查看更多系列产品

AI Model - Google DeepMind’s Gemma logoGemma

Gemma 是 Google DeepMind 的轻量级开放模型系列。Gemma 模型涵盖各种规模和专业领域,可满足每位开发者的独特需求。NVIDIA 与 Google 合作,使这些模型能够在各种 NVIDIA 平台上以最佳方式运行,确保您在硬件上获得更高性能,从数据中心 GPU (如 NVIDIA Blackwell 和 NVIDIA Hopper 架构芯片) 到 Windows RTX 和 Jetson 设备。企业客户可以使用 NVIDIA NIM 微服务部署经过优化的容器,以获得生产级支持,并使用端到端 NeMo 框架进行自定义。随着最新版 Gemma 3n 的发布,这些模型现在可以原生支持多语种和多模态处理文本、图像、视频和音频数据。

开始使用适合您开发环境的模型。

Model

开始使用 NVIDIA NIM 构建 Gemma 模型

Gemma 3 现已入选 NVIDIA API Catalog,只需调用 API 即可实现快速原型设计。

Model

Ollama 上的 Gemma 3 模型

借助 Ollama,您只需几秒钟即可开始在单个 NVIDIA H100 Tensor Core GPU 上运行功能最强大的 Gemma 模型。

Model

Gemma-2b-it ONNX INT4

Gemma-2b-it ONNX INT4 模型通过TensorRT 模型优化器。使用 Hugging Face 的 Transformers 库或您首选的开发环境,根据您的独特需求轻松微调和调整模型。

查看更多系列产品

AI Model - OpenAI’s ChatGPT logogpt-oss

早在 2016 年,NVIDIA 和 OpenAI 就发布了 NVIDIA DGX™,开始突破 AI 的界限。随着 OpenAI gpt-oss-20b 和 gpt - oss-120b 的发布,协作式 AI 创新得以延续。NVIDIA 已在 NVIDIA Blackwell 架构上优化了这两个新的开放权重模型,以加速推理性能,在 NVIDIA GB200 NVL72 系统上每秒可提供高达 150 万个 token (TPS) 。

开始使用适用于您开发环境的模型。

Model

借助 NVIDIA NIM 获取生产就绪型 gpt-oss 模型

下载并部署预封装、可移植、优化的 NIM 微服务:

Model

在 Hugging Face 上探索 gpt-oss 模型

NVIDIA 与多个顶级开源框架合作,例如Hugging Face Transformer、Ollama 和 vLLM,以及用于优化内核和模型增强的 NVIDIA TensorRT-LLM。

Model

在 Ollama 上探索 gpt-oss

开发者可以使用 Ollama、Llama.cpp 或 Microsoft AI Foundry Local,通过自己喜欢的应用和 SDK 体验这些模型。

AI Model - Meta’s Llama logoLlama

Llama 是 Meta 的开放基础模型集合,最近在 2025 年发布的 Llama 4 中实现了多模态。NVIDIA 与 Meta 合作,利用 NVIDIA TensorRT™-LLM (TRT-LLM) 推进这些模型的推理,以更大限度地提高数据中心 GPU (例如 NVIDIA Blackwell 和 NVIDIA Hopper™ 架构 GPU) 的性能。多个 Llama 模型的优化版本可作为 NVIDIA NIM™ 微服务提供,以提供易于部署的体验。您还可以使用端到端 NVIDIA NeMo™ 框架,使用自己的数据自定义 Llama。

开始使用适合您开发环境的模型。

Model

借助 NVIDIA NIM 获取生产就绪型 Llama 模型

NVIDIA API Catalog 只需调用 API 即可实现快速原型设计。

Model

Ollama 上的 Llama 4

Ollama 可让您快速将 Llama 4 部署到所有 GPU 上。

Model

在 Hugging Face 上量化 Llama 3.1 8B

NVIDIA Llama 3.1 8B Instruct 通过开源模型量化为 FP8 进行了优化TensorRT 模型优化器库。与数据中心和消费级设备兼容。


查看更多系列产品

AI Model - NVIDIA Nemotron logoNVIDIA Nemotron

NVIDIA Nemotron™ 开放模型系列 (包括 Llama Nemotron) 在推理和各种代理式任务方面表现出色。这些模型针对各种用例进行了优化:Nano 具有成本效益,在准确性和计算能力之间实现了超强平衡,而 Ultra 可提供更高的准确性。凭借开放式许可证,这些模型可确保商业可行性和数据控制。

探索

探索模型、数据集和示例应用,了解 Nemotron 模型的不同用例。

集成

开始使用适合您开发环境的工具和框架,利用开放的 Nemotron 模型和数据集实现代理式 AI。

优化

使用 NVIDIA NeMo 优化 Nemotron,并使用 NVIDIA NIM 和具有可定制参考工作流的 NVIDIA Blueprint 构建 AI 智能体。

开始使用适用于您开发环境的模型。

Model

Nemotron Nano

为 PC 和边缘设备提供出色的准确性。

新发布的 Nemotron Nano 2 支持可配置的思维预算,使企业能够控制 token 生成,以降低成本并在边缘设备上部署优化的智能体。

Model

Llama Nemotron Super

在单个 NVIDIA H100 Tensor Core GPU 上提供最高的准确性和吞吐量。

Llama Nemotron Super 1.5 具有 FP4 精度,针对 NVFP4 格式的 NVIDIA Blackwell 架构进行了优化,与 NVIDIA H100 上的 FP8 相比,NVIDIA B200 上的吞吐量提高了 6 倍。

Model

Llama Nemotron Ultra


为复杂系统提供领先的代理式 AI 准确性,并针对多 GPU 数据中心进行优化。

AI Model - Microsoft Phi logoPhi

Microsoft Phi 是小语言模型 (SLM) 系列,可为商业和研究任务提供高效性能。这些模型基于高质量训练数据进行训练,在数学推理、代码生成、高级推理、摘要、长文档问答和信息检索方面表现出色。由于 Phi 模型体积小,因此可以部署在单个 GPU 环境中的设备上,例如 Windows RTX 和 Jetson。随着 Phi-4 系列模型的推出,Phi 已扩展到高级推理和多模态。

优化

使用 TensorRT-LLM 优化 LLM 的推理工作负载。了解如何在 TRT-LLM 中设置和开始使用 Llama。

开始使用适合您开发环境的模型。

Model

借助 NVIDIA NIM 获取生产就绪型 Phi 模型

NVIDIA API Catalog 只需调用 API 即可实现快速原型设计

Model

Ollama 上的 Phi

Ollama 可让您快速将 Phi 部署到所有 GPU。

Model

Phi-3.5-mini-Instruct INT4 ONNX

Phi-3.5-mini-Instruct INT4 ONNX 模型是 Microsoft Phi - 3.5 - mini - Instruct 模型的量化版本,具有 38 亿个参数。

查看更多系列产品

AI Model - Microsoft Phi logoQwen

阿里巴巴发布了 Tongyi Qwen3,这是一个开源混合推理大语言模型 (LLM) 系列。Qwen3 系列包括两个 MoE 模型,即 235B-A22B (总参数和活动参数为 22B) 和 30B - A3B,以及六个密集模型,包括 0.6 B、1.7 B、4B、8B、14B 和 32B 版本。借助超快的 token 生成,开发者可以使用不同的框架 (例如 NVIDIA TensorRT-LLM、Ollama、SGLang 和 vLLM) 在 NVIDIA GPU 上高效地将 Qwen3 模型集成和部署到生产应用中。

开始使用适合您开发环境的模型。

Model

NVIDIA API Catalog 上的 Qwen 模型

尝试使用这些能够思考和推理的强大模型,显著提高下游任务 (尤其是难题) 的性能。

Model

NVIDIA NeMo Canary-qwen-2.5 b

NVIDIA NeMo Canary-Qwen-2.5 B 是一种英语语音识别模型,可在多个英语语音基准测试中实现出色性能。

Model

Ollama 上的 Qwen

借助 Ollama,您可以将各种 Qwen 模型快速部署到所有 NVIDIA GPU。Qwen3 是 Qwen 系列中的最新一代大语言模型,提供了一整套密集和混合专家 (MoE) 模型。

查看更多系列产品

更多资源

Decorative image representing Developer Community

加入 NVIDIA 开发者计划

 Decorative image representing Training and Certification

获取培训和认证

Decorative image representing Inception for Startups

加速您的初创公司


伦理 AI

NVIDIA 认为,可信 AI 是一项共同责任,我们制定了相关政策和实践,以支持各种 AI 应用的开发。根据我们的服务条款下载或使用时,开发者应与其支持的模型团队合作,确保此模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。请在此处报告安全漏洞或 NVIDIA AI 问题。

立即试用热门社区模型。

联系我们