GPT-OSS 在线免费体验:探索 OpenAI 最新开源模型
马上体验 OpenAI 开源模型的强大功能!无需下载与设置,直接在浏览器中访问 gpt-oss 20b 或 120b,享受极速 AI 推理、编程与对话。
from 5000+ reviews
Chat History
No chat history yet. Start a new conversation!

欢迎访问 gpt-oss.me!在这里,您可以随时提问,实时体验 gpt-oss 强大的功能——免费、快速、纯在线。
gpt-oss:OpenAI 革命性的开源语言模型
OpenAI 重返开源领域,发布了 gpt-oss-120b 和 gpt-oss-20b 两款先进的开放权重语言模型,旨在以极低成本实现卓越的实际性能。采用 OpenAI 前沿系统(如 o3 和 o4-mini)训练,这些模型在推理、工具使用和高效部署上表现卓越。它们在 Apache 2.0 许可证下开放,性能超越同类开源模型,并针对消费级硬件进行了优化,非常适合全球开发者、企业和研究人员。 这些 GPT-OSS 模型注重跨环境的可用性,支持高达 128k token 的上下文长度和文本交互,可用于代码生成、数学求解以及外部工具集成,如网页搜索或 Python 执行。它们还具有可调的推理强度——低、中、高——以在延迟和性能之间找到最佳平衡。
选择模型 | 层数 | 总参数量 | 每个 Token 的激活参数 | 专家总数 | 每个 Token 的激活专家数 | 上下文长度 |
---|---|---|---|---|---|---|
gpt-oss-20b | OpenAI gpt-oss 可在多个平台上本地部署,其中在 Ollama 和 LM Studio 上尤为流行,适合快速设置。 首先安装 Ollama 应用,通过 ollama pull gpt-oss:20b 或 ollama pull gpt-oss:120b 下载模型。然后使用 ollama run gpt-oss:20b 进行离线聊天。在高性能硬件上运行非常快速,如 RTX 显卡或 M4 Mac,速度可达每秒约 35 个词汇。根据硬件配置调整推理速度,查看 Ollama 文档以获取自定义提示。 在 LM Studio 中,下载应用并在发现标签页搜索 "gpt-oss-20b" 或 "gpt-oss-120b",加载后即可开始使用。它在 M4 Max 上表现优异,速度可达每秒 58 到 70 个词汇,使用高端 GPU(如 RTX 5090)时可达到每秒 221 个词汇。非常适合低延迟任务,特别是在边缘设备上。请确保更新到最新版本。 | 117B | 5.1B | 128 | 头像示例 3 | 128K |
gpt-oss-20b | Apache 2.0 许可证,免费定制 | 21B | 3.6B | OpenAI oss 的特性亮点 | 头像示例 3 | 128K |
OpenAI gpt-oss模型规格与性能

gpt-oss-20b:专为低延迟、本地化应用场景设计
gpt-oss-20b 作为一款既紧凑又强大的模型,拥有 210 亿个总参数,并通过混合专家(MoE)架构在每个 Token 上激活 36 亿参数。它在多个关键基准测试中,与 OpenAI 的 o3-mini 旗鼓相当,甚至超越,包括竞赛数学(AIME 2024 & 2025)、通用问题解决(MMLU 和 HLE)以及健康查询(HealthBench)。该模型专为边缘设备优化,仅需 16 GB 内存,并支持原生的 MXFP4 量化,能够在笔记本或手机上顺畅运行,推理速度为每秒 160-180 个 Token。 这使得 gpt-oss-20b 特别适合低延迟应用,如本地聊天机器人或设备端 AI。同时,其强大的少样本函数调用和链式推理(CoT)提升了 ChatGPT 替代方案的性能。凭借旋转位置嵌入(RoPE)和开源的 o200k_harmony 分词器,它能够高效处理多语言任务,非常适合在无需高端设备的情况下进行创意测试。

gpt-oss-120b:适用于高推理能力的生产级场景
相比之下,gpt-oss-120b 具备强大功能,总参数达到1170亿,通过MoE技术激活每个token 51亿个参数,采用交替的稠密和稀疏注意力机制的Transformer架构。在推理基准测试中与o4-mini相当,在健康(HealthBench)、智能体评估(TauBench)和竞赛编程(Codeforces)等领域表现突出。gpt-oss-120b能够在单个80GB的GPU上高效运行,例如Nvidia H100,使用4位量化和分组多查询注意力机制,实现高效运算。 适用于企业工作流,gpt-oss-120b在复杂工具使用、结构化输出和可调推理工作方面表现出色,在某些领域超越了GPT-4o等专有模型。其架构支持轻松集成,适合研究或定制AI应用,成为开发者寻求开放、可扩展且高性价比的gpt-oss解决方案时的理想选择。
OpenAI oss 的特性亮点
Apache 2.0 许可证,免费定制
Apache 2.0 许可证允许你修改、分享和用于任何项目—无论是个人项目还是商业用途,且不受限制且无需付费。与其他更严格的许可证相比,这为开发者和企业提供了自由修改gpt-oss模型的机会,推动了医疗和金融等领域的创新。
加强恶意修改防护
安全始终是 gpt-oss 的首要任务,OpenAI 的《准备框架》能过滤掉如 CBRN 威胁等风险,并通过先进的训练拒绝有害提示。即使遭遇恶意微调,测试显示它在高风险情况下依然安全。
支持高级推理与工具调用
OpenAI gpt-oss 在链式推理(CoT)方面表现出色,支持调整推理速度或深度,并原生支持工具调用,包括网页搜索、Python 执行及智能工作流。它在 AIME 数学和 HealthBench 等基准测试中表现优异,非常适合复杂的 ChatGPT 任务处理。
本地部署,保障隐私与降低成本
在本地硬件上运行 gpt-oss,确保完全隐私——数据不离开设备,避免云服务带来的数据泄露或法律风险。与 OpenAI 定价相比,这种方式将部署成本降至几乎为零,且高效设计,适配消费级硬件,如笔记本电脑(适用于 gpt-oss-20b)或单一 GPU(适用于 gpt-oss-120b)。
如何使用 gpt-oss:简单集成与在线访问
从 Hugging Face 下载 gpt-oss 模型权重
前往 HuggingFace,方便下载 gpt-oss。你可以在 huggingface.co 上搜索 "openai/gpt-oss-20b" 或 "openai/gpt-oss-120b"。通过 Hugging Face CLI:在终端运行 huggingface-cli download openai/gpt-oss-20b。模型已经经过量化优化,提高了运行效率,你还可以使用 vLLM 启动服务器进行测试。该社区平台还提供了关于 Transformers 微调的指南。
将 gpt-oss 集成到 Ollama 或 LM Studio
OpenAI gpt-oss 可在多个平台上本地部署,其中在 Ollama 和 LM Studio 上尤为流行,适合快速设置。 首先安装 Ollama 应用,通过 ollama pull gpt-oss:20b 或 ollama pull gpt-oss:120b 下载模型。然后使用 ollama run gpt-oss:20b 进行离线聊天。在高性能硬件上运行非常快速,如 RTX 显卡或 M4 Mac,速度可达每秒约 35 个词汇。根据硬件配置调整推理速度,查看 Ollama 文档以获取自定义提示。 在 LM Studio 中,下载应用并在发现标签页搜索 "gpt-oss-20b" 或 "gpt-oss-120b",加载后即可开始使用。它在 M4 Max 上表现优异,速度可达每秒 58 到 70 个词汇,使用高端 GPU(如 RTX 5090)时可达到每秒 221 个词汇。非常适合低延迟任务,特别是在边缘设备上。请确保更新到最新版本。
在 gpt-oss.me 上免费体验 GPT-OSS,立即体验
跳过安装,马上在 gpt-oss.me 上体验 gpt-oss。我们的免费沙盒允许你测试 gpt-oss-20b 或 gpt-oss-120b,支持调整推理和工具调用,无需下载。先探索各项功能,再决定是否进行本地集成。
GPT-OSS 与 Claude Opus 4.1:开源模型与专有模型对比
功能 | gpt-oss-120b | Claude Opus 4.1 |
---|---|---|
Reasoning & Benchmarks | Near-parity with o4-mini; excels in AIME math (96.6% with tools), HealthBench, TauBench agentic tasks; matches o3-mini in MMLU/HLE. | Tops SWE-bench Verified at 74.5% (up from 72.5% in Opus 4); GPQA 79.6-83% with reasoning, TerminalBench 35.5%; outperforms GPT-4.1 in coding. |
Tool Use & Capabilities | Native support for web search, Python execution, structured outputs, few-shot calling; adjustable reasoning levels (low/medium/high). | Excellent tool integration and multimodal support; superior in long-running code/text tasks but proprietary. |
Safety & Ethics | Preparedness Framework with adversarial fine-tuning; observable CoT for misuse detection; $500K Red Teaming Challenge. | Prioritizes ethics with enhanced filters; edges in proprietary safeguards, including improved refusal behaviors. |
Cost & Accessibility | Free under Apache 2.0; local runs on 80GB GPU (120b) or 16GB (20b); no API fees. | Subscription-based; API pricing applies (higher for advanced features); no open weights, cloud-dependent. |
Deployment & Customization | Open-source weights via Hugging Face; easy fine-tuning for on-premises privacy. | Limited customization without API; newer training data (April 2025) but no local weights. |