在 Dell Pro Max GB10 的 NVIDIA DGX OS 7 系统上,通过 Ollama 或 vLLM 部署 MiniMax-M2.5,并接入 OpenClaw(效率优先)或 IronClaw(安全优先)智能体框架,实现 100% 本地化、零 token 费用的 AI 智能体工作流。
最简单的本地部署方案,一条命令完成模型管理,自动提供 OpenAI 兼容 API
DGX OS 7 是 Ubuntu-like 系统,直接使用官方一键安装脚本:
curl -fsSL https://ollama.com/install.sh | sh安装完成后验证版本:
ollama --versionOllama 服务默认随系统启动。手动检查服务状态:
sudo systemctl status ollamasudo systemctl start ollama 启动服务,并可用 sudo systemctl enable ollama 设为开机自启。方案 A(推荐):直接从 Ollama 库拉取云版,原生支持 Subagents 并行能力:
ollama pull minimax-m2.5:cloud方案 B:通过 Hugging Face 下载 Unsloth GGUF 量化版(更灵活的版本选择):
# 安装工具
pip install -U huggingface_hub hf_transfer
# 启用高速传输
export HF_HUB_ENABLE_HF_TRANSFER=1
# 下载 UD-Q3_K_XL 版本(约 101GB,推荐)
hf download unsloth/MiniMax-M2.5-GGUF \
--local-dir ~/models/MiniMax-M2.5-GGUF \
--include "*UD-Q3_K_XL*"下载完成后,创建 Modelfile 并导入 Ollama:
# 创建 Modelfile
cat > ~/Modelfile << 'EOF'
FROM ~/models/MiniMax-M2.5-GGUF/UD-Q3_K_XL/MiniMax-M2.5-UD-Q3_K_XL-00001-of-00004.gguf
PARAMETER num_ctx 32768
PARAMETER temperature 1.0
PARAMETER top_p 0.95
PARAMETER top_k 40
EOF
# 导入为自定义模型
ollama create minimax-m2.5:32k -f ~/ModelfileOpenClaw 要求模型上下文窗口 ≥ 16000 tokens。若使用方案 A 的 cloud 版,同样需要创建自定义模型:
# 为 cloud 版创建 32k 上下文模型
echo -e "FROM minimax-m2.5:cloud\nPARAMETER num_ctx 32768\nPARAMETER temperature 1.0\nPARAMETER top_p 0.95\nPARAMETER top_k 40" > ~/Modelfile
ollama create minimax-m2.5:32k -f ~/Modelfile
# 验证模型列表
ollama list
# 验证参数
ollama show minimax-m2.5:32k --modelfile验证 Ollama API 正常响应:
curl http://localhost:11434/api/tags应返回包含 minimax-m2.5:32k 的 JSON 列表。
ollama run minimax-m2.5:32k "你好,请用一句话介绍你自己。"参考资料:NVIDIA DGX OS 7 用户指南·Ollama 官网·MiniMax-M2.5 GGUF(Unsloth)·vLLM 文档
MiniMax-M2.5:230B 参数(10B 激活),200K 上下文,SWE-Bench Verified 80.2%,原生支持 Subagents 并行处理。