在M3 utral 512GB混合内存的Mac上部署Ollama及大模型的体验-略知一二

写在最前

如果你准备在本地跑一些大型模型，例如 Qwen 120B、DeepSeek-R1 671B（Q4量化）、GPT-OSS 120B 等，而且使用场景并发不高、甚至只有你自己一人使用，那么这台机器依然是 性价比非常不错 的选择——尽管价格本身并不便宜。

我在东京入手的 Mac Studio M3 Ultra（512GB RAM、2TB SSD），到手价也接近 人民币 8 万。但对于本地大模型开发和测试来说，它依然是一台很能打的设备。

这台机器上安装 vLLM 相当鸡肋，需要额外配置，例如禁用 CUDA 构建、设置 VLLM_BUILD_WITH_CUDA=0 使用 CPU 模式等等，体验并不好。

折腾了一圈后，我干脆选择了更简单的 Ollama 方案。

以下是我当前安装并测试过的模型列表：

模型载入后，如果只是 单用户 + 普通文本生成，速度非常快，几乎秒出结果。

但需要注意：

不得不说，Mac Studio 的散热表现相当优秀。

即使长时间满载运行：

这是苹果机型比较让人安心的一部分。

文章版权归作者所有，未经允许请勿转载。

THE END