开云(中国)Kaiyun·官方网站 - 登录入口

开云(中国)Kaiyun·官方网站 - 登录入口一位读者的问题激勉了不少争议-开云(中国)Kaiyun·官方网站 - 登录入口

发布日期:2025-02-02 12:11    点击次数:171

开云(中国)Kaiyun·官方网站 - 登录入口一位读者的问题激勉了不少争议-开云(中国)Kaiyun·官方网站 - 登录入口

机器之心原创

机器之心剪辑部

前些天,发布了一大堆东西,其中包括一款 AI 超等计较机Project DIGITS,机器之心也在第一时间进行了报说念,参阅《RTX5090 颤动发布,国行 16499 元起,黄仁勋「好意思国队长」pose 亮翻全场》。在这篇著作的指摘区,一位读者的问题激勉了不少争议。

天然该问题的最高赞回话暗示这是「英伟达被黑得最惨的一次」,但实质上使用 Mac Mini 看成个东说念主的大模子运行平台并不是什么生僻操作。

Fast Company 以致觉得 M4 Mac Mini 是「测试 AI 的圆善计较机」。

你也能在应付收罗上找到很多用户分享的教养。

其实,上图中的这位 Alex Cheema 不单是是在 Mac Mini 上运行我方的个东说念主 LLM 集群,亦然在为自家公司 EXO Labs 作念主意考据。其在本岁首告示推出了 EXO Gym 竞赛,开动测试能否在较慢的互联网带宽上完了存效的低延长锻练,而他们为此准备的 Mac Mini 数目更是多达 1000 台!是的,你莫得看错,不单是使用 Mac Mini 来扩充推理,还使用它们来锻练模子。

天然,这种作念法相通亦然极具争议,不外有深嗜我方尝试的读者也可使用他们的开源软件库,现时该技俩照旧得益了普及 1.84 万 star。

GitHub 地址:https://github.com/exo-explore/exo

总之,至少在运行推理方面,看起来使用 Mac Mini 如实可行。现时,咱们就来严肃地商议一下这个问题:关于个东说念主用户而言,如若念念我方跑腹地大模子,Mac Mini 和英伟达 Project DIGITS 到底选哪个更好?

参数对比

比拟谁更胜一筹的最直不雅法度是比拟它们的参数。

价钱

最初来看价钱。

凭证芯片、内存和硬盘的不同成就,M4 和 M4 Pro 芯片的国行版 Mac Mini 价钱从 4499 元到 35749 元东说念主民币不等,海外版则是从 599 好意思元到 4699 好意思元不等。

而 Project DIGITS 现时已知的起售价为 3000 好意思元。而这个 3000 好意思元版块的成就情况概况是 128GB 内存和高达 4TB 的 NVMe 存储。

而 64GB 内存和 4TB 硬盘的 M4 Pro 版 Mac Mini 的官方价钱就照旧达到了 3199 好意思元起,普及了 Project DIGITS。

配备 12 核 CPU、16 核 GPU 和 16 核 Neural Engine 的 M4 Pro 芯片的 Mac Mini,当弃取 64GB 内存和 4TB 硬盘时,售价为 3199 好意思元

因此至少在价钱上,Project DIGITS 先拿下一分。

性能参数

现时,由于 Project DIGITS 还没上市,因此咱们天然无法获取其与 Mac Mini 的凯旋性能对比数据,但咱们不错通过一些基本的成就情况来进行最基础的评估。

最初是 CPU 和 GPU。Project DIGITS 礼聘的计较中枢是 GB10 Superchip,由 Grace CPU 和 Blackwell GPU 构成。其中,Grace CPU 成就了 20 个礼聘 Arm 架构构建的高能效中枢,GPU 则是先进的 Blackwell,礼聘了最新一代 CUDA 中枢和第五代 Tensor Cores,可完了 1 PetaFLOP FP4 的 AI 计较。1 PetaFLOP!确凿吓东说念主,不外这是 FP4 精度的。如若等价到 FP16 精度,则不错说是 250 TFLOPS(天然这种算法很不严谨)。

英伟达暗示,借助这款超等计较机,开拓者不错运行多达 2000 亿参数的大型谈话模子,从而加快 AI 蜕变。此外,借助 NVIDIA ConnectX 收罗,还可将两台 Project DIGITS AI 超等计较机运动起来,运行多达 4050 亿参数的模子。也便是说,足以运行 Llama 3.1 405B。

而 Apple M4 Pro 芯片的 CPU 则是 12 核,其中包含 8 个性能中枢与 4 个后果中枢;GPU 则是 16 核版块。而其在 FP16 精度下的速率为 17 TFLOPS 。

凭证 Alex Cheema 的计较,Project DIGITS 不错说在各个层面齐碾压了 M4 Pro Mac Mini。

肤浅算算性价比:

Project DIGITS:250 TFLOPS / $3,000 ≈0.083 TFLOPS/好意思元M4 Pro Mac Mini:17 TFLOPS / $2,200 ≈0.0077 TFLOPS/好意思元

也便是说,用相通的钱,能从 Project DIGITS 赢得普及 M4 Pro Mac Mini 普及 10 倍的算力!

不外知乎用户 Karminski - 牙医也指出了 Project DIGITS 的一大不足。他暗示「它是长入内存,即 CPU 和 CPU 分享 LPDDR5X。它不是 GDDR6,也不是 HBM2 的。」

天然该修复的内存有 128 GB,「然而凭证 Grace 架构 CPU 的 Product Brief,单 CPU 的内存带宽最大惟有 512GB/s。是以如若用这个修复来运行大谈话模子,瓶颈就会形成这个内存带宽。」

他也作念了一番计较,得出的论断是「在 512GB/s 的情况下,运行 70b-4bit 领域的模子,生成速率表面最大值是 512/40=12.8 token/s。如若念念要运行 200B 领域的模子 (200B4bit 量化概况是 114GB),表面生成速率是 512/114≈4.5token/s」。

因此,Project DIGITS 可能也悄悄继承了老黄擅长的刀法。

Project DIGITS 真的赛高

合座来看,读者 Thomas Copper 如实莫得说错,至少在 AI 计较任务上,Mac Mini 如实远远不足 Project DIGITS。但需要阐述,Mac Mini 并不是专为 AI 任务打造,也适用于多样正常和责任任务。

之前不少东说念主暗示 Mac Mini 是完了 AI 普及化(democratize AI)的开动,但实质比拟下来,无意确切的开动是英伟达 Project DIGITS!

不外也需指出,Project DIGITS 才刚刚露脸,预测要到 5 月份才上市,市集发达究竟如何还有待磨砺——毕竟咱们到时能力确切知说念「皮衣刀客」究竟刀了哪些所在。但至少从应付收罗上的分享来看,照旧有不少东说念主准备好我方的钱包了。

对此,你有什么看法呢?

https://www.youtube.com/watch?v=GBR6pHZ68Ho

https://www.jeffgeerling.com/blog/2024/m4-mac-minis-efficiency-incredible

https://x.com/alexocheema/status/1876676954549620961

https://www.zhihu.com/question/8953765123/answer/73915191447