七台河不锈钢保温工程 智谱新模子也用DeepSeek的MLA,苹果M5就能跑
点击次数:58
2026-01-22 08:44:32
七台河不锈钢保温工程 智谱新模子也用DeepSeek的MLA,苹果M5就能跑
梦晨 发自 凹非寺七台河不锈钢保温工程 手机:18632699551(微信同号)量子位 | 公众号 QbitAI 智谱AI上市后,再发新后果。 开源轻量大言语模子GLM-4.7-Flash,平直替代前
铁皮保温

梦晨 发自 凹非寺七台河不锈钢保温工程

手机:18632699551(微信同号)量子位 | 公众号 QbitAI

智谱AI上市后,再发新后果。

开源轻量大言语模子GLM-4.7-Flash,平直替代前代GLM-4.5-Flash,API费洞开调用。

这是个3B总参数、仅3B激活参数的羼杂(MoE)架构模子,官给它的定位是“腹地编程与智能体助手”。

在SWE-bench Verified代码缔造测试中,GLM-4.7-Flash拿下59.2分,“东谈主类后的测验”等评测中也著越同领域的Qwen3-3B和GPT-OSS-2B。

算作旧年12月发布的旗舰模子GLM-4.7的轻量化版块,GLM-4.7-Flash接收了GLM-4系列在编码和理上的中枢智商,同期针对率作念了门化。

除了编程,官还荐将这个模子用于创意写稿、翻译、长高下文任务,甚而角饰演场景。

3B参数只激活3B,MLA架构次上线

GLM-4.7-Flash沿用了该系列的”羼杂想考模子”的假想。

总参数目3亿七台河不锈钢保温工程,但履行理时仅激活约3亿参数,管道保温施工使模子在保握智商的同期大幅裁汰贪图支拨。

高下文窗口救济到2K,既不错云霄API调用,也救济腹地部署。

现在官还莫得给出技巧论说,多细节还要从树立文献我方挖掘。

有开拓者戒备到个热切细节:GLM团队此次次选拔了MLA(Multi-head Latent Attention)架构。这架构此前由DeepSeek-v2领先使用并考证有,如今智谱也跟进了。

从具体结构来看,GLM-4.7-Flash的度与GLM-4.5 Air和Qwen3-3B-A3B接近,但数目有所不同——它选拔64个而非128个,激活时只调用5个(算上分享)。

现在发布不到12小时,HuggingFace、vLLM等主流平台就提供了day救济。

官也在时刻提供了对华为昇腾NPU的救济。

腹地部署面,经开拓者实测在32GB统内存、M5芯片的苹果条记本上能跑到43 token/s的速率。

官API平台上基础版GLM-4.7-Flash费(限1个并发),速版GLM-4.7-FlashX价钱也特地白菜。

对比同类模子,在高下文长度救济和输出token价钱上有势,但现在延长和婉曲量还有待化。

HuggingFace:

https://huggingface.co/zai-org/GLM-4.7-Flash

参考勾搭:

[1]https://x.com/Zai_org/status/213261346866758

相关词条:铁皮保温施工
隔热条设备
锚索离心玻璃棉
友情链接: