分享好友 资讯首页 频道列表

智谱新模型也用DeepSeek的MLA,苹果M5就能跑

2026-01-20 23:1424320

智谱AI上市后,再发新成果。

开源轻量级大语言模型GLM-4.7-Flash,直接替代前代GLM-4.5-Flash,API免费开放调用。

这是一个30B总参数、仅3B激活参数的混合专家(MoE)架构模型,官方给它的定位是“本地编程与智能体助手”。

在SWE-bench Verified代码修复测试中,GLM-4.7-Flash拿下59.2分,“人类最后的考试”等评测中也显著超越同规模的Qwen3-30B和GPT-OSS-20B。

作为去年12月发布的旗舰模型GLM-4.7的轻量化版本,GLM-4.7-Flash继承了GLM-4系列在编码和推理上的核心能力,同时针对效率做了专门优化。

除了编程,官方还推荐将这个模型用于创意写作、翻译、长上下文任务,甚至角色扮演场景。

30B参数只激活3B,MLA架构首次上线

GLM-4.7-Flash沿用了该系列的”混合思考模型”的设计。

总参数量300亿,但实际推理时仅激活约30亿参数,使模型在保持能力的同时大幅降低计算开销。

上下文窗口支持到200K,既可以云端API调用,也支持本地部署。

目前官方还没有给出技术报告,更多细节还要从配置文件自己挖掘。

有开发者注意到一个重要细节:GLM团队这次首次采用了MLA(Multi-head Latent Attention)架构。这一架构此前由DeepSeek-v2率先使用并验证有效,如今智谱也跟进了。

从具体结构来看,GLM-4.7-Flash的深度与GLM-4.5 Air和Qwen3-30B-A3B接近,但专家数量有所不同——它采用64个专家而非128个,激活时只调用5个(算上共享专家)。

目前发布不到12小时,HuggingFace、vLLM等主流平台就提供了day0支持。

官方也在第一时间提供了对华为昇腾NPU的支持。

本地部署方面,经开发者实测在32GB统一内存、M5芯片的苹果笔记本上能跑到43 token/s的速度。

官方API平台上基础版GLM-4.7-Flash完全免费(限1个并发),高速版GLM-4.7-FlashX价格也相当白菜。

反对 0
举报 0
收藏 0
打赏 0
评论 0
摩托罗拉Moto G87登场:2亿像素主摄加持 防尘防水与耐用性全面升级
摩托罗拉Moto G87登场:2亿像素主摄加持 防尘防水与耐用性全面升级

0评论2026-05-012440

小行星轨道数据立大功!天文学家找到2031年超短火星往返新航线
小行星轨道数据立大功!天文学家找到2031年超短火星往返新航线

0评论2026-05-011397

三星Q1财报亮眼:半导体利润飙升48倍,存储市场格局生变
三星Q1财报亮眼:半导体利润飙升48倍,存储市场格局生变

0评论2026-05-012648

高铁疾驰如风,5G信号如何“无缝贴合”伴你行?
高铁疾驰如风,5G信号如何“无缝贴合”伴你行?

0评论2026-05-012220

老外集体趴窝北京车展:蹲地上量中国底盘
老外集体趴窝北京车展:蹲地上量中国底盘

0评论2026-05-011251

鸿蒙智行问界M6汽车甄选配置现车已交付超5000台
鸿蒙智行问界M6汽车甄选配置现车已交付超5000台

0评论2026-05-01937

库克:苹果大中华区营收大增,iPhone 17系列等产品获中国消费者认可
库克:苹果大中华区营收大增,iPhone 17系列等产品获中国消费者认可

0评论2026-05-01737

阿维塔06T携太行电驱与乾崑智驾入场,填补20-30万级运动轿车市场空白
阿维塔06T携太行电驱与乾崑智驾入场,填补20-30万级运动轿车市场空白

0评论2026-04-232110

华为余承东官宣肖战成为鸿蒙智行尚界品牌代言人
华为余承东官宣肖战成为鸿蒙智行尚界品牌代言人

0评论2026-04-23808