谷歌大脑最新操作玩“复古”：不用卷积注意力，图像分类接近SOTA_云计算_

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

谷歌大脑的视觉Transformer团队（ViT），搞了个复古操作。

他们不用卷积神经网络（CNN）、也不用Transformer，仅凭最早的AI视觉任务采用的多层感知机（MLP）结构，就实现了接近SOTA的性能，更是在ImageNet图像分类任务上取得了87.94%的准确率。

谷歌大脑最新操作玩“复古”：不用卷积注意力，图像分类接近SOTA

这个架构名为MLP-Mixer，采用两种不同类型的MLP层，可以看做是一个特殊的CNN，使用 1×1卷积进行通道混合（按位操作），同时全感受野和参数共享的的单通道深度卷积进行字符混合（跨位操作）。

在JFT-300M数据集上预训练、微调到224分辨率的Mixer-H/14版本取得了86.32%的准确率，比SOTA模型ViT-H/14仅低0.3%，但运行速度是其2.2倍。

论文地址：
https://arxiv.org/abs/2105.01601

项目地址：
https://github.com/google-research/vision_transformer/tree/linen

Anthropic推AI新模型Opus 4.5，编程表现超谷歌OpenAI及人类候选者

0评论2025-11-261759

Meta或打破英伟达GPU依赖，与谷歌洽谈为自有数据中心引入TPU芯片

0评论2025-11-26904

天孚通信辟谣获谷歌30亿美元订单传闻称业绩增长得益于AI与算力需求

0评论2025-11-261563

Gemini 3正式登场：推理能力霸榜，谷歌AI开启新征程

0评论2025-11-261991

谷歌与Accel联手设“AI Futures × Atoms”基金，200万投印度AI初创促创新

0评论2025-11-261508

谷歌自研芯片全栈出击！Gemini 3如何以TPU驱动实现多模态突破？

0评论2025-11-262789

谷歌Gemini 3发布：推理多模态 Agent能力升级，重塑AI协作新范式

0评论2025-11-202521

谷歌CEO皮查伊：AI未来或胜任CEO，就业市场将迎新变革与机遇

0评论2025-11-20792

谷歌Gemini 3 Pro强势来袭：原生多模态，重塑AI应用新体验

0评论2025-11-201561

谷歌Gemini 3重磅登场：多模态与推理能力飙升，开启AGI新征程

0评论2025-11-202008