分享好友 资讯首页 频道列表

苹果推出Pico-Banana-400K数据集,为AI图像编辑模型训练提供新助力

2025-10-30 00:358220

苹果公司近日推出了一项名为Pico-Banana-400K的图像研究数据集,该数据集包含40万张经过精心编辑的图像,旨在为文本引导的图像编辑技术提供更强大的训练和评估资源。这一成果已通过预印本平台arXiv发布,完整数据集也在GitHub上向全球研究人员开放,采用非商业性研究许可协议,允许学术机构自由使用,但禁止商业用途。

研究团队指出,当前图像编辑领域虽然技术进步显著,但开放研究仍面临数据集质量不足的挑战。现有数据集多依赖专有模型生成的合成数据,或仅包含有限的人工筛选样本,普遍存在领域偏差、编辑类型分布不均以及质量控制不一致等问题,这些问题严重制约了鲁棒图像编辑模型的发展。为突破这一瓶颈,苹果团队决定构建一个更全面、更具代表性的数据集。

Pico-Banana-400K的构建过程始于对OpenImages数据集中真实照片的筛选,确保样本涵盖人物、物体及含文字场景等多样化内容。研究团队设计了35种不同类型的图像编辑指令,并将其归类为八大类别,包括像素与光度调整(如添加复古滤镜)、以人为中心的编辑(如将人物转换为卡通风格)、场景构成与多主体编辑(如改变天气条件)、对象级语义修改(如移动物体位置)、图像缩放(如放大画面)等。

在编辑过程中,研究人员将原始图像与编辑指令输入谷歌的Gemini 2.5-Flash-Image模型(也被称为Nanon-Banana)进行生成,随后利用Gemini 2.5-Pro模型对结果进行自动评估,确保编辑结果既准确遵循指令,又具备良好视觉质量。只有通过双重验证的样本才会被纳入最终数据集。

该数据集不仅包含单轮编辑的样本,还涵盖了多轮连续编辑序列,以及“偏好对”样本——即成功与失败编辑结果的对比,帮助模型学习区分理想与不良输出。这种设计使得Pico-Banana-400K能够支持更复杂的编辑任务,并为模型训练提供更丰富的反馈信号。

尽管研究团队承认Nanon-Banana模型在精细空间控制、布局外推和文字排版处理方面仍存在局限,但他们强调,Pico-Banana-400K的目标是为下一代文本引导图像编辑模型提供一个坚实、可复现的基础。通过公开这一资源,苹果希望推动图像编辑领域的技术进步,并为研究人员提供更高效的工具,以应对开放研究中的数据挑战。

反对 0
举报 0
收藏 0
打赏 0
评论 0
华为MatePad Pro Max海外亮相:轻薄设计配顶级配置,售价999.99英镑起
华为MatePad Pro Max海外亮相:轻薄设计配顶级配置,售价999.99英镑起

0评论2026-05-091364

vivoS30:甜酷配色吸睛,性能影像续航全在线,高性价比之选!
vivoS30:甜酷配色吸睛,性能影像续航全在线,高性价比之选!

0评论2026-05-091591

华为Pura90系列销售火热!开售数日激活量可观,影像升级成亮点
华为Pura90系列销售火热!开售数日激活量可观,影像升级成亮点

0评论2026-05-091891

OPPO K15系列新机规格揭晓:大屏长续航,性能配置全升级
OPPO K15系列新机规格揭晓:大屏长续航,性能配置全升级

0评论2026-05-091102

五菱、华为合作打造的大六座SUV华境S正式上市
五菱、华为合作打造的大六座SUV华境S正式上市

0评论2026-05-092883

苹果iPhone 18 Pro系列爆料来袭:灵动岛缩小,影像续航网络均有升级
苹果iPhone 18 Pro系列爆料来袭:灵动岛缩小,影像续航网络均有升级

0评论2026-05-091650

领汇e9闪充C级轿车正式登场!15.08万起售,兼顾家用与商务场景
领汇e9闪充C级轿车正式登场!15.08万起售,兼顾家用与商务场景

0评论2026-05-092455

务本X1 PRO手电:务实之选,亮度续航散热全在线,安心之伴
务本X1 PRO手电:务实之选,亮度续航散热全在线,安心之伴

0评论2026-05-091884

苹果下一代AirPods测试中:摄像头加持Siri,9月或携新能力亮相
苹果下一代AirPods测试中:摄像头加持Siri,9月或携新能力亮相

0评论2026-05-091821