分享好友 资讯首页 频道列表

苹果推出Pico-Banana-400K数据集,为AI图像编辑模型训练提供新助力

2025-10-30 00:357650

苹果公司近日推出了一项名为Pico-Banana-400K的图像研究数据集,该数据集包含40万张经过精心编辑的图像,旨在为文本引导的图像编辑技术提供更强大的训练和评估资源。这一成果已通过预印本平台arXiv发布,完整数据集也在GitHub上向全球研究人员开放,采用非商业性研究许可协议,允许学术机构自由使用,但禁止商业用途。

研究团队指出,当前图像编辑领域虽然技术进步显著,但开放研究仍面临数据集质量不足的挑战。现有数据集多依赖专有模型生成的合成数据,或仅包含有限的人工筛选样本,普遍存在领域偏差、编辑类型分布不均以及质量控制不一致等问题,这些问题严重制约了鲁棒图像编辑模型的发展。为突破这一瓶颈,苹果团队决定构建一个更全面、更具代表性的数据集。

Pico-Banana-400K的构建过程始于对OpenImages数据集中真实照片的筛选,确保样本涵盖人物、物体及含文字场景等多样化内容。研究团队设计了35种不同类型的图像编辑指令,并将其归类为八大类别,包括像素与光度调整(如添加复古滤镜)、以人为中心的编辑(如将人物转换为卡通风格)、场景构成与多主体编辑(如改变天气条件)、对象级语义修改(如移动物体位置)、图像缩放(如放大画面)等。

在编辑过程中,研究人员将原始图像与编辑指令输入谷歌的Gemini 2.5-Flash-Image模型(也被称为Nanon-Banana)进行生成,随后利用Gemini 2.5-Pro模型对结果进行自动评估,确保编辑结果既准确遵循指令,又具备良好视觉质量。只有通过双重验证的样本才会被纳入最终数据集。

该数据集不仅包含单轮编辑的样本,还涵盖了多轮连续编辑序列,以及“偏好对”样本——即成功与失败编辑结果的对比,帮助模型学习区分理想与不良输出。这种设计使得Pico-Banana-400K能够支持更复杂的编辑任务,并为模型训练提供更丰富的反馈信号。

尽管研究团队承认Nanon-Banana模型在精细空间控制、布局外推和文字排版处理方面仍存在局限,但他们强调,Pico-Banana-400K的目标是为下一代文本引导图像编辑模型提供一个坚实、可复现的基础。通过公开这一资源,苹果希望推动图像编辑领域的技术进步,并为研究人员提供更高效的工具,以应对开放研究中的数据挑战。

反对 0
举报 0
收藏 0
打赏 0
评论 0
长安蓝鲸超擎混动技术登场 城区油耗创新低 开启混动新篇章
长安蓝鲸超擎混动技术登场 城区油耗创新低 开启混动新篇章

0评论2026-03-311796

理想智能超充重点实验室揭牌 锚定技术高地赋能新能源电池升级
理想智能超充重点实验室揭牌 锚定技术高地赋能新能源电池升级

0评论2026-03-311808

安凯客车2025年度财报及董事会决议全览:利润分配与未来规划揭晓
安凯客车2025年度财报及董事会决议全览:利润分配与未来规划揭晓

0评论2026-03-311585

iPhone 18 Pro屏幕谍照流出 灵动岛挖孔缩小 屏占比或迎显著提升
iPhone 18 Pro屏幕谍照流出 灵动岛挖孔缩小 屏占比或迎显著提升

0评论2026-03-31671

一加 Ace 6T今晚登场,旗舰芯大电池高刷屏,游戏党性价比之选来袭
一加 Ace 6T今晚登场,旗舰芯大电池高刷屏,游戏党性价比之选来袭

0评论2026-03-312631

苹果“隐藏我的邮箱”功能遭挑战:向美执法部门披露用户真实信息
苹果“隐藏我的邮箱”功能遭挑战:向美执法部门披露用户真实信息

0评论2026-03-312057

苹果被指向美执法部门披露使用隐私邮箱用户的真实身份
苹果被指向美执法部门披露使用隐私邮箱用户的真实身份

0评论2026-03-311533

力箭二号遥一首飞成功!“拼积木”设计助力商业航天迈向新高度
力箭二号遥一首飞成功!“拼积木”设计助力商业航天迈向新高度

0评论2026-03-312756

苹果iOS 26.5 Beta更新:欧盟地区为第三方配件接入设严格隐私保护规则
苹果iOS 26.5 Beta更新:欧盟地区为第三方配件接入设严格隐私保护规则

0评论2026-03-311230

vivo发布会新动向:手机跨界“相机圈”,分层市场新抉择
vivo发布会新动向:手机跨界“相机圈”,分层市场新抉择

0评论2026-03-312626