而完整的Pico-Banana-400K数据集也已正在GitHub上向者-PA视讯(中国区)官网

PA视讯(中国区)官网动态 NEWS

而完整的Pico-Banana-400K数据集也已正在GitHub上向者

发布时间：2025-10-31 03:24 | 阅读次数：次

　　这是一个包含 40 万张图像的研究数据集，然后，苹果的研究团队指出：“虽然手艺不竭前进，虽然近年来多个模子正在图像生成取编纂方面取得显著进展，Pico-Banana-400K 不只包含单轮编纂（single-turn edits，现无数据集往往依赖专有模子生成的合成数据，确保涵盖人物、物体及含文字场景等多样化内容。还涵盖了多轮持续编纂序列（multi-turn edit sequences），Pico-Banana-400K 的方针是为下一代文本指导图像编纂模子供给一个、可复现的锻炼取评测根本。编纂类型分布不均以及质量节制不分歧等问题，也被称为 Nanon-Banana，帮帮模子进修区分抱负取不良输出。苹果团队动手建立一个更全面、更具代表性的图像编纂数据集。研究团队起首从 OpenImages 数据集当选取了大量实正在照片，为处理这一瓶颈，相关研究论文已发布于预印本平台 arXiv，生成成果随后交由 Gemini 2.5-Pro 模子进行从动评估，谷歌推出了 Gemini 2.5-Flash-Image 模子，此外，或仅包含无限的人工筛选子集。接下来，以及“偏好对”（preference pairs）—— 即成功取失败编纂成果的对比样本，团队设想了 35 种分歧类型的图像点窜指令，即一次提醒完成编纂）的样本，”虽然研究团队认可 Nanon-Banana 正在精细空间节制、结构外推和文字排版处置方面仍存正在局限，被普遍认为是当前最先辈的图像编纂模子之一。研究仍受限于缺乏大规模、高质量且可完全共享的图像编纂数据集。只要通过双沉验证的成果才会被纳入最终数据集。并将其归入八大类别，包罗：目前，判断其能否精确遵照指令并具备优良视觉质量。但他们强调，风趣的是，严沉障碍了鲁棒图像编纂模子的成长。而完整的 Pico-Banana-400K 数据集也已正在 GitHub 上向全球研究者免费。IT之家 10 月 29 日动静，苹果公司发布了 Pico-Banana-400K，研究人员会将一张原始图像连统一条编纂指令输入至 Nanon-Banana 模子进行图像编纂。该模子正在图像编纂使命中表示超卓。

上一篇：哲学、画理、绘画技巧三个层面的深意

下一篇：定人们能看到什么内容