广西响应式网站建设,网络广告推广营销方案,公司展览厅设计,福建省建设注册管理中心网站允中 发自 凹非寺量子位 | 公众号 QbitAI图像界又杀出一匹黑马#xff01;刚刚#xff0c;Luma AI甩出全新模型Uni-1#xff0c;正面对标谷歌Nano Banana Pro和GPT Image 1.5。Uni-1是一个统一的图像理解与生成模型。在官方展示中#xff0c;Uni-1具备角色姿态迁移、故事板…允中 发自 凹非寺量子位 | 公众号 QbitAI图像界又杀出一匹黑马刚刚Luma AI甩出全新模型Uni-1正面对标谷歌Nano Banana Pro和GPT Image 1.5。Uni-1是一个统一的图像理解与生成模型。在官方展示中Uni-1具备角色姿态迁移、故事板生成、草稿材质结合参考生成、草稿转漫画、多参考图场景合成、草稿引导的照片编辑、UV贴图生成、带有文字的贺卡海报生成等诸多能力。在多项权威任务评测中Uni-1不仅能对标Nano Banana Pro、GPT Image 1.5部分任务的表现更是达到世界领先水平。例如下面这个案例Uni-1精准拿捏细节在风格一致性、元素融合度和细节还原上更胜一筹。更令人意外的是能实现如此惊艳效果的Uni-1背后并非大厂重兵投入而是一支不到15人的华人研究团队。Uni-1发布后评论一片叫好甚至引来谷歌DeepMind首席科学家、Nano Banana项目技术负责人Oliver Wang点赞英伟达机器人主管Jim Fan也送上了祝福Uni-1效果到底有多炸话不多说来看更多图。解锁多元创作场景马年新春贺卡先来一个简单的测试生成一张马年新春贺卡要包含“新春快乐”、“马年大吉·万事如意”、“马年 二〇二六”等中文文字。Uni-1生成的贺卡文字内容完整、排版合理马的形象和中国传统剪纸风格高度一致。相比之下GPT Image 1.5出现了文字混乱Nano Banana Pro的文字渲染也有明显瑕疵。中文文字渲染一直是图像生成模型的“照妖镜”——Uni-1交出了一份相当能打的答卷。多参考图场景合成给模型5张参考图——两只猫、两位男士、Luma AI的logo——要求合成一个会议场景一只猫展示Luma AI幻灯片另一只猫旁听同时融入真人照片和logo。Uni-1精确还原了每张参考图的身份特征——猫的毛色花纹、男士的五官和发型、logo的细节——并将它们合理地组织进了同一个场景。GPT Image 1.5则把参考图片直接“贴”到了幻灯片上而Nano Banana Pro连基本的参考图融合都没做到。信息图提取给模型一张地铁站实拍的“THE BEES NEED YOU”公益海报要求提取为可直接用于生产的信息图——生成完整图片不带占位框准确还原信息图中所有可见文字。这个任务同时考验“看”和“画”两种能力先要理解实拍海报里的全部信息层级再要重新生成一张排版清晰的信息图。Uni-1准确还原了完整的海报布局、所有文字、正确配色以及黑色草地剪影和正确的纵横比。GPT Image 1.5部分文字颜色错误底部文字全部缺失野花种子和蜜蜂的logo也出了问题。Nano Banana Pro整体布局尚可但底部文字同样缺失。草稿转漫画再来看生成能力——把一张粗糙的草稿猫站在书架上旁边有人说”Hey! Get down from there!”转化为专业级漫画。Uni-1完美地将草稿意图转化为专业漫画分格构图、对话气泡的位置和方向都精准还原所有细节完整保留——猫耳朵、翘起的尾巴、卷烟缸、书架上的书甚至手机屏幕显示着911。钢琴前的一生6帧故事板下面可能是最能体现Uni-1实力的demo之一。要求生成6帧故事板展示同一个角色从童年到老年在钢琴前的一生。一个人从男孩到少年、到青年、到中年、到老年最后变成一家人在台上的大合照。6帧画面中角色身份保持一致——同一张脸钢琴、透视和画风不变仅人物形象和背景随时间变化。这种跨帧的角色一致性和时间叙事能力是当前图像模型的核心难题之一。UV贴图生成给模型一个人从不同角度拍摄的三张照片正面、左侧、右侧要求生成一张标准面部拓扑的展开UV贴图。UV贴图是3D建模中的核心环节对面部对齐、左右对称和肤色一致性要求极高。Uni-1生成的UV贴图在这三个维度上都明显优于GPT Image 1.5、Nano Banana ProGPT Image 1.5的正脸和侧面贴图出现了不一致Nano Banana Pro则完全没能生成符合标准UV布局规范的结果。能搞定这种专业级3D任务说明Uni-1不只是“画图好看”而是真正具备了对三维空间结构的深层理解。不到15人凭什么看完效果你可能会好奇这些通常只在大厂才能看到的结果到底是怎么从一个不到15人的团队手里做出来的答案或许就藏在这支团队的两位研究负责人身上。宋佳铭清华大学本科斯坦福大学博士。他最广为人知的贡献是发明了DDIMDenoising Diffusion Implicit Models。如果你用过任何基于扩散模型的图像生成工具从Stable Diffusion到DALL·E背后几乎都离不开DDIM带来的采样加速技术。这篇论文至今被引用超过万次并获得ICLR 2022 Outstanding Paper Award。沈博魁斯坦福大学本科及博士。他的代表作获得了CVPR 2018 Best Paper Award——CVPR是计算机视觉领域的顶级会议每年仅有极少数论文能获此殊荣。此外他还入选了RSS 2022 Best Student Paper Finalist。一位是扩散模型加速的奠基人一位是计算机视觉的顶尖研究者——两位华人学者联手带领一支精锐小队选择了一条和大厂截然不同的路线不是把理解和生成分开做而是用一个统一的模型把两件事一起搞定。统一模型给逻辑大脑长出“心灵之眼”Uni-1的核心理念用Luma自己的话说就是“给逻辑大脑长出心灵之眼”。传统路线下图像理解看图说话、物体检测和图像生成文生图、图像编辑是两套独立的系统。但Uni-1采用了一种decoder-only自回归Transformer架构将文本和图像表示在同一个交错序列中——既是输入也是输出。这意味着Uni-1不需要分别训练“理解模块”和“生成模块”而是在一个统一框架内同时建模时间、空间和逻辑。更有意思的是Luma发现生成训练能显著提升理解能力。换句话说当模型学会“画画”之后它“看图”的能力也变强了——这和人类的认知规律竟然高度一致。在推理式生成任务中Uni-1会在合成图像前进行结构化的内部推理先分解指令、规划构图然后再渲染输出。这种“先想后画”的能力让它在RISEBench评估时间推理、因果推理、空间推理和逻辑推理四个维度的基准测试上取得了世界最优成绩。在开放词汇密集检测ODinW-13基准上Uni-1同样展现出了强劲的竞争力——要知道这是一个传统上由纯理解模型主导的领域。一个统一模型能在理解任务上也不输专门的理解模型本身就已经是一个重要的信号。为什么这很重要把Uni-1放到更大的AI行业图景中看有两件事值得关注第一统一模型可能是下一代视觉AI的方向。当理解和生成不再是两个独立系统而是同一个模型的两面很多过去需要复杂pipeline的任务——多轮编辑、参考图合成、风格迁移——都可以在一个模型内优雅地完成。Uni-1已经在这些任务上展示了这种优势。第二顶尖AI研究不一定需要万人团队和无限算力。不到15人的华人研究团队在一个被Google和OpenAI主导的赛道上做出了世界级的成果。这再次证明在正确的技术路线上优秀的人才密度可以弥补资源的差距。Luma表示Uni-1只是第一步。下一阶段这个统一框架将从静态图像扩展到视频、语音、交互式世界模拟——最终目标是构建能够“看、说、推理、想象”的统一多模态系统。从一个不到15人的华人团队开始这个目标或许并不遥远。Luma AI官方博客https://lumalabs.ai/uni-1