原文来源:GenAI新世界
作者|油醋
图片来源:由无界 AI生成
从OpenAI的GPT-4V到谷歌的Gemini,逼着AI写诗的人少了,多模态大模型(MLLM)成了新的香饽饽。一篇关于多模态大模型的综述很好的概括了其相比于LLM的优越:
- MLLM更符合人类感知世界的方式。作者人类自然地接受多感官输入,这些输入往往是互补和合作的。因此,多模态信息有望使MLLM更加智能;
- MLLM提供了一个更用户友好的界面。得益于多模态输入的支持,用户可以以更灵活的方式与智能助手进行交互和交流;
- MLLM是一个更全面的任务解决者。虽然LLM通常可以执行NLP任务,但MLLM通常可以支持更大范围的任务。
于是相比于纯粹的Coding能力,人们更期待AI能直接把一个白板上的数学公式变成代码,能拆解一张复杂的电路图并且变成一份组装说明,甚至能自己给一段足球视频配上解说。
近日,智源研究院发布了新一代的多模态基础模型——Emu2。
以智源人工智能研究院的总工程师林咏华的话来说,这个瞩目的开源项目是智源视觉大模型团队的“年度压轴”。
今年8月,智源研究院提出了一种新的多模态大模型训练范式,发布并开源了首个打通从多模态输入到多模态输出的统一多模态预训练模型Emu。Emu发布4个月,在GitHub上积累了720颗星,而此次Emu2发布不到一周就收获了300颗星,这个项目现在的星标已经过千。
图源:GitHub
相较2023年7月发布(8月开源)的第一代「多模态to多模态」Emu模型,Emu2使用了更简单的建模框架,训练了从编码器语义空间重建图像的解码器、并把模型规模化到37B参数实现模型能力和通用性上的突破。
值得一提的是,Emu2是目前最大参数的开源生成式多模态模型。
它在大规模多模态序列上延续采用大量图、文、视频的序列,进行了统一的自回归目标训练,将图像、视频等模态的token序列直接和文本token序列交错在一起输入到模型中训练。从模型表现上来看,Emu2展示了强大的多模态上下文学习能力,甚至能够解决需要即时推理的任务,如视觉提示和基于对象的生成。在少样本设置下,Emu2在多个多模态理解任务中创造了新的记录。
图源:智源研究院
智源研究院的测试结果显示,Emu2在少样本多模态理解任务上大幅超越Flamingo-80B、IDEFICS-80B等主流多模态预训练大模型,在包括VQAv2、OKVQA、MSVD、MM-Vet、TouchStone在内的多项少样本理解、视觉问答、主体驱动图像生成等任务上取得最优性能。
而当根据特定指令进行调整时,Emu2在大型多模态模型的问题回答基准测试和开放式主题驱动生成等具有挑战性的任务上进一步实现了新的最佳状态。
基于Emu2微调的Emu2-Chat和Emu2-Gen模型分别是目前开源的性能最强的视觉理解模型和能力最广的视觉生成模型。Emu2-Chat可以精准理解图文指令,实现更好的信息感知、意图理解和决策规划。Emu2-Gen可接受图像、文本、位置交错的序列作为输入,实现灵活、可控、高质量的图像和视频生成。
这些成就表明Emu2可以作为基础模型和通用接口,服务于广泛的多模态任务。代码和模型已公开,以促进未来的研究。目前Emu2的模型、代码均已开源,并提供Demo试用。
强势的理解和生成能力
通过对多模态理解和生成能力的定量评测,Emu2在包括少样本理解、视觉问答、主体驱动图像生成在内的多个任务上取得最优性能。在少样本评测上,Emu2在各个场景下显著超过Flamingo-80B,例如在16-shot TextVQA上较Flamingo-80B 超过12.7个点。
图源:智源研究院
经过指令微调的Emu2可以对图像和视频输入进行自由问答,以统一模型在VQAv2、OKVQA、MSVD、MM-Vet、TouchStone等十余个图像和视频问答评测集上取得最优性能。
图源:智源研究院
在零样本的DreamBench主体驱动图像生成测试上,Emu2在较此前方法取得显著提升,在视觉上更接近于真实图像,以及在主题和风格上的多样性和创造性。例如比Salesforce的BLIP-Diffusion的CLIP-I分数高7.1%, 比微软的Kosmos-G的DINO分数高7.2%。
DreamBench是一个用于评估文本到图像生成模型的基准测试,它包含了多种类型的图像编辑任务,如重新上下文化、风格化、修改、区域可控生成和多实体组合等。
Emu2-Gen在DreamBench上展示了其在零样本设置下的多模态生成能力。它能够接受文本、位置和图像的混合输入,并在上下文中生成图像。Emu2-Gen在DreamBench上的表现表明了其在多模态生成任务中的优越性能,比如它能够根据单一图像输入重建主体,并在零样本设置下通过强大的视觉解码能力展示出色的主体忠实度。
主体忠实度(subject fidelity)是一个衡量图像生成模型在生成图像时保持输入图像中主体特征准确性的指标。在图像编辑或生成任务中,如果模型能够准确地保留或重现输入图像中的主体元素,如人物、动物、物体等,那么就可以认为模型具有高主体忠实度。
图源:智源研究院
多模态上下文学习
上下文学习能力是LLM涌现出的重要能力之一,而当我们谈论多模态大模型时,ICL也就扩展到了多模态ICL(M-ICL)。
生成式预训练完成后,Emu2 具备全面且强大的多模态上下文学习能力。关于Emu2的论文中展示了几个例子,模型可以照猫画虎的完成对应理解和生成任务。例如在上下文中描述图像、在上下文中理解视觉提示(覆盖图像上的红圈)、在上下文中生成类似风格的图像、在上下文中生成对应主体的图像等。
App Agent看上去很棒
值得一提的是,在训练过程中Emu2使用了多样化的数据集,包括图像-文本对、视频-文本对和交错的图像-文本数据。这种数据的多样性有助于模型学习到更广泛的多模态表示,并提高其在不同任务上的适应性。而通过平均池化将图像分割成小块并与文本标记交错的方法,Emu2的模型结构得以简化,并提高了效率。
强大的看图说话能力
下面来谈谈Emu2-Chat。
Emu2-Chat的设计目标是成为一个能够进行多模态对话的智能体,也是目前我们能够理解的最熟悉的多模态大模型的形态。经过对话数据指令微调的Emu2-Chat,可以精准理解图文指令、更好的完成多模态理解任务。
比如它可以分辨多边形:
图源:智源研究院
读机场指引:
图源:智源研究院
甚至可以评估一场车祸的严重程度:
图源:智源研究院
Emu2-Gen的图像生成有惊喜
经过高质量图像微调的Emu2-Gen,可以接受图像、文本、位置交错的序列作为输入,生成对应的高质量图像,这样的灵活性带来高可控性。例如,生成指定位置、指定主体的熊和向日葵:
图源:智源研究院
生成指定位置、指定主体、指定风格的宠物狗和小鸸鹋的合影图像:
图源:智源研究院
更多的根据图文序列生成的例子:
图源:智源研究院
甚至可以生成视频了
进一步的,Emu2支持基于任意prompt序列的视频生成。
具体来说,Emu2通过训练一个基于扩散模型的视频解码器来生成视频。这个解码器是在一个扩散模型框架内进行训练的,它能够将视觉编码器处理图像后得到的连续向量表示解码为视频帧序列,这种训练方法允许模型在不依赖语言模型的情况下,学习如何将视觉信息转换为连续的视频帧。
基于文本、图文交错、图文位置交错的序列,Emu2可以生成对应的高质量视频。
图源:智源研究院
这份新年礼物,AI爱好者们觉得怎么样呢?
*参考资料:
Generative Multimodal Models are In-Context Learnershttps ,arxiv.org/abs/2312.13286
《Emu2:新一代生成式多模态模型》,智源研究院