Manzano – 苹果推出的图像理解和生成模型

智能 PRO 稿源：AI工具集 2025-10-05 18:02

Manzano是什么

Manzano是苹果公司推出的新型多模态大语言模型（LLM），能同时实现图像理解和图像生成的统一。模型通过混合视觉分词器（hybrid vision tokenizer）将图像转化为连续的嵌入向量用于理解任务，及离散的图像标记用在生成任务。Manzano的核心是自回归的LLM解码器，能预测文本和图像标记。Manzano配备一个扩散解码器（diffusion decoder），用在将生成的图像标记转化为像素级别的图像。使Manzano在理解任务和生成任务上都表现出色，同时在模型规模扩大时，性能会相应提升。

Manzano的主要功能

图像理解：模型能理解图像内容，回答与图像相关的问题。
图像生成：根据文本提示生成高质量的图像。模型支持复杂的文本指令，能生成具有创意和细节的图像。
图像编辑：支持基于文本指令的图像编辑，包括风格转换、局部修改、内容扩展等。
多模态交互：结合文本和图像信息，支持复杂的多模态任务，如图文混合的问答和创作。

Manzano的技术原理

混合视觉分词器（Hybrid Vision Tokenizer）：

连续嵌入：用在图像理解任务，将图像编码为连续的嵌入向量，保留丰富的语义信息。
离散标记：用在图像生成任务，将图像编码为离散的标记，便于自回归生成。

自回归LLM解码器（Autoregressive LLM Decoder）：统一处理文本和图像标记，预测下一个标记（无论是文本还是图像）。模型支持多模态任务的联合学习，能同时处理理解任务和生成任务。
扩散解码器（Diffusion Decoder）：将生成的离散图像标记转化为像素级别的图像。用扩散模型的强大生成能力，确保生成图像的高质量和细节。
统一训练框架（Unified Training Framework）：在大规模文本和图像数据上进行预训练，学习通用的语言和视觉表示。模型在高质量的数据子集上进一步训练，提升模型性能。在特定任务的数据上进行微调，增强模型在具体任务上的表现。