选择你喜欢的标签
我们会为你匹配适合你的网址导航

    确认 跳过

    跳过将删除所有初始化信息

    您的位置:0XUCN > 资讯 > 智能
    新闻分类

    Gemma3最轻量化的LLM开源模型

    智能 PRO 作者:mollyredwolf 2025-05-28 02:22

    Google的Gemma系列开源模型迎来更新,发布了针对多模态、长上下文优化的 Gemma 3,27B 版本性能比肩Gemini-1.5-Pro:

    使用世界上最好的单加速器模型进行构建: Gemma 3 以其尺寸提供最先进的性能,在 LMArena 排行榜的初步人类偏好评估中胜过 Llama3-405B、DeepSeek-V3 和 o3-mini。这可以帮助您创建可安装在单个 GPU 或 TPU 主机上的引人入胜的用户体验。

    以 140 种语言走向全球:构建使用客户语言的应用程序。Gemma 3 提供对超过 35 种语言的开箱即用支持和对超过 140 种语言的预训练支持。

    打造具备高级文本和视觉推理能力的AI:轻松构建分析图片、文本、短视频等应用,开启交互智能化新可能1。

    使用扩展的上下文窗口处理复杂任务: Gemma 3 提供 128k 令牌上下文窗口,让您的应用程序处理和理解大量信息。

    使用函数调用创建 AI 驱动的工作流程: Gemma 3 支持函数调用和结构化输出,以帮助您自动执行任务并构建代理体验。

    通过量化模型更快地实现高性能: Gemma 3 引入了官方量化版本,减少了模型大小和计算要求,同时保持了高精度。

    Gemma 3 的背景和动机

    发表时间:2025年3月(技术报告,非正式发表)。

    研究问题:在Gemma 2的基础上,进一步提升模型的性能,并增加多模态(图像理解)、长文本处理和多语言支持能力。

    核心目标

    硬件适配性:在消费级硬件(手机、笔记本)上高效运行。

    性能提升:通过架构改进和训练优化,使4B参数的指令调优模型(Gemma3-4B-IT)性能接近Gemma2-27B-IT,27B模型(Gemma3-27B-IT)对标Gemini-1.5-Pro。

    研究背景

    多模态融合的需求:现实世界的信息通常以多种形式存在(如文本、图像等),如何让模型理解和处理多模态信息成为一个重要的研究方向。

    长文本处理的挑战:LLM在处理长文本时,面临着计算复杂度高、信息丢失等问题。

    多语言支持的重要性:为了让LLM更好地服务于全球用户,需要提升其多语言处理能力。

    Gemma 3 的相关研究

    Gemma 2:Gemma 3是Gemma 2的升级版,Gemma 2在性能和效率上都有不错的表现,但多模态、长文本和多语言能力有待加强。

    Gemini系列模型:Gemma 3在设计上与Gemini系列模型密切相关,但Gemini是规模更大的前沿模型,Gemma 3旨在实现与Gemini相近的性能,同时保持轻量化。

    SigLIP:Gemma 3采用了SigLIP视觉编码器,但需要针对Gemma的特点进行调整和优化,以降低图像处理的计算成本。

    LLaVA:Gemma 3借鉴了LLaVA的Pan & Scan方法,以支持处理任意分辨率的图像,但需要在Gemma中进行适配和改进。

    其他长文本处理方法:现有长文本处理方法(如增加local attention layers)在降低KV缓存的内存占用方面有一定效果,但可能会影响模型性能,需要在Gemma 3中进行权衡。

    Gemma 3 的核心思路

    Gemma 3的核心思路是在Gemma 2的基础上,通过以下方式提升模型性能并增加多模态、长文本处理和多语言支持能力:

    多模态

    采用SigLIP视觉编码器,将图像转换为token序列,使LLM能够处理图像信息。

    通过Pan & Scan方法,支持处理任意分辨率的图像。

    长文本处理

    增加上下文窗口大小到128K tokens(1B模型为32K)。

    采用局部/全局注意力混合结构,降低KV缓存的内存占用。

    多语言支持

    使用与Gemini 2.0相同的tokenizer,更好地支持非英语语言。

    增加多语言训练数据,并采用Unimax策略处理语言不平衡问题。

    知识蒸馏:使用知识蒸馏技术,将大型教师模型的知识迁移到小型学生模型中,提升模型性能。

    后训练:采用一种新颖的后训练方法,提升模型在数学、推理、聊天、指令跟随和多语言等方面的能力。

    采用监督微调(SFT)和强化学习人类反馈(RLHF)等技术,使模型更好地遵循指令。

    使用权重平均奖励模型(WARM)等方法,提升模型的helpful, instruction-following, and multilingual abilities。

    量化感知训练

    对模型进行量化,以减少内存占用和计算成本。

    采用Quantization Aware Training (QAT)方法,在训练过程中模拟量化,以减少量化带来的性能损失。

    Gemma 3 的实验结论

    实验设计

    在多个benchmark上进行评测,包括MMLU、LiveCodeBench、MATH等,以评估模型的通用能力。

    在LMSYS Chatbot Arena上进行人类评估,以评估模型的对话能力。

    进行消融实验,分析不同技术对模型性能的影响。

    实验结果

    长上下文验证:在RULER和MRCR基准测试中,128K上下文下Gemma 3-27B的KV缓存内存仅为纯全局注意力模型的15%。

    多模态评估:DocVQA任务中,Gemma3-27B-IT达到90.4 ANLS,较Gemma2提升18.6%。

    多语言能力:Global-MMLU-Lite基准上,Gemma3-27B准确率75.7%,优于Gemma2-27B的69.4%。

    消融实验表明,局部/全局注意力混合结构可以在降低KV缓存内存占用的同时,保持模型性能。

    Pan & Scan方法可以有效提升模型处理任意分辨率图像的能力。

    知识蒸馏中,大教师模型在长训练周期下优于小教师。

    Gemma 3 的缺点和不足

    视觉局限:固定分辨率编码器导致高分辨率图像细节丢失(如TextVQA任务中文本识别误差)。

    量化精度损失:Int4量化使27B模型在MATH基准准确率从89.0%降至83.2%。

    多语言不平衡:低资源语言(如印地语)性能仍落后英语20%以上。

    长文本处理的trade-off:为了降低KV缓存的内存占用,Gemma 3采用了局部/全局注意力混合结构,但这可能会限制模型捕捉长距离依赖关系的能力,需要在实际应用中进行权衡。

    知识污染的风险:文章提到,尽管使用了decontamination技术,但仍然存在benchmark被污染的风险,这可能会影响评估结果的准确性。


    0XU.CN

    [超站]友情链接:

    四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
    关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

    图库
    公众号 关注网络尖刀微信公众号
    随时掌握互联网精彩
    赞助链接