分享文章
小红书开源最新多模态大模型dots.vlm1:性能跃升顶尖梯队
据媒体媒体报道,小红书人文智能实验室(Humane Intelligence Lab,简称 HI Lab)凭借其独特的多模态技术崭露头角。
近日,该实验室宣布开源其最新的视觉语言模型dots.vlm1,此举不仅彰显了其技术自研的坚定决心,也为多模态AI领域注入了新活力。

作为HI Lab首个开源的多模态大模型,dots.vlm1基于全自研的12亿参数NaViT视觉编码器和 DeepSeek V3 大语言模型构建而成。它在视觉理解与推理任务上展现出接近业界领先水平的能力,同时在纯文本任务中也保持了相当的竞争力。dots.vlm1的出现,突破了当前AI模型多聚焦于文本处理的局限,为多模态AI的发展开辟了新路径。
在实际测试中,dots.vlm1的表现令人印象深刻。该模型能够精准识别空间关系、解析复杂图表、解答数独问题,甚至能理解和完成高考数学题。其图像识别能力同样强大,无论是常见物体还是冷门图片,都能准确识别并给出详尽解释。例如,在面对经典的红绿色盲数字测试图时,dots.vlm1一次性全部答对,在颜色和形状识别上都表现出极高的准确性。
除了卓越的视觉与推理能力,dots.vlm1在文本生成方面也表现突出。它能够模仿李白诗风,创作出描述刘慈欣《诗云》中“诗云”意象的诗歌,作品意境深远、用词精准,充分展现了其文本创作实力。
dots.vlm1的成功,源于HI Lab对技术自研的持续投入。该实验室由小红书内部大模型技术与应用产品团队合并升级而来,专注于探索多元智能形态。通过融合人际智能、空间智能、音乐智能及人文关怀等维度,HI Lab不断拓展人机交互的边界,为AI技术发展注入新动能。
在dots.vlm1的开发中,HI Lab采用了严谨的三阶段训练流程:首先对NaViT视觉编码器进行预训练,最大化其对多样视觉数据的感知能力;随后将视觉编码器与DeepSeek V3大语言模型联合训练,利用大规模、多样化多模态数据集;最后通过有监督微调进一步提升模型的泛化能力。这一流程确保了dots.vlm1在视觉与文本领域均能出色发挥。
值得关注的是,dots.vlm1的开源不仅为AI研究者提供了宝贵资源,更积极推动了多模态AI技术的进步。在当前竞争激烈的AI领域,小红书HI Lab此举为行业树立了新标杆。随着dots.vlm1的持续完善和应用场景的不断拓展,其有望在更多领域释放巨大潜力。

[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675

![是头倔驴:她们 诋毁你 却又想成为你[憧憬] ](https://imgs.knowsafe.com:8087/img/aideep/2021/8/16/eb1598343043bb45b7f4740ecf1cf7f6.jpg?w=204)





过了期的笑容
