选择你喜欢的标签
我们会为你匹配适合你的网址导航

    确认 跳过

    跳过将删除所有初始化信息

    您的位置:0XUCN > 资讯 > 智能
    新闻分类

    RynnEC – 阿里达摩院推出的世界理解模型

    智能 PRO 作者:皮皮猪骑着蚂蚁去看海 2025-08-12 19:06

    RynnEC是阿里巴巴达摩院推出的世界理解模型 (MLLM),专门用在具身认知任务。模型能从位置、功能、数量等11个维度全面解析场景中的物体,支持物体理解、空间理解以及视频目标分割等功能。RynnEC仅靠视频序列能建立连续的空间感知,无需3D模型,支持灵活交互。RynnEC为具身智能提供强大的语义理解能力,助力机器人更好地理解物理世界。

    RynnEC的主要功能

    物体理解:RynnEC能从多个维度(如位置、功能、数量等)解析场景中的物体,支持对物体的详细描述和分类。

    空间理解:基于视频序列建立连续的空间感知,支持3D感知,理解物体之间的空间关系。

    视频目标分割:根据文本指令实现视频中的目标分割,支持对特定区域或物体的精确标注。

    灵活交互:支持基于自然语言的交互,用户通过指令与模型进行实时沟通,获取反馈。

    RynnEC的技术原理

    多模态融合:将视频数据(包括图像和视频序列)与自然语言文本相结合,通过多模态融合技术,让模型能同时处理视觉和语言信息。用视频编码器(如 SigLIP-NaViT)提取视频特征,再用语言模型进行语义理解。

    空间感知:模型基于视频序列建立连续的空间感知,无需额外的3D模型。用时间序列信息和空间关系建模技术,让模型理解物体在空间中的位置和运动。

    目标分割:基于文本指令引导的视频目标分割技术,模型能根据用户的指令识别和分割视频中的特定目标。用掩码(mask)和区域标注技术,实现对视频帧中特定区域的精确分割。

    训练与优化:RynnEC 用大规模的标注数据进行训练,包括图像问答、视频问答和视频目标问答等多种格式。采用分阶段训练策略,逐步优化模型的多模态理解和生成能力。支持 LORA(Low-Rank Adaptation)技术,基于合并权重进一步优化模型性能。

    RynnEC的项目地址

    GitHub仓库:https://github.com/alibaba-damo-academy/RynnEC/

    RynnEC的应用场景

    家庭服务机器人:助力家庭机器人理解指令,精准定位并操作家庭环境中的物品,如“拿遥控器”,提升家居自动化水平。

    工业自动化:在工业场景中,帮助机器人识别和操作生产线上的物体,完成复杂任务,如“将红色零件放在蓝色托盘上”,提高生产效率。

    智能安防:通过视频监控实时跟踪目标,如“监控红色车辆”,增强安防系统的智能化和响应能力。

    医疗辅助:使医疗机器人能理解指令并执行任务,如“送药品到病房302”,提升医疗服务的精准性和效率。

    教育培训:通过视频分割技术辅助教学,如“显示细胞结构”,增强学生对复杂概念的理解和学习体验。

    0XU.CN

    [超站]友情链接:

    四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
    关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

    图库
    公众号 关注网络尖刀微信公众号
    随时掌握互联网精彩
    赞助链接