选择你喜欢的标签
我们会为你匹配适合你的网址导航

    确认 跳过

    跳过将删除所有初始化信息

    您的位置:0XUCN > 资讯 > 智能
    新闻分类

    xLLM – 京东开源的智能推理框架

    智能 PRO 稿源:AI工具集 2025-10-05 09:44

    xLLM是什么

    xLLM 是京东开源的高效智能推理框架,专为国产芯片优化,支持端云一体部署。框架用服务-引擎分离架构,服务层负责请求调度与容错,引擎层专注运算优化,具备多流并行、图融合、动态负载均衡等特性。xLLM 支持大模型、多模态模型及生成式推荐等多种场景,提供高性能、低成本的推理服务,助力智能客服、实时推荐、内容生成等业务高效落地,推动大语言模型在国产芯片上的规模化应用。

    xLLM的主要功能

    • 全图化 / 多层流水线执行编排:通过框架层异步解耦调度、模型图层计算通信异步并行及算子内核层深度流水优化,实现多层流水线执行编排,减少计算空泡并提升整体推理效率。

    • 动态 Shape 的图执行优化:用参数化与多图缓存方法实现动态尺寸适配,结合受管控的显存池和自定义算子集成,提升静态图灵活性并保障显存安全复用,优化动态输入处理性能。

    • MoE 算子优化:针对 MoE 模型,实现 GroupMatmul 和 Chunked Prefill 算子优化,分别提升计算效率和长序列输入的处理能力,增强模型推理性能。

    • 高效显存优化:采用离散物理内存与连续虚拟内存的映射管理,按需分配内存空间,智能调度内存页复用,减少内存碎片与分配延迟,适配国产芯片算子,提升显存利用效率。

    • 全局多级 KV Cache 管理:实现多级缓存的 KV 智能卸载与预取,构建以 KV Cache 为中心的分布式存储架构,优化多节点间 KV 的智能传输路由,提升缓存效率和数据传输性能。

    • 算法优化:通过投机推理优化和 MoE 专家动态负载均衡,实现多核并行提升效率,动态调整专家分布,优化算法性能,提升推理吞吐量和负载均衡能力。

    如何使用xLLM

    • 环境准备

      • 下载镜像:根据硬件设备(如 A2、A3 等)和架构(x86 或 arm),选择合适的 Docker 镜像。例如,对于 A2 设备(x86 架构),可以下载 xllm/xllm-ai:0.6.0-dev-hb-rc2-x86 镜像。如果下载失败,尝试备用源 quay.io/jd_xllm/xllm-ai:0.6.0-dev-hb-rc2-x86。

      • 创建容器:创建启动容器时,需要挂载必要的设备和目录,确保容器能访问硬件资源和数据。包括设备文件(如 /dev/davinci0、/dev/davinci_manager 等)、模型文件路径、驱动路径等。

    • 安装编译

      • 编译生成可执行文件:运行编译命令,生成可执行文件。默认情况下,编译目标是 A2 设备。如果需要编译为其他设备(如 A3 或 MLU),通过添加参数指定设备类型。

      • 生成 whl 包:如果需要生成 Python 的 whl 包,运行相应的编译命令,生成的 whl 包将保存在 dist/ 目录下。

      • 克隆仓库:进入容器后,克隆 xLLM 的官方仓库,初始化子模块。

      • 配置 vcpkg:如果镜像中没有预装 vcpkg,手动克隆 vcpkg 仓库,设置环境变量 VCPKG_ROOT 指向 vcpkg 的安装路径。

      • 安装 Python 依赖:用清华大学的 Python 镜像源安装 xLLM 所需的 Python 依赖,升级 setuptools 和 wheel。

      • 安装依赖

      • 编译

    • 模型加载

      • 准备模型文件:将模型文件准备好,放置在容器可以访问的路径中,例如 /mnt/cfs/9n-das-admin/llm_models。

      • 加载模型:使用 xLLM 提供的接口加载模型。模型加载后,即可进行推理任务。

    • 推理调用:通过 xLLM 提供的推理接口,输入文本或其他数据,即可获得推理结果。推理接口根据加载的模型进行计算,返回结果。

    xLLM的项目地址

    • 项目官网:https://xllm.readthedocs.io/

    • GitHub仓库:https://github.com/jd-opensource

    xLLM的应用场景

    • 智能客服:快速响应用户咨询,提供准确的解答和建议,提升客户满意度和客服效率。

    • 实时推荐:基于用户行为数据,实时生成个性化推荐内容,提高用户参与度和转化率。

    • 内容生成:xLLM 能生成高质量的文本内容,如新闻、文章、创意文案等,助力内容创作。

    • 多模态应用:支持多模态模型(如文本 + 图像),用在图像描述生成、视觉问答等场景。

    • 生成式推荐:结合生成式技术,生成更丰富、更个性化的推荐结果,提升用户体验。

    0XU.CN

    [超站]友情链接:

    四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
    关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

    图库
    公众号 关注网络尖刀微信公众号
    随时掌握互联网精彩
    赞助链接