
xLLM – 京东开源的智能推理框架
xLLM是什么
xLLM 是京东开源的高效智能推理框架,专为国产芯片优化,支持端云一体部署。框架用服务-引擎分离架构,服务层负责请求调度与容错,引擎层专注运算优化,具备多流并行、图融合、动态负载均衡等特性。xLLM 支持大模型、多模态模型及生成式推荐等多种场景,提供高性能、低成本的推理服务,助力智能客服、实时推荐、内容生成等业务高效落地,推动大语言模型在国产芯片上的规模化应用。
xLLM的主要功能
全图化 / 多层流水线执行编排:通过框架层异步解耦调度、模型图层计算通信异步并行及算子内核层深度流水优化,实现多层流水线执行编排,减少计算空泡并提升整体推理效率。
动态 Shape 的图执行优化:用参数化与多图缓存方法实现动态尺寸适配,结合受管控的显存池和自定义算子集成,提升静态图灵活性并保障显存安全复用,优化动态输入处理性能。
MoE 算子优化:针对 MoE 模型,实现 GroupMatmul 和 Chunked Prefill 算子优化,分别提升计算效率和长序列输入的处理能力,增强模型推理性能。
高效显存优化:采用离散物理内存与连续虚拟内存的映射管理,按需分配内存空间,智能调度内存页复用,减少内存碎片与分配延迟,适配国产芯片算子,提升显存利用效率。
全局多级 KV Cache 管理:实现多级缓存的 KV 智能卸载与预取,构建以 KV Cache 为中心的分布式存储架构,优化多节点间 KV 的智能传输路由,提升缓存效率和数据传输性能。
算法优化:通过投机推理优化和 MoE 专家动态负载均衡,实现多核并行提升效率,动态调整专家分布,优化算法性能,提升推理吞吐量和负载均衡能力。
如何使用xLLM
环境准备:
下载镜像:根据硬件设备(如 A2、A3 等)和架构(x86 或 arm),选择合适的 Docker 镜像。例如,对于 A2 设备(x86 架构),可以下载 xllm/xllm-ai:0.6.0-dev-hb-rc2-x86 镜像。如果下载失败,尝试备用源 quay.io/jd_xllm/xllm-ai:0.6.0-dev-hb-rc2-x86。
创建容器:创建启动容器时,需要挂载必要的设备和目录,确保容器能访问硬件资源和数据。包括设备文件(如 /dev/davinci0、/dev/davinci_manager 等)、模型文件路径、驱动路径等。
安装编译:
编译生成可执行文件:运行编译命令,生成可执行文件。默认情况下,编译目标是 A2 设备。如果需要编译为其他设备(如 A3 或 MLU),通过添加参数指定设备类型。
生成 whl 包:如果需要生成 Python 的 whl 包,运行相应的编译命令,生成的 whl 包将保存在 dist/ 目录下。
克隆仓库:进入容器后,克隆 xLLM 的官方仓库,初始化子模块。
配置 vcpkg:如果镜像中没有预装 vcpkg,手动克隆 vcpkg 仓库,设置环境变量 VCPKG_ROOT 指向 vcpkg 的安装路径。
安装 Python 依赖:用清华大学的 Python 镜像源安装 xLLM 所需的 Python 依赖,升级 setuptools 和 wheel。
安装依赖:
编译:
模型加载:
准备模型文件:将模型文件准备好,放置在容器可以访问的路径中,例如 /mnt/cfs/9n-das-admin/llm_models。
加载模型:使用 xLLM 提供的接口加载模型。模型加载后,即可进行推理任务。
推理调用:通过 xLLM 提供的推理接口,输入文本或其他数据,即可获得推理结果。推理接口根据加载的模型进行计算,返回结果。
xLLM的项目地址
项目官网:https://xllm.readthedocs.io/
GitHub仓库:https://github.com/jd-opensource
xLLM的应用场景
智能客服:快速响应用户咨询,提供准确的解答和建议,提升客户满意度和客服效率。
实时推荐:基于用户行为数据,实时生成个性化推荐内容,提高用户参与度和转化率。
内容生成:xLLM 能生成高质量的文本内容,如新闻、文章、创意文案等,助力内容创作。
多模态应用:支持多模态模型(如文本 + 图像),用在图像描述生成、视觉问答等场景。
生成式推荐:结合生成式技术,生成更丰富、更个性化的推荐结果,提升用户体验。
[超站]友情链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/

随时掌握互联网精彩
- 1 跟着总书记一起厚植文化底蕴 7904134
- 2 全世界都知道中国人放假了 7809669
- 3 央视秋晚7大神级现场 7712335
- 4 60秒延时摄影赏中秋月 7617503
- 5 游客投喂胡萝卜 羊驼:真吃不动了 7522977
- 6 谢娜首次主持央视秋晚 7429208
- 7 交警大队中队长执法现场被撞牺牲 7328042
- 8 2025年诺贝尔生理学或医学奖揭晓 7239086
- 9 千万网友催更 杭州公安霸总短剧火了 7137756
- 10 闫妮央视秋晚没有微醺 7042569