JoyAI-Image 是什么?

JoyAI-Image 是京东(jd-opensource)开源的统一多模态基础模型,把图像理解、文生图、指令式图像编辑三件事放进一个模型家族:用一个 8B 多模态大语言模型(MLLM)+ 16B 多模态扩散 Transformer(MMDiT)协同。它的核心理念是『理解 / 生成 / 编辑相互促进』——更强的空间理解让 grounded 生成与可控编辑更准,而视角变换等生成式变换又为空间推理提供补充证据。强项在空间智能、长文本排版渲染、多视角生成与可控编辑。Apache-2.0,权重在 Hugging Face/ModelScope,配 diffusers/ComfyUI 集成。它是模型发布(含推理代码)而非应用产品。

⭐ 2,094 Stars 🍴 146 Forks Python Apache-2.0 作者: jd-opensource
来源:README JoyAI-Image/Highlights/Model Zoo;GitHub desc,license Apache-2.0 查看 GitHub 仓库 →

为什么值得关注

约 2.2k 星,热度来自京东出品的统一多模态模型这一分量,加上它押注了几个当下热点:理解+生成+编辑统一、空间智能(多视角/几何感知编辑)、以及难做的长文本/多语言排版渲染。在 GPT-Image-2 等闭源模型把『文字渲染、空间一致性』抬高后,一个开源、可下权重、可本地跑、强调空间编辑与长文排版的国产基础模型对研究者和工程师很有吸引力。

来源:GitHub 2,151 stars / 150 forks,created 2026-03-31;README Highlights

核心功能

理解+生成+编辑统一模型家族

通过共享的 MLLM-MMDiT 接口,一个模型家族覆盖多模态理解、文生图与指令式编辑;8B MLLM 负责理解与指令分解,16B MMDiT 负责生成/编辑,三者相互促进。

来源:README JoyAI-Image/Highlights(Unified multimodal foundation)
空间智能与可控空间编辑

强空间理解 + 可控空间编辑 + 新视角辅助推理:支持多视角生成、几何感知变换、相机控制、物体旋转、按位置精确编辑,并尽量保持场景内容、结构与视觉一致性。

来源:README Highlights(Awakened spatial intelligence)/Multi-view Showcase
高级长文本排版渲染

针对文字密集场景优化:多格漫画、密集多行文本、多语言排版、长版式布局、真实场景文字、手写风格等,长文排版与布局保真是其卖点之一。

来源:README Advanced Text Rendering Showcase/Highlights
模型 Zoo(部分已放出)

JoyAI-Image-Und(理解骨干)与 JoyAI-Image-Edit(指令式编辑,已在 HF/ModelScope 发布)可用;Edit-Distilled(更快)、Edit-Plus(多图编辑)、JoyAI-Image(文生图)标注 To be released。

来源:README Model Zoo
开放数据与训练配方 + 生态集成

公开了可扩展的数据与训练管线——空间理解数据(OpenSpatial)、长文渲染数据、编辑数据(SpatialEdit)与多阶段优化策略;配 diffusers/ComfyUI 集成与推理脚本(inference.py / inference_und.py)。

来源:README Highlights(Practical data and training recipe);joyai_image_diffusers_comfyui/

技术架构

模型发布型仓库(Python + 权重托管在 HF/ModelScope)。架构核心是 8B MLLM(多模态理解,做场景解析、关系 grounding、指令分解)+ 16B MMDiT(多模态扩散 Transformer,做生成与编辑),二者经共享接口协同——理解强化生成与编辑、生成式变换反哺空间推理,形成双向促进。仓库提供 inference.py(生成/编辑)与 inference_und.py(理解)两套推理入口,src/ 是模型与管线代码,joyai_image_diffusers_comfyui/ 是 diffusers 与 ComfyUI 集成,test_images/ 与 assets/ 放示例。配套开放了 OpenSpatial(空间理解数据/代码)、SpatialEdit(编辑数据)与长文渲染数据及多阶段训练配方。整体是『统一 MLLM+MMDiT 基础模型 + 开放数据/训练配方 + 推理脚本/生态集成』的开源多模态模型工程,部分子模型已放出、部分待发布。

来源:README JoyAI-Image/Highlights/Quick Start;tree(inference*.py、src/、joyai_image_diffusers_comfyui/)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) MLLM(理解)+ MMDiT(生成/编辑)MLLM(理解)+ M… diffusers / ComfyUI(集成)diffusers / Co… Hugging Face / ModelScope(权重)Hugging Face /… OpenSpatial / SpatialEdit(数据)OpenSpatial /… PyTorch(推理) 理解+生成+编辑统一模型家族理解+生成+编辑统一模… 空间智能与可控空间编辑 高级长文本排版渲染 模型 Zoo(部分已放出) 开放数据与训练配方 + 生态集成开放数据与训练配方 +… JoyAI-Image 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python框架8B MLLM + 16B MMDiT(多模态扩散)
MLLM(理解)+ MMDiT(生成/编辑)diffusers / ComfyUI(集成)Hugging Face / ModelScope(权重)OpenSpatial / SpatialEdit(数据)PyTorch(推理)
需 GPU 本地推理(8B+16B 模型对显存有要求);权重从 HF/ModelScope 下载;可接 ComfyUI
来源:README JoyAI-Image/Quick Start/Model Zoo;requirements.txt

快速上手

按 README Quick Start:先做环境配置(装依赖),从 Hugging Face/ModelScope 下载对应模型权重(理解用 JoyAI-Image-Und,编辑用 JoyAI-Image-Edit,已发布)。推理:`inference.py` 跑生成/编辑、`inference_und.py` 跑理解;空间编辑可参考 README 的 Spatial Editing Reference 示例。也可经 joyai_image_diffusers_comfyui 接 diffusers/ComfyUI 工作流。文生图主模型与 Edit-Plus/Distilled 等仍 To be released,需关注后续。需要足够显存来跑 8B+16B 规模的模型。
来源:README Quick Start/Model Zoo

使用场景

适合:①做图像理解+生成+编辑统一研究、或需要可下权重本地跑的开源多模态基础模型的研究者与工程师;②需要强空间编辑(多视角、几何变换、按位置精确改物体)与长文本/多语言排版渲染的图像应用;③想基于其开放数据(OpenSpatial/SpatialEdit)与训练配方做二次研究的人;④接 ComfyUI 工作流的创作者。不适合:没有足够 GPU 显存的人;想要开箱即用云端 SaaS、不愿下权重自部署的用户;以及需要等文生图主模型/多图编辑(仍未发布)的场景。

来源:README Highlights/Model Zoo,结合定位推断

优势与局限

优势

  • 统一多模态:一个家族做理解+生成+编辑,并以理解与生成相互促进为设计核心,路线有想法
  • 空间编辑是差异点:多视角、几何感知、相机控制、按位置精确编辑,并尽量保结构一致性
  • 长文本排版渲染强:多格漫画、密集多行、多语言、手写等难场景做了优化
  • 开放彻底:权重在 HF/ModelScope、Apache-2.0,且公开了 OpenSpatial/SpatialEdit 数据与训练配方
  • 京东出品 + diffusers/ComfyUI 集成,便于研究与接入

局限

  • 模型 Zoo 部分关键件仍 To be released(文生图主模型、Edit-Plus 多图编辑、蒸馏版),当前主要是理解与单图编辑可用
  • 8B+16B 规模对 GPU 显存要求高,本地部署门槛不低
  • 能力对比/雷达多为自述展示,实际质量与闭源前沿模型的差距需独立评测
  • 生成式模型固有问题(细节、文字偶发错乱、一致性)仍可能出现,需人工筛
  • 项目较新(2026-03),生态、工具链与长期维护仍待积累
来源:README Model Zoo/Highlights;模型规模与发布状态推断

最新版本

仓库无传统 GitHub Release,以模型权重(HF/ModelScope)+ 推理代码形式发布;JoyAI-Image-Und 与 JoyAI-Image-Edit 已放出,Edit-Distilled/Edit-Plus 与文生图主模型标注待发布。仓库最近 push 2026-05-09(创建于 2026-03-31),处于分阶段放模型的早期阶段。

来源:GitHub Model Zoo(已发布/待发布);pushed_at 2026-05-09

总结评价

JoyAI-Image 是京东在『统一多模态基础模型』上的一次有分量的开源:一个家族同时做理解、文生图和指令编辑,并把理解与生成相互促进、空间智能和长文排版当作主打,还大方公开了数据与训练配方,对研究者很友好,2.2k 星合理。但要看清现状:当前真正可用的主要是理解骨干和单图编辑,文生图主模型、多图编辑、蒸馏版都还没放出;8B+16B 的规模对显存要求高,能力对比也多为自述、需独立评测。对做多模态研究、想要可下权重并基于其数据二次研究、尤其关注空间编辑与长文渲染的人,它很值得跟进;想要开箱即用或等齐全套模型的人则需再等。

来源:综合 README 定位/能力/Model Zoo、tree 工程结构、发布状态的事实判断
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-23 00:20. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件