JoyAI-Image 是京东(jd-opensource)开源的统一多模态基础模型,把图像理解、文生图、指令式图像编辑三件事放进一个模型家族:用一个 8B 多模态大语言模型(MLLM)+ 16B 多模态扩散 Transformer(MMDiT)协同。它的核心理念是『理解 / 生成 / 编辑相互促进』——更强的空间理解让 grounded 生成与可控编辑更准,而视角变换等生成式变换又为空间推理提供补充证据。强项在空间智能、长文本排版渲染、多视角生成与可控编辑。Apache-2.0,权重在 Hugging Face/ModelScope,配 diffusers/ComfyUI 集成。它是模型发布(含推理代码)而非应用产品。
来源:README JoyAI-Image/Highlights/Model Zoo;GitHub desc,license Apache-2.0 查看 GitHub 仓库 →约 2.2k 星,热度来自京东出品的统一多模态模型这一分量,加上它押注了几个当下热点:理解+生成+编辑统一、空间智能(多视角/几何感知编辑)、以及难做的长文本/多语言排版渲染。在 GPT-Image-2 等闭源模型把『文字渲染、空间一致性』抬高后,一个开源、可下权重、可本地跑、强调空间编辑与长文排版的国产基础模型对研究者和工程师很有吸引力。
来源:GitHub 2,151 stars / 150 forks,created 2026-03-31;README Highlights通过共享的 MLLM-MMDiT 接口,一个模型家族覆盖多模态理解、文生图与指令式编辑;8B MLLM 负责理解与指令分解,16B MMDiT 负责生成/编辑,三者相互促进。
来源:README JoyAI-Image/Highlights(Unified multimodal foundation)强空间理解 + 可控空间编辑 + 新视角辅助推理:支持多视角生成、几何感知变换、相机控制、物体旋转、按位置精确编辑,并尽量保持场景内容、结构与视觉一致性。
来源:README Highlights(Awakened spatial intelligence)/Multi-view Showcase针对文字密集场景优化:多格漫画、密集多行文本、多语言排版、长版式布局、真实场景文字、手写风格等,长文排版与布局保真是其卖点之一。
来源:README Advanced Text Rendering Showcase/HighlightsJoyAI-Image-Und(理解骨干)与 JoyAI-Image-Edit(指令式编辑,已在 HF/ModelScope 发布)可用;Edit-Distilled(更快)、Edit-Plus(多图编辑)、JoyAI-Image(文生图)标注 To be released。
来源:README Model Zoo公开了可扩展的数据与训练管线——空间理解数据(OpenSpatial)、长文渲染数据、编辑数据(SpatialEdit)与多阶段优化策略;配 diffusers/ComfyUI 集成与推理脚本(inference.py / inference_und.py)。
来源:README Highlights(Practical data and training recipe);joyai_image_diffusers_comfyui/模型发布型仓库(Python + 权重托管在 HF/ModelScope)。架构核心是 8B MLLM(多模态理解,做场景解析、关系 grounding、指令分解)+ 16B MMDiT(多模态扩散 Transformer,做生成与编辑),二者经共享接口协同——理解强化生成与编辑、生成式变换反哺空间推理,形成双向促进。仓库提供 inference.py(生成/编辑)与 inference_und.py(理解)两套推理入口,src/ 是模型与管线代码,joyai_image_diffusers_comfyui/ 是 diffusers 与 ComfyUI 集成,test_images/ 与 assets/ 放示例。配套开放了 OpenSpatial(空间理解数据/代码)、SpatialEdit(编辑数据)与长文渲染数据及多阶段训练配方。整体是『统一 MLLM+MMDiT 基础模型 + 开放数据/训练配方 + 推理脚本/生态集成』的开源多模态模型工程,部分子模型已放出、部分待发布。
来源:README JoyAI-Image/Highlights/Quick Start;tree(inference*.py、src/、joyai_image_diffusers_comfyui/)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
MLLM(理解)+ MMDiT(生成/编辑)diffusers / ComfyUI(集成)Hugging Face / ModelScope(权重)OpenSpatial / SpatialEdit(数据)PyTorch(推理)适合:①做图像理解+生成+编辑统一研究、或需要可下权重本地跑的开源多模态基础模型的研究者与工程师;②需要强空间编辑(多视角、几何变换、按位置精确改物体)与长文本/多语言排版渲染的图像应用;③想基于其开放数据(OpenSpatial/SpatialEdit)与训练配方做二次研究的人;④接 ComfyUI 工作流的创作者。不适合:没有足够 GPU 显存的人;想要开箱即用云端 SaaS、不愿下权重自部署的用户;以及需要等文生图主模型/多图编辑(仍未发布)的场景。
来源:README Highlights/Model Zoo,结合定位推断仓库无传统 GitHub Release,以模型权重(HF/ModelScope)+ 推理代码形式发布;JoyAI-Image-Und 与 JoyAI-Image-Edit 已放出,Edit-Distilled/Edit-Plus 与文生图主模型标注待发布。仓库最近 push 2026-05-09(创建于 2026-03-31),处于分阶段放模型的早期阶段。
来源:GitHub Model Zoo(已发布/待发布);pushed_at 2026-05-09JoyAI-Image 是京东在『统一多模态基础模型』上的一次有分量的开源:一个家族同时做理解、文生图和指令编辑,并把理解与生成相互促进、空间智能和长文排版当作主打,还大方公开了数据与训练配方,对研究者很友好,2.2k 星合理。但要看清现状:当前真正可用的主要是理解骨干和单图编辑,文生图主模型、多图编辑、蒸馏版都还没放出;8B+16B 的规模对显存要求高,能力对比也多为自述、需独立评测。对做多模态研究、想要可下权重并基于其数据二次研究、尤其关注空间编辑与长文渲染的人,它很值得跟进;想要开箱即用或等齐全套模型的人则需再等。
来源:综合 README 定位/能力/Model Zoo、tree 工程结构、发布状态的事实判断