unilm(microsoft/unilm)是微软 General AI 团队的「基础模型大规模自监督预训练」研究合集,主题是「The Big Convergence」——跨任务、跨语言(100+ 语言)、跨模态(语言/图像/音频/版面/视觉+语言等)的统一预训练。它不是单一模型,而是一个汇集大量知名研究与子项目的伞形仓库,涵盖基础架构(DeepNet、Magneto、BitNet、RetNet、LongNet、X-MoE)、(多模态)LLM(Kosmos-1/2/2.5、MetaLM)、语言/多语种(UniLM、InfoXLM、MiniLM、E5)、视觉(BEiT、DiT、TextDiffuser)、语音(WavLM)、Document AI(LayoutLM、TrOCR)等。MIT 许可,约 22,132 stars,主语言 Python。
来源:README.md(Foundation Architecture/Models 各板块、topics);GitHub 仓库元数据(stars=22132、language=Python、license=MIT) 查看 GitHub 仓库 →unilm 长期是基础模型研究的重要「索引仓库」:BEiT、LayoutLM、TrOCR、WavLM、MiniLM、E5、BitNet 等多项工作都在此发布,覆盖架构创新到多模态/Document AI/语音/嵌入,影响力大、被广泛引用与复用。对研究者而言,它是跟踪微软基础模型工作的入口;对工程师而言,其中 E5(文本嵌入)、TrOCR(OCR)、LayoutLM(文档理解)等有现成可用价值。需注意它是多项目集合、各子项目成熟度与维护状态不一。截至数据采集约 22,132 stars。
来源:README.md(各子项目板块);GitHub 仓库元数据(stars=22132、pushed_at 2026-01、topics)含 DeepNet(千层 Transformer)、BitNet(1-bit)、RetNet、LongNet、X-MoE 等架构创新,及 TorchScale 库。
来源:README.md(Foundation Architecture)Kosmos-1/2/2.5 多模态大模型与 MetaLM「语言模型作为通用接口」等工作。
来源:README.md(The Evolution of (M)LLM)UniLM、InfoXLM/XLM-E(100+ 语言)、MiniLM、E5(文本嵌入)、MiniLLM(蒸馏)等可复用模型。
来源:README.md(Language & Multilingual)BEiT/DiT/TextDiffuser、WavLM 语音、LayoutLM/TrOCR 文档智能等跨模态工作。
来源:README.md(Vision、Speech、topics 含 layoutlm/trocr/document-ai)仓库以「研究主题 + 子目录」组织,按层次罗列工作:基础架构层(TorchScale 库,及 DeepNet 千层 Transformer 稳定性、Magneto 通用建模、Length-Extrapolatable、X-MoE 稀疏 MoE、BitNet 1-bit、RetNet、LongNet 十亿 token 扩展);基础模型层按模态/语言细分——语言与多语种(UniLM/InfoXLM/DeltaLM/MiniLM/AdaLM/EdgeLM/SimLM/E5/MiniLLM)、视觉(BEiT/BEiT-2、DiT、TextDiffuser)、语音(WavLM 等)、Document AI(LayoutLM/TrOCR 等)。每个子项目有独立目录、论文与代码,可单独使用,主语言 Python。
来源:README.md(Foundation Architecture、Foundation Models 的子目录链接);GitHub 仓库元数据(language=Python)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
PyTorchTorchScale(基础架构库)HuggingFace 生态(多数模型有 HF 权重)适合基础模型研究者与需要现成预训练能力的工程师:研究侧可参考 DeepNet/BitNet/RetNet/LongNet 等架构与 Kosmos 多模态工作;工程侧可直接用 E5 做文本嵌入与检索、TrOCR 做 OCR、LayoutLM 做文档信息抽取、BEiT/DiT 做视觉/文档图像、WavLM 做语音任务。也适合作为跟踪微软基础模型进展的索引与起点。落地以各子项目的具体模型与许可为准。
来源:README.md(各模态子项目、topics)本页未列统一版本号;unilm 为研究合集,更新体现在各子项目的论文与权重发布(README 中以 NEW 标注较新工作,如 EdgeLM、SimLM、E5、MiniLLM、TextDiffuser-2 等)。仓库最后更新约在 2026 年 1 月,具体模型版本以各子目录与 HuggingFace 页面为准。
来源:README.md(NEW 标注);GitHub pushed_atunilm 是微软 General AI 的基础模型研究伞形仓库:以「跨任务、跨语言、跨模态的统一预训练」为主题,汇集 DeepNet/BitNet/RetNet、Kosmos、UniLM/E5、BEiT/DiT/TextDiffuser、WavLM、LayoutLM/TrOCR 等大量有影响力的工作,既是跟踪前沿架构的索引,也提供 E5、TrOCR、LayoutLM 等可直接用的模型,研究价值很高。要清楚它是多项目集合而非统一框架、各子项目成熟度不一、需按子目录文档与许可使用。作为基础模型研究的入口与资源库,分量足、覆盖广。
来源:综合 README.md 的主题、子项目矩阵与定位