Tstars-Tryon 1.0 深度解析:淘宝虚拟试穿如何走到工业级(mmDiT、6 图、8 品类)
阿里淘宝/天猫 W17 最高票论文(248↑):多图扩散(mmDiT)、最多 6 张参考图、8 个时尚品类、千万请求工业部署。技术架构、与 OOTDiffusion / IDM-VTON / CatVTON 横向对比,以及开发者上手与复现路径。
基于 Paper Collector 数据,恩筑AI研究团队每周精选热门论文,解读趋势与技术突破。
阿里淘宝/天猫 W17 最高票论文(248↑):多图扩散(mmDiT)、最多 6 张参考图、8 个时尚品类、千万请求工业部署。技术架构、与 OOTDiffusion / IDM-VTON / CatVTON 横向对比,以及开发者上手与复现路径。
2026-04-24 发布的 V4-Pro/Flash:1.6T MoE、49B 激活、$3.48/M 输出。逐项拆解 DSA 稀疏注意力机制、LiveCodeBench 93.5/SWE-bench 80.6/Codeforces 3206 等 benchmark、价格策略、Huawei 昇腾绑定与开发者选型建议。
Tstars-Tryon 1.0 淘宝级虚拟试穿、LLaDA2.0-Uni 扩散统一多模态、OneVL 隐式推理超越 CoT、CoInteract 物理一致 HOI 视频、Agent-World 自进化训练、OpenGame 端到端游戏 Agent、NPO 近未来策略 RL、MultiWorld 多智能体世界模型 —— 多模态生成进入工业部署、隐式推理挑战 CoT 三大趋势。
Seedance 2.0 多模态音视频统一生成、HY-World 2.0 3DGS 世界模型、MEDS 记忆增强奖励塑造、RationalRewards 推理式奖励、KnowRL 最小充分知识点引导、OPD 蒸馏机制、OccuBench 100 行业 Agent 评测、AiScientist 长时程 ML —— 视频生成可探索世界、奖励设计成推理杠杆三大趋势。
SpatialEdit 888 票登顶空间编辑基准、SkillClaw 技能集体演化、ClawBench 真实网站 Agent 评测、HY-Embodied 腾讯具身基础模型、OpenWorldLib 世界模型统一、TriAttention KV 压缩 —— Agent 评测体系成型、视觉生成过程可控三大趋势。
SKILL0 通过 RL 内化 Agent 技能、CARLA-Air 统一空地仿真平台(302↑)、GEMS 记忆+技能增强 Agent、Terminal Agents 挑战 MCP 范式、Generative World Renderer 3A 游戏数据集、Medical AI Scientist 临床自主研究 —— Agent 技能内化、仿真世界基础设施化三大趋势。
MinerU-Diffusion 用扩散解码颠覆传统 OCR;Omni-WorldBench 定义 4D 世界模型交互基准;Intern-S1-Pro 首个万亿参数科学模型;daVinci-MagiHuman 单流音视频统一生成;CUA-Suite 推动桌面 Agent 视频数据基础设施。
视频扩散模型的推理沿去噪步骤而非帧序列展开;InCoder-32B 将代码大模型带入芯片设计和嵌入式领域;MetaClaw 让部署中的 Agent 通过元学习持续自进化;Attention Residuals 重新设计 Transformer 残差连接。
本周最热论文揭示:视频扩散模型的推理沿去噪步骤而非帧序列展开。论文还发现工作记忆、自纠错、感知先于动作三种涌现推理行为,并提出免训练的多轨迹集成策略。
MetaClaw 提出持续元学习框架,通过技能驱动快速适应和机会性策略优化双机制,让已部署的 Agent 无需停机即可自进化,将 Kimi-K2.5 准确率从 21.4% 提升至 40.6%。
本周高热论文中,强化学习相关工作占据前列,应用边界从对齐扩展到 3D 编辑与 Agent 在线学习;开源搜索代理的训练门槛正在下降;推理过程对模型内部知识调用的影响获得新的理论解释。