img2dataset 是一个把大量图片 URL 快速转成图像数据集的工具:下载、缩放并打包,单机 20 小时可处理 1 亿条 URL,也支持保存 caption(图文对)。它是机器学习/多模态训练数据准备的常用基础工具,许多大规模图文数据集(如 LAION、COYO 等)都用它下载。许可为 MIT,Python,约 4,418 stars。值得肯定的是:它默认尊重网站的退出指令(X-Robots-Tag: noai/noimageai/noindex 等),即默认不下载标注了「拒绝 AI 使用」的图片——使用时应保留这一负责任行为,并尊重图片版权与来源许可。
来源:README.md(首段、Opt-out directives、AI use impact);GitHub 仓库元数据(stars=4418、license=MIT、language=Python) 查看 GitHub 仓库 →训练多模态/视觉模型需要从海量图文对构建数据集,而高效、可扩展地下载与打包是基础刚需。img2dataset 以极高吞吐(单机 1 亿 URL/20 小时、多节点可处理 50 亿)成为该环节的事实标准工具之一,并支持各大公开图文数据集的下载脚本,因而长期被广泛使用。截至数据采集约 4,418 stars。它默认尊重 noai 等退出指令,体现了对数据来源的负责。
来源:README.md(首段、dataset_examples、Opt-out directives);GitHub 仓库元数据(stars=4418)从大量 URL 并行下载、缩放并打包成 ML 数据集,单机 20 小时约 1 亿 URL,多节点可处理 50 亿级。
来源:README.md(首段)支持 url+caption 数据集,下载图片的同时保存对应文本,便于多模态训练。
来源:README.md(首段 saving captions)默认读取并遵守 X-Robots-Tag 的 noai/noimageai/noindex 等指令,跳过拒绝 AI/索引的图片(负责任默认)。
来源:README.md(Opt-out directives、AI use impact)提供 mscoco、cc3m/cc12m、LAION-400M/5B 及子集、COYO-700M 等公开图文数据集的下载示例与命令。
来源:README.md(dataset_examples 列表)img2dataset 是 Python 命令行工具:输入一组图片 URL(可带 caption),它并行下载、缩放并打包成适合 ML 训练的数据集格式,吞吐很高(单机 20 小时约 1 亿 URL、多节点更大规模)。它默认读取并尊重网站的 HTTP 退出指令(X-Robots-Tag: noai/noimageai/noindex/noimageindex),跳过标注拒绝 AI/索引的图片(可用 --disallowed_header_directives '[]' 关闭,但 README 的「AI use impact」建议慎重)。仓库提供 mscoco、cc3m/cc12m、LAION-400M/5B 及其美学/艺术/高分辨率/人脸子集、COYO-700M 等多个公开数据集的下载示例。
来源:README.md(首段、Opt-out directives、dataset_examples 列表)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
分布式/并行下载图像处理(缩放)数据打包格式(webdataset 等)适合做视觉/多模态模型训练的研究者与工程师:从图文对 URL 列表高效构建大规模图像数据集(下载/缩放/打包)、复现 LAION/COYO 等公开数据集、或为自己的训练任务准备数据。它是数据准备环节的高吞吐基础工具。使用时应尊重图片版权、来源许可与网站退出指令(默认已尊重 noai),并对训练数据的合规与伦理负责。
来源:README.md(首段、dataset_examples、AI use impact);合规判断本页未列出具体版本号;img2dataset 是成熟稳定的数据工具,持续维护对各公开数据集的下载示例与退出指令尊重等。更新以稳定性、吞吐与合规(opt-out 指令)相关为主。
来源:README.md(dataset_examples、Opt-out directives)img2dataset 是构建大规模图像/多模态训练数据集的高吞吐事实标准工具:从 URL 列表并行下载、缩放、打包(单机亿级、多节点更大),支持图文对与一众公开数据集(LAION/COYO 等)的现成脚本,且难得地默认尊重 noai/noimageai 等退出指令。对做视觉/多模态训练的研究者和工程师很实用。要负责任使用——构建训练数据涉及版权、来源许可与伦理,应保留退出指令尊重、尊重图片权利并合规。作为数据准备环节的基础工具,它高效、成熟、且对来源负责。
来源:综合 README.md 的吞吐、数据集支持与退出指令/合规