Daft 是一个面向 AI 与多模态工作负载的高性能数据引擎:在同一框架里处理图像、音频、视频、嵌入与结构化数据,并能任意规模扩展。它 Python 原生、Rust 驱动(无需 JVM),内置 AI 操作(用 OpenAI/Transformers 或自有模型跑 LLM 提示、生成嵌入、做分类),可从本地起步、扩展到 Ray/Kubernetes 分布式集群,并连接 S3/GCS/Iceberg/Delta Lake/Hugging Face/Unity Catalog 等数据源。许可为 Apache-2.0,Rust,约 5,500 stars。
来源:README(首段、要点列表、Installation);GitHub 仓库元数据(stars=5500、license=Apache-2.0、language=Rust) 查看 GitHub 仓库 →AI/多模态数据处理日益重要——传统数据引擎对图像/音频/视频与「在数据管线里直接跑 LLM/嵌入」支持不佳。Daft 用 Rust 驱动的高性能引擎、Python 原生 API,把多模态处理与内置 AI 操作合一,能本地到分布式平滑扩展、广泛连接各数据源,因而受关注。截至数据采集约 5,500 stars。
来源:README(首段、要点列表);GitHub 仓库元数据(stars=5500)在单一框架里处理图像、音频、视频、嵌入与结构化数据,无需多套工具。
来源:README(要点 → Native multimodal processing)在数据管线中直接跑 LLM 提示、生成嵌入、做分类,支持 OpenAI、Transformers 或自有模型,规模化执行。
来源:README(要点 → Built-in AI operations)Python 为核心、Rust 在底层,跳过 JVM 复杂度,性能强;智能内存管理与合理默认减少配置。
来源:README(要点 → Python-native Rust-powered / Out-of-box reliability)本地起步可扩展到 Ray/Kubernetes 分布式集群;连接 S3/GCS/Iceberg/Delta Lake/Hugging Face/Unity Catalog 等。
来源:README(要点 → Seamless scaling / Universal connectivity)Daft 是 Python 原生、Rust 实现的数据引擎(DataFrame 风格 API)。它把多模态数据(图像/音频/视频/嵌入)与结构化数据放在同一框架处理;内置 AI 操作可在数据管线里直接跑 LLM 提示、生成嵌入、做分类(接 OpenAI、Transformers 或自有模型)。执行上本地起步、可扩展到 Ray 与 Kubernetes 分布式集群;数据连接覆盖 S3/GCS/Iceberg/Delta Lake/Hugging Face/Unity Catalog 等。强调智能内存管理与合理默认值,减少配置负担。需 Python 3.10+,pip install daft。
来源:README(要点列表、Installation)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
Ray / Kubernetes(分布式)OpenAI / Transformers(AI 操作)S3/GCS/Iceberg/Delta Lake/HF/Unity C…适合需要在数据管线里处理多模态数据并跑 AI 的团队:大规模处理图像/音频/视频/嵌入与结构化数据、在管线内直接做 LLM 推理/嵌入/分类(如为图片打标、构建嵌入、内容分类)、构建 AI 数据预处理与特征流水线,并从本地平滑扩展到分布式。对做多模态训练数据准备、AI 数据工程的人尤其实用。
来源:README(首段、要点、Quickstart)本页未列出具体版本号;Daft 在 PyPI 持续发布、迭代活跃,围绕多模态处理、内置 AI 操作、分布式扩展与数据源连接完善。更新以性能、AI 操作与连接器为主。
来源:README(要点、Installation、Benchmarks)Daft 是面向 AI/多模态工作负载的高性能数据引擎:在同一框架处理图像/音频/视频/嵌入与结构化数据,内置 LLM/嵌入/分类等 AI 操作,Python 原生、Rust 驱动免 JVM,本地到 Ray/K8s 分布式平滑扩展、广连各数据源。对做多模态数据工程与 AI 数据预处理的团队很实用。要权衡的是分布式规模化需集群运维、接外部模型按量计费、生态相对新兴。作为 AI 时代的数据引擎,它把「多模态 + 内置 AI + 高性能」结合得很到位。
来源:综合 README 的多模态/AI 操作能力、性能与扩展