GitHub - iterative/datachain:用于丰富、转换和分析云存储数据的AI数据仓库

2024-11-05

DataChain是一个Python数据框架库,专为人工智能设计,用于将非结构化数据组织成数据集,并在本地机器上进行大规模处理。它支持多种数据类型,可以直接从S3、GCP、Azure等云存储以及本地文件系统读取数据,并进行丰富、转换和分析。DataChain集成了AI模型和API调用,支持并行化和内存外计算,并提供向量化操作和向量搜索等功能。DataChain还可用于LLM评估、序列化Python对象以及与PyTorch数据加载器集成。

18