3FS: 为AI训练和推理而生的高性能分布式文件系统

2025-02-28
3FS: 为AI训练和推理而生的高性能分布式文件系统

3FS是一个为应对AI训练和推理工作负载挑战而设计的高性能分布式文件系统。它利用现代SSD和RDMA网络提供共享存储层,简化分布式应用程序的开发。3FS的关键特性包括:强大的性能和易用性,基于CRAQ的强一致性,标准的文件接口,支持各种工作负载(数据准备、数据加载器、检查点和KVCache用于推理)。基准测试显示,它在大型集群上实现了高达6.6 TiB/s的读取吞吐量和3.66 TiB/min的排序吞吐量。KVCache技术显著提高了LLM推理效率,峰值读取吞吐量达到40 GiB/s。项目开源,并提供了详细的安装和运行指南。