3FS: Um Sistema de Arquivos Distribuído de Alto Desempenho para IA

2025-02-28
3FS: Um Sistema de Arquivos Distribuído de Alto Desempenho para IA

O 3FS é um sistema de arquivos distribuído de alto desempenho projetado para lidar com os desafios das cargas de trabalho de treinamento e inferência de IA. Aproveitando SSDs modernos e redes RDMA, ele fornece uma camada de armazenamento compartilhado que simplifica o desenvolvimento de aplicativos distribuídos. Recursos-chave incluem: desempenho e usabilidade excepcionais, forte consistência por meio do CRAQ, interfaces de arquivo padrão e suporte para diversas cargas de trabalho (preparação de dados, carregadores de dados, checkpoints e KVCache para inferência). Benchmarks demonstram resultados impressionantes: até 6,6 TiB/s de taxa de transferência de leitura em grandes clusters e 3,66 TiB/min de taxa de transferência de classificação. O KVCache aumenta significativamente a eficiência de inferência do LLM, atingindo uma taxa de transferência de leitura máxima de 40 GiB/s. O projeto é open-source com instruções detalhadas de configuração e execução.