smallpond e 3FS da DeepSeek: Escalonando o DuckDB para Petabytes

A DeepSeek AI lançou o smallpond e o 3FS, projetados para expandir o banco de dados DuckDB para lidar com conjuntos de dados em escala de petabytes. O smallpond é uma estrutura de processamento de dados distribuída e leve que permite que o DuckDB processe dados em paralelo em vários nós, enquanto o 3FS é um sistema de arquivos paralelo de alto desempenho que utiliza SSDs e rede RDMA para alta taxa de transferência. No entanto, a implantação e o uso dessas ferramentas são complexos, exigindo hardware especializado e experiência em DevOps. Para conjuntos de dados abaixo de 10 TB, uma instância de DuckDB de nó único ou soluções mais simples são mais eficientes. Somente ao lidar com conjuntos de dados massivos o smallpond e o 3FS mostram suas vantagens.