Custos de inferência de IA: Não tão caros quanto você pensa

Este artigo contesta a narrativa de que a inferência de IA é proibitivamente cara e insustentável. Ao calcular os custos de execução da inferência de IA em GPUs H100, o autor demonstra que o processamento de entrada é incrivelmente barato (frações de centavo por milhão de tokens), enquanto a geração de saída é significativamente mais cara (dólares por milhão de tokens). Essa assimetria de custo explica a lucratividade de alguns aplicativos (como assistentes de codificação) e o alto custo de outros (como geração de vídeo). O autor argumenta que essa disparidade de custo é frequentemente ignorada, levando a uma superestimação dos custos de inferência de IA, o que pode beneficiar os incumbentes e sufocar a competição e a inovação.