Coûts d'inférence IA : Pas aussi chers que vous le pensez
Cet article remet en question l'idée que l'inférence IA est excessivement coûteuse et insoutenable. En calculant les coûts d'exécution de l'inférence IA sur des GPU H100, l'auteur démontre que le traitement des entrées est incroyablement peu coûteux (fractions de centime par million de jetons), tandis que la génération des sorties est significativement plus chère (des dollars par million de jetons). Cette asymétrie de coûts explique la rentabilité de certaines applications (comme les assistants de codage) et le coût élevé d'autres (comme la génération de vidéos). L'auteur soutient que cette disparité de coûts est souvent négligée, ce qui conduit à une surestimation des coûts d'inférence IA, ce qui peut profiter aux acteurs établis et freiner la concurrence et l'innovation.