Le regard pragmatique d'un data scientist senior sur l'IA générative

2025-05-05
Le regard pragmatique d'un data scientist senior sur l'IA générative

Un data scientist senior de BuzzFeed partage son approche pragmatique de l'utilisation des grands modèles de langage (LLM). Il ne considère pas les LLM comme une solution miracle, mais plutôt comme un outil pour améliorer l'efficacité, soulignant l'importance de l'ingénierie des invites. L'article détaille son utilisation réussie des LLM pour des tâches telles que la catégorisation des données, la synthèse de texte et la génération de code, tout en reconnaissant leurs limites, notamment dans les scénarios complexes de science des données où la précision et l'efficacité peuvent être compromises. Il soutient que les LLM ne sont pas une panacée, mais qu'utilisés avec discernement, ils peuvent augmenter significativement la productivité. La clé réside dans le choix de l'outil adapté à la tâche.

Lire plus

Au-delà des bases de données vectorielles : traitement efficace des embeddings de texte avec Parquet et Polars

2025-02-24
Au-delà des bases de données vectorielles : traitement efficace des embeddings de texte avec Parquet et Polars

Cet article présente une méthode de traitement efficace des embeddings de texte sans recourir aux bases de données vectorielles. L’auteur utilise des fichiers Parquet pour stocker des données tabulaires contenant les embeddings de cartes Magic : The Gathering et leurs métadonnées, et exploite la bibliothèque Polars pour une recherche rapide de similarités et un filtrage des données. La fonctionnalité de copie zéro de Polars et son excellent support des données imbriquées rendent cette approche plus rapide et plus efficace que les méthodes traditionnelles CSV ou Pickle, en maintenant de hautes performances même lors du filtrage du jeu de données. L’auteur compare d’autres méthodes de stockage, telles que CSV, Pickle et NumPy, et conclut que Parquet combiné à Polars est le choix idéal pour gérer les embeddings de texte de taille moyenne, les bases de données vectorielles n’étant nécessaires que pour les jeux de données extrêmement volumineux.

Lire plus
Développement embeddings de texte

Les LLMs peuvent-ils écrire un meilleur code si on leur demande sans cesse d'« écrire un meilleur code » ?

2025-01-03
Les LLMs peuvent-ils écrire un meilleur code si on leur demande sans cesse d'« écrire un meilleur code » ?

Cet article de blog détaille une expérience explorant si le fait de demander de manière répétée à un grand modèle linguistique (LLM) d'« écrire un meilleur code » améliore la qualité du code. En utilisant Claude 3.5 Sonnet, l'auteur commence par un problème de codage Python simple et sollicite itérativement le LLM. Les performances s'améliorent considérablement, atteignant une accélération de 100x. Cependant, des invites itératives simples conduisent à une sur-ingénierie. Une ingénierie d'invites précise produit un code beaucoup plus efficace. L'expérience montre que les LLMs peuvent aider à l'optimisation du code, mais l'intervention humaine et l'expertise restent cruciales pour la qualité et l'efficacité.

Lire plus