Webtagr - Résumé de news de technologie

VibeVoice : Modèle open source de synthèse vocale longue et multi-intervenants

2025-09-03

VibeVoice est un nouveau framework open source conçu pour générer des audios conversationnels expressifs, longs et multi-intervenants, tels que des podcasts, à partir de texte. Il s'attaque aux défis des systèmes traditionnels de synthèse vocale (TTS), notamment en termes d'évolutivité, de cohérence des voix et de prise de parole naturelle. L'innovation principale réside dans l'utilisation de tokeniseurs de parole continue (acoustiques et sémantiques) fonctionnant à une fréquence d'images ultra-basse de 7,5 Hz. Ces tokeniseurs préservent la fidélité audio tout en augmentant considérablement l'efficacité de calcul pour le traitement de longues séquences. VibeVoice utilise une architecture de diffusion de jeton suivant, exploitant un grand modèle linguistique (LLM) pour comprendre le contexte textuel et le déroulement du dialogue, et une tête de diffusion pour générer des détails acoustiques de haute fidélité. Le modèle peut synthétiser jusqu'à 90 minutes de parole avec jusqu'à 4 intervenants distincts, dépassant les limites typiques de 1 à 2 intervenants de nombreux modèles précédents.

Lire plus

(microsoft.github.io)

IA

RenderFormer : rendu neuronal avec éclairage global sans entraînement par scène

2025-06-01

RenderFormer est un pipeline de rendu neuronal qui rend directement une image à partir d'une représentation de scène basée sur des triangles avec des effets d'éclairage global complets, sans nécessiter d'entraînement ni d'ajustement fin par scène. Au lieu d'une approche physique, il formule le rendu comme une transformation séquence-à-séquence : une séquence de jetons représentant des triangles avec des propriétés de réflectance est convertie en une séquence de jetons de sortie représentant de petits patchs de pixels. Il utilise un pipeline à deux étapes basé sur le transformateur : une étape indépendante de la vue qui modélise le transport de lumière de triangle à triangle, et une étape dépendante de la vue qui transforme les faisceaux de rayons en valeurs de pixels guidées par l'étape indépendante de la vue. Aucune rastérisation ni tracé de rayons n'est nécessaire.

Lire plus

(microsoft.github.io)

IA éclairage global

Concurrence sans peur en Python : le projet Lungfish

2025-05-18

L’équipe du projet Verona développe Lungfish, un nouveau modèle de propriété pour Python conçu pour fournir une gestion sûre et efficace de la mémoire et de la concurrence. Dans un premier temps, ils ont créé des prototypes de concepts de propriété basés sur des régions à l’aide d’un langage jouet, FrankenScript, et ont partagé leurs résultats avec l’équipe Faster CPython. Actuellement, ils mettent en œuvre progressivement un modèle d’immuabilité profonde, incluant l’immuabilité profonde dans CPython, la gestion des ordures immuables cycliques et l’intégration avec la messagerie entre sous-interprètes. Cela ouvrira la voie à l’application du modèle de propriété basé sur les régions à Python, dans le but final de simplifier la programmation concurrente et d’éviter les pièges de la concurrence. Le projet s’inspire fortement de langages comme Rust, mais utilise des vérifications dynamiques pour s’adapter au typage dynamique de Python.

Lire plus

(microsoft.github.io)

Développement Modèle de propriété

Analyse vidéo basée sur l'IA : supérette et cadre domestique

2025-02-20

Deux segments d'IA analysent des vidéos d'une caisse de supérette et d'un cadre domestique. Le premier décrit un client achetant des collations et des boissons en utilisant une offre « PICK 5 FOR $8.00 », en se concentrant sur l'interaction entre le client et l'employé. Le second montre une main arrangeant une plante en pot, avec un arrière-plan domestique comprenant des livres, des bols, un arrosoir, etc., transmettant une atmosphère familiale détendue. Les deux segments démontrent la capacité de l'IA à comprendre le contenu vidéo grâce à des descriptions d'actions détaillées.

Lire plus

(microsoft.github.io)

IA analyse vidéo compréhension de scène