VibeVoice: Modelo de Texto a Voz Abierto de Formato Largo y Múltiples Hablantes

2025-09-03

VibeVoice es un nuevo marco de código abierto para generar audio conversacional expresivo, largo y con múltiples hablantes, como podcasts, a partir de texto. Aborda los desafíos en los sistemas tradicionales de texto a voz (TTS), como la escalabilidad, la consistencia del hablante y la alternancia natural de turnos. Una innovación clave es el uso de tokenizadores de voz continua (acústicos y semánticos) con una velocidad de fotogramas ultrabaja de 7,5 Hz. Estos tokenizadores mantienen la fidelidad del audio mientras aumentan significativamente la eficiencia computacional para el procesamiento de secuencias largas. VibeVoice emplea una arquitectura de difusión de token siguiente, utilizando un Modelo de Lenguaje Grande (LLM) para comprender el contexto textual y el flujo de diálogo, y una cabeza de difusión para generar detalles acústicos de alta fidelidad. El modelo puede sintetizar hasta 90 minutos de habla con hasta 4 hablantes distintos, superando los límites típicos de 1 a 2 hablantes de muchos modelos anteriores.

Leer más
IA

RenderFormer: Renderizado neuronal con iluminación global sin entrenamiento por escena

2025-06-01

RenderFormer es un pipeline de renderizado neuronal que renderiza directamente una imagen a partir de una representación de escena basada en triángulos con efectos completos de iluminación global, sin necesidad de entrenamiento o ajuste fino por escena. En lugar de un enfoque basado en la física, formula el renderizado como una transformación secuencia-a-secuencia: una secuencia de tokens que representan triángulos con propiedades de reflectancia se convierte en una secuencia de tokens de salida que representan pequeños parches de píxeles. Utiliza un pipeline de dos etapas basado en transformadores: una etapa independiente de la vista que modela el transporte de luz de triángulo a triángulo, y una etapa dependiente de la vista que transforma haces de rayos en valores de píxeles guiados por la etapa independiente de la vista. No se necesita rasterización ni trazado de rayos.

Leer más

Concurrencia sin miedo en Python: El Proyecto Lungfish

2025-05-18

El equipo del Proyecto Verona está desarrollando Lungfish, un nuevo modelo de propiedad para Python diseñado para proporcionar una gestión segura y eficiente de la memoria y la concurrencia. Inicialmente, crearon prototipos de conceptos de propiedad basados en regiones utilizando un lenguaje de juguete, FrankenScript, y compartieron sus hallazgos con el equipo de Faster CPython. Actualmente, están implementando incrementalmente un modelo de inmutabilidad profunda, incluyendo la inmutabilidad profunda en CPython, gestionando la basura inmutable cíclica e integrando con mensajes entre subintérpretes. Esto allanará el camino para la aplicación del modelo de propiedad basado en regiones a Python, con el objetivo final de simplificar la programación concurrente y evitar las trampas de la concurrencia. El proyecto se basa en gran medida en lenguajes como Rust, pero emplea comprobaciones dinámicas para acomodar el tipado dinámico de Python.

Leer más
Desarrollo Modelo de Propiedad

Análisis de vídeo basado en IA: Tienda de conveniencia y entorno doméstico

2025-02-20

Dos segmentos de IA analizan vídeos de una caja de una tienda de conveniencia y de un entorno doméstico. El primero describe a un cliente comprando refrigerios y bebidas usando una oferta 'PICK 5 FOR $8.00', centrándose en la interacción entre el cliente y el empleado. El segundo muestra una mano arreglando una planta en maceta, con un entorno doméstico de fondo que incluye libros, cuencos, un regador, etc., transmitiendo un ambiente hogareño relajado. Ambos segmentos demuestran la capacidad de la IA para comprender el contenido del vídeo mediante descripciones detalladas de acciones.

Leer más