VibeVoice: Modelo Open Source de Texto para Fala de Longa Duração e Múltiplos Falantes

2025-09-03

VibeVoice é uma nova estrutura de código aberto para gerar áudio conversacional expressivo, longo e com múltiplos falantes, como podcasts, a partir de texto. Ele aborda desafios em sistemas tradicionais de texto para fala (TTS), como escalabilidade, consistência do falante e alternância natural de turnos. Uma inovação principal é o uso de tokenizadores de fala contínua (acústicos e semânticos) com uma taxa de quadros ultrabaixa de 7,5 Hz. Esses tokenizadores preservam a fidelidade de áudio enquanto aumentam significativamente a eficiência computacional para o processamento de sequências longas. O VibeVoice emprega uma estrutura de difusão de próximo token, utilizando um Modelo de Linguagem Ampla (LLM) para entender o contexto textual e o fluxo de diálogo, e uma cabeça de difusão para gerar detalhes acústicos de alta fidelidade. O modelo pode sintetizar fala de até 90 minutos de duração com até 4 falantes distintos, superando os limites típicos de 1 a 2 falantes de muitos modelos anteriores.

Leia mais
IA

RenderFormer: Renderização Neural com Iluminação Global sem Treinamento por Cena

2025-06-01

RenderFormer é um pipeline de renderização neural que renderiza diretamente uma imagem a partir de uma representação de cena baseada em triângulos com efeitos completos de iluminação global, sem exigir treinamento ou ajuste fino por cena. Em vez de uma abordagem física, ele formula a renderização como uma transformação sequencial: uma sequência de tokens representando triângulos com propriedades de reflectância é convertida em uma sequência de tokens de saída representando pequenos patches de pixels. Ele usa um pipeline de duas etapas baseado em transformer: uma etapa independente da visão que modela o transporte de luz de triângulo para triângulo e uma etapa dependente da visão que transforma feixes de raios em valores de pixels guiados pela etapa independente da visão. Nenhuma rasterização ou rastreamento de raio é necessário.

Leia mais

Concorrência Destemida em Python: O Projeto Lungfish

2025-05-18

A equipe do Projeto Verona está desenvolvendo o Lungfish, um novo modelo de propriedade para Python projetado para fornecer gerenciamento de memória e concorrência seguros e eficientes. Inicialmente, eles criaram protótipos de conceitos de propriedade baseados em região usando uma linguagem de brinquedo, o FrankenScript, e compartilharam suas descobertas com a equipe do Faster CPython. Atualmente, eles estão implementando incrementalmente um modelo de imutabilidade profunda, incluindo imutabilidade profunda em CPython, gerenciando lixo imutável cíclico e integrando com mensagens entre sub-interpretadores. Isso abrirá caminho para a aplicação do modelo de propriedade baseado em região ao Python, com o objetivo final de simplificar a programação concorrente e evitar armadilhas de concorrência. O projeto se baseia fortemente em linguagens como Rust, mas emprega verificações dinâmicas para acomodar a tipagem dinâmica do Python.

Leia mais
Desenvolvimento Modelo de Propriedade

Análise de Vídeo Baseada em IA: Loja de Conveniência e Ambiente Doméstico

2025-02-20

Dois segmentos de IA analisam vídeos de um caixa de loja de conveniência e de um ambiente doméstico. O primeiro descreve um cliente comprando lanches e bebidas usando uma oferta 'PICK 5 FOR $8.00', focando na interação entre o cliente e o funcionário. O segundo mostra uma mão arrumando uma planta em vaso, com um ambiente doméstico ao fundo, incluindo livros, tigelas, um regador, etc., transmitindo uma atmosfera doméstica relaxada. Ambos os segmentos demonstram a capacidade da IA de entender o conteúdo do vídeo por meio de descrições detalhadas de ações.

Leia mais