VibeVoice: 오픈소스 장시간 다중 화자 TTS

2025-09-03

VibeVoice는 텍스트로부터 팟캐스트와 같은 표현력이 풍부한 장시간 다중 화자 대화 오디오를 생성하기 위한 새로운 오픈소스 프레임워크입니다. 기존 TTS(텍스트 음성 변환) 시스템의 확장성, 화자 일관성, 자연스러운 턴테이킹과 같은 과제를 해결합니다. 주요 혁신으로 7.5Hz의 초저 프레임률로 작동하는 연속 음성 토크나이저(음향 및 의미)를 사용하여 오디오 충실도를 유지하면서 장시간 시퀀스 처리의 계산 효율성을 크게 향상시킵니다. VibeVoice는 다음 토큰 확산 프레임워크를 사용하여 대규모 언어 모델(LLM)로 텍스트 컨텍스트와 대화 흐름을 이해하고 확산 헤드로 고충실도 음향 세부 정보를 생성합니다. 이 모델은 최대 4명의 서로 다른 화자로 최대 90분의 음성 합성이 가능하며 기존 모델의 일반적인 1~2명 화자 제한을 뛰어넘습니다.

더 보기
AI

RenderFormer: 장면별 학습이 필요 없는 전역 조명 뉴럴 렌더링

2025-06-01

RenderFormer는 완벽한 전역 조명 효과를 가진 삼각형 기반 장면 표현에서 이미지를 직접 렌더링하는 뉴럴 렌더링 파이프라인으로, 장면별 학습이나 미세 조정이 필요 없습니다. 물리 기반 접근 방식 대신 렌더링을 시퀀스 투 시퀀스 변환으로 공식화합니다. 반사 특성을 가진 삼각형을 나타내는 토큰 시퀀스는 작은 픽셀 패치를 나타내는 출력 토큰 시퀀스로 변환됩니다. 트랜스포머 기반의 2단계 파이프라인을 사용합니다. 뷰에 독립적인 단계에서는 삼각형 간의 광 전달을 모델링하고, 뷰에 종속적인 단계에서는 뷰에 독립적인 단계에 의해 안내되는 레이 번들을 픽셀 값으로 변환합니다. 래스터화나 레이 트레이싱이 필요 없습니다.

더 보기

Python에서의 두려움 없는 동시성: Lungfish 프로젝트

2025-05-18

Project Verona팀은 Python 프로그램의 메모리와 동시성을 안전하고 효율적으로 관리하도록 설계된 새로운 Python 소유권 모델인 Lungfish를 개발하고 있습니다. 처음에는 FrankenScript라는 간단한 언어를 사용하여 영역 기반 소유권 개념의 프로토타입을 만들고, 그 결과를 Faster CPython 팀과 공유했습니다. 현재 CPython에서의 심층 불변성 구현, 순환 불변 가비지 관리, 서브 인터프리터 간 메시지 전달 통합을 포함하여 심층 불변성 모델을 단계적으로 구현하고 있습니다. 이는 Python에 영역 기반 소유권 모델을 적용하는 길을 열어주고, 궁극적으로는 동시성 프로그래밍을 단순화하고 동시성의 함정을 피하는 것을 목표로 합니다. 이 프로젝트는 Rust와 같은 언어의 경험을 많이 활용하지만, Python의 동적 타이핑에 맞추기 위해 동적 검사를 사용합니다.

더 보기

AI 기반 비디오 분석: 편의점과 가정 환경

2025-02-20

두 개의 AI 세그먼트는 편의점 계산대와 가정 환경의 비디오를 분석합니다. 첫 번째 세그먼트는 'PICK 5 FOR $8.00' 할인을 이용하여 스낵과 음료를 구매하는 고객을 설명하며, 고객과 직원 간의 상호 작용에 중점을 둡니다. 두 번째 세그먼트는 책, 그릇, 물주전자 등 가정 환경 배경에서 화분에 심은 식물을 정리하는 손을 보여주며, 편안한 가정 분위기를 전달합니다. 두 세그먼트 모두 자세한 동작 설명을 통해 AI의 비디오 콘텐츠 이해 능력을 보여줍니다.

더 보기