VibeVoice:オープンソースの長尺、マルチスピーカーTTS

2025-09-03

VibeVoiceは、テキストからポッドキャストのような、表現力豊かな長尺のマルチスピーカー会話音声を作成するための、新しいオープンソースフレームワークです。従来のテキスト読み上げ(TTS)システムにおける、スケーラビリティ、話者の一貫性、自然なターン制といった課題に対処します。重要なイノベーションとして、7.5Hzという超低フレームレートで動作する連続音声トークナイザー(音響と意味)を採用しており、音声の忠実度を維持しながら、長シーケンスの処理における計算効率を大幅に向上させます。VibeVoiceは、次のトークン拡散フレームワークを使用し、大規模言語モデル(LLM)でテキストコンテキストとダイアログの流れを理解し、拡散ヘッドで高忠実度の音響詳細を生成します。このモデルは、最大4人の異なる話者で最大90分の音声合成が可能で、従来のモデルの一般的な1〜2話者の制限を超えています。

続きを読む
AI

RenderFormer:シーンごとのトレーニング不要なグローバルイルミネーションニューラルレンダリング

2025-06-01

RenderFormerは、完全なグローバルイルミネーション効果を持つ三角形ベースのシーン表現から画像を直接レンダリングするニューラルレンダリングパイプラインであり、シーンごとのトレーニングやファインチューニングは必要ありません。物理ベースのアプローチではなく、レンダリングをシーケンスツーシーケンス変換として定式化します。反射特性を持つ三角形を表すトークンのシーケンスは、小さなピクセルパッチを表す出力トークンのシーケンスに変換されます。トランスフォーマーベースの2段階パイプラインを使用します。ビューに依存しない段階では、三角形間の光輸送をモデル化し、ビューに依存する段階では、ビューに依存しない段階によって導かれる、レイバンドルをピクセル値に変換します。ラスタ化やレイ トレーシングは必要ありません。

続きを読む

Pythonにおける恐れ知らずの並行処理:Lungfishプロジェクト

2025-05-18

Project Veronaチームは、Pythonのメモリと並行処理を安全かつ効率的に管理するために設計された、Python向けの新しい所有権モデルであるLungfishを開発しています。まず、FrankenScriptというおもちゃの言語を使用して、領域ベースの所有権の概念のプロトタイプを作成し、その知見をFaster CPythonチームと共有しました。現在、CPythonでの深い不変性の導入、循環する不変ガベージの管理、サブインタープリタ間のメッセージパッシングとの統合を含む、深い不変性モデルを段階的に実装しています。これは、Pythonへの領域ベースの所有権モデルの適用を促進し、最終的には並行プログラミングを簡素化し、並行処理に伴う落とし穴を回避することを目的としています。このプロジェクトは、Rustなどの言語からの知見を多く取り入れていますが、Pythonの動的型付けに対応するために動的なチェックを採用しています。

続きを読む

AIによる動画分析:コンビニと家庭環境

2025-02-20

2つのAIセグメントが、コンビニのレジと家庭環境のビデオを分析しています。最初のセグメントは、「PICK 5 FOR $8.00」のオファーを利用してスナックと飲み物を購入する顧客について説明し、顧客と従業員のやり取りに焦点を当てています。2番目のセグメントは、本、ボウル、じょうろなど、家庭環境の背景の中で鉢植えの植物を配置する手を示し、リラックスした家庭の雰囲気を伝えています。どちらのセグメントも、詳細なアクションの説明を通じて、AIによるビデオコンテンツの理解能力を実証しています。

続きを読む