INFP: 자연스러운 쌍방향 대화를 위한 오디오 기반 인터랙티브 헤드 생성 프레임워크
2024-12-22
바이트댄스는 새로운 오디오 기반 인터랙티브 헤드 생성 프레임워크인 INFP를 발표했습니다. 쌍방향 대화의 듀얼 트랙 오디오와 단일 초상화 이미지를 사용하여 실제 같은 표정과 머리 움직임을 포함한 사실적인 에이전트 비디오를 동적으로 생성합니다. 경량 프레임워크는 화상 회의와 같은 실시간 통신에 이상적입니다. INFP는 모션 기반 헤드 모방 및 오디오 가이드 모션 생성의 2단계 프로세스를 사용합니다. 첫 번째 단계에서는 의사소통을 위한 얼굴 행동을 저차원 잠재 공간에 투영하고, 두 번째 단계에서는 쌍방향 오디오를 이러한 코드에 매핑하여 오디오 기반 생성을 실현합니다. 대규모 쌍방향 대화 데이터 세트인 DyConv도 소개되었습니다. INFP는 뛰어난 성능과 자연스러운 상호 작용을 제공합니다.
더 보기
AI
딥 러닝