본문 바로가기
AI

새로운 AI 모델 ‘MultiFoley’ 연구 중

by Daniel_Lee 2024. 12. 1.
반응형

AI기반 사운드 생성형 모델 MultiFoley 설명 (사진 = MultiFoley)

무음 영상에 고품질의 소리를 추가할 수 있는 기술적 가능성을 제시한 새로운 AI 기반 사운드 생성 모델 ‘MultiFoley’의 연구가 발표됐다.

 

현지시간 지난달 26일 오픈 엑세스 논문 저장소 아카이브(arXiv)’‘MultiFoley’라는 AI 모델 연구 자료가 발표됐다. 이 모델은 무음 영상에 적합한 고품질 소리를 자동으로 생성할 수 있는 기술이다.

 

MultiFoley는 텍스트, 오디오, 비디오 등 다양한 입력 데이터를 활용해 특정 상황에 적합한 소리를 생성한다. 예를 들어, 스케이트보드의 바퀴 소리만을 생성하거나 사자의 울음소리를 고양이의 울음소리로 변환하는 등 창의적인 사운드 디자인을 지원한다.

 

이 모델은 인터넷 비디오 데이터셋과 전문 사운드 효과(SFX) 데이터를 함께 학습해 최대 48kHz의 고품질 오디오를 제공한다.

 

현재 이 모델은 연구 단계에 있으며, 서비스 출시 계획은 아직 발표되지 않았다.

반응형