반응형
무음 영상에 고품질의 소리를 추가할 수 있는 기술적 가능성을 제시한 새로운 AI 기반 사운드 생성 모델 ‘MultiFoley’의 연구가 발표됐다.
현지시간 지난달 26일 오픈 엑세스 논문 저장소 ‘아카이브(arXiv)’에 ‘MultiFoley’라는 AI 모델 연구 자료가 발표됐다. 이 모델은 무음 영상에 적합한 고품질 소리를 자동으로 생성할 수 있는 기술이다.
MultiFoley는 텍스트, 오디오, 비디오 등 다양한 입력 데이터를 활용해 특정 상황에 적합한 소리를 생성한다. 예를 들어, 스케이트보드의 바퀴 소리만을 생성하거나 사자의 울음소리를 고양이의 울음소리로 변환하는 등 창의적인 사운드 디자인을 지원한다.
이 모델은 인터넷 비디오 데이터셋과 전문 사운드 효과(SFX) 데이터를 함께 학습해 최대 48kHz의 고품질 오디오를 제공한다.
현재 이 모델은 연구 단계에 있으며, 서비스 출시 계획은 아직 발표되지 않았다.
반응형
'AI' 카테고리의 다른 글
중국 AI 모델 딥시크, 미국 AI 모델 성능 능가 (0) | 2025.01.28 |
---|---|
트렐리스(Trellis), 3D 모델링의 새로운 패러다임을 제시하다 (0) | 2024.12.09 |
런웨이, AI 기반 영상 생성 모델 'Gen-3' 출시 (0) | 2024.11.14 |
AI를 곁들인 검색엔진 등장?...openAI ‘서치GPT’ (3) | 2024.11.04 |
챗GPT 보고 있니?... 앤트로픽 클로드 3.5 시리즈 대폭 강화 (1) | 2024.10.27 |