‘Foundational Generative Audio Transformer Opus 1’의 약자인 푸가토는 텍스트와 오디오를 활용해 다양한 소리를 생성하고 변환하는 AI 모델이다. 2.5억 개의 파라미터로 구성된 이 모델은 NVIDIA H100 텐서 코어 GPU 32개가 탑재된 DGX 시스템에서 학습되었다.
엔비디아는 사용자가 묘사할 수 있는 것이면 푸가토는 거의 무엇이든 생성 가능하다고 밝혔다. 예를 들어, 텍스트 입력만으로 짧은 음악을 만들고, 기존 곡의 악기를 편집하며, 음성의 억양과 감정을 조절할 수 있다. 또한 트럼펫으로 강아지가 짖는 소리나 색소폰으로 고양이 울음소리를 구현하는 등 이전에 없던 새로운 소리도 창작할 수 있다.
엔비디아는 기존 텍스트-음악 생성 도구와 달리 푸가토가 3가지 측면에서 새로운 기술이라고 설명했다. 먼저 독립적으로 훈련된 명령을 조합해 실행하며, 생성되는 음악의 억양 강도나 감정 깊이를 세밀하게 조정할 수 있다. ‘프랑스 억양의 슬픈 감정으로 말하는 음성’처럼 복합적인 명령을 수행할 수 있다는 것이다. 두 번째, 시간 변화에 따른 특정 조건을 적용해 ‘천둥이 치는 폭풍우가 멈추고 점차 새소리가 들리는 새벽 소리’과 같은 명령이 가능하다. 마지막으로 훈련 데이터에 없는 완전히 새로운 소리도 만들 수 있다.
푸가토는 오케스트라 지휘자 겸 작곡가인 라파엘 발레가 엔비디아 응용 오디오 연구 매니저로 참여해 개발됐다. 발레는 “인간이 소리를 이해하고 만들어내는 방식과 유사한 모델을 개발하고자 했다”라고 설명했다.
엔비디아는 푸가토가 음악 작곡, 광고 제작, 게임 개발, 교육 콘텐츠 생성 과정에서 활용될 수 있을 것으로 기대했다. 푸가토의 구체적인 출시 시점을 밝히지 않았지만, 가까운 시일 안에 공개할 예정이라고 설명했다.
[email protected]
Read More from This Article: “피아노로 웃는 소리를 표현해줘”···엔비디아, AI 음악 생성기 ‘푸가토’ 선봬
Source: News