“최신 음성 생성 기술은 대화 스크립트와 화자 전환 표시(speaker turn markers)만 주어지면 2분 분량의 대화를 화자 일관성을 가진 높은 오디오 품질로 생성할 수 있다. 이 모델은 단일 텐서 프로세싱 유닛(TPU) v5e 칩에서 3초 이내에 한 번의 추론 패스로 이 작업을 수행한다. 즉, 실시간보다 40배 이상 빠르게 오디오를 생성한다.”
구글 딥마인드(DeepMind)가 그동안 진행해 온 오디오 생성 연구의 기반이 된 기술 개요를 ‘오디오 세대의 지평을 넓히다‘라는 제목으로 블로그를 통해 소개했다. 단순한 소리 생성과 합성에서 시작한 오디오 생성 연구는 이제 실제 사람의 목소리를 완벽에 가깝게 생성하는 것은 물론이고 어조, 음색, 감정 표현까지 실제 사람과 구분하기 힘들 만큼 구현하는 단계에 이르렀다.
사운드스트림(SoundStrem)과 오디오LM(AudioLM)은 딥마인드가 오디오 생성 연구의 기반을 닦고 생성 모델을 확장하는 데 기반이 된 기술이다. 사운드스톰에 대한 이전 연구에서 여러 화자의 자연스러운 대화를 30초 분량을 생성하는 기능을 처음 생성했고, 이를 확장해 사운드스트림과 오디오LM에 다양한 텍스트 기반 언어 모델링 기술을 적용했다.
사운드스트림은 오디오 입력 품질에 영향을 주지 않고 효율적인 압축 및 압축 해제가 가능한 신경 오디오 코덱으로, 학습 과정의 일부로 오디오를 다양한 음향 토큰에 매핑하는 방법을 학습한다. 토큰은 운율, 음색 등의 오디오 속성을 포함하여 높은 오디오 충실도로 재구성하는 데 필요한 모든 정보를 캡처한다.
오디오LM은 오디오 생성을 언어 모델링 작업으로 처리하여 사운드스트림과 같은 코덱의 음향 토큰을 생성한다. 따라서 오디오LM 프레임워크는 생성되는 오디오의 유형이나 구성에 대한 가정을 하지 않으며, 아키텍처 조정 없이 다양한 사운드를 유연하게 처리할 수 있으므로 다중 화자 대화를 모델링하는 데 적합하다.
사운드스트림은 고품질 저용량의 오디오 생성에, 오디오LM은 다중 화자 대화에 초점을 맞춘 기술이라는 의미다. 이를 기반으로 텍스트로 파일로 구성된 대화 내용 스크립트와 말하는 사람이 전환되는 시점만 알려주면 최대 2분 분량의 자연스러운 대화를 생성할 수 있다.
실제 사람 사이의 대화라면 2분 분량의 대화를 위해서는 역시 2분 동안의 대화를 이어가며 이를 녹음해야 한다. 하지만 인공지능을 활용한 오디오 생성에서는 얘기가 달라진다. 오디오 생성 모델을 활용하는 것은 ‘녹음’이 아닌 ‘생성’인 만큼, 이를 처리하는 시스템 성능에 따라 생성 시간이 달라진다.
예를 들어 구글의 텐서 프로세싱 유닛(TPU) v5e 칩에서 작업을 수행한다면 2분(120초) 분량의 오디오 대화 파일을 생성하는 데 3초가 소요된다고 딥마인드는 밝혔다. 여러 사람이 대화하는 내용을 오디오 파일을 생성할 때 시간을 획기적으로 단축할 수 있는 셈이다.
이 과정에서 다중 화자 모델로 확장할 때 발생하는 데이터와 모델 용량의 문제를 해결해야 했다. 딥마인드는 이를 위해 출력 품질을 손상하지 않고 초당 600비트(bit)라는 낮은 속도로 오디오를 토큰 시퀀스로 압축할 수 있는 효율적인 음성 코덱을 만들었다. 이 코덱을 사용하더라도 2분 분량의 대화에는 5,000개 이상의 토큰 생성이 필요한데 이를 효율적으로 처리할 수 있는 트랜스포머(Transformer) 아키텍처도 개발했다.
아울러 다중 화자 대화를 생성하는 모델 학습을 위해 수십만 시간 분량의 음성 데이터 모델을 사전 학습하고, 음향 품질이 높고 대화하는 사람에 대한 정확한 주석이 있는 훨씬 작은 대화 데이터 세트로 미세 조정하는 과정을 거쳤다. 이를 통해 대화 중에 음~이나 아~하는 소리를 넣거나, 안정적인 대화 전환, 실제와 같은 멈춤 등의 오디오 출력을 학습했다.
이러한 다중 화자 대화 생성 기능을 적용한 것이 ‘노트북LM 오디오 오버뷰'(NotebookLM Audio Overviews)‘와 ‘일루미네이트(Illuminate)‘다. 노트북LM 오디오 오버뷰는 텍스트 문서를 업로드하면 자료를 요약한 후, 이를 두 사람이 대화하는 오디오 파일로 만들어준다.
일루미네이트는 논문을 선택하면 핵심 사항을 논의하는 두 명의 AI 생성 음성으로 오디오를 생성한다. 현재 출판된 컴퓨터 과학 학술 논문에 최적화되어 있는 실험용 제품으로, AI가 생성한 음성으로 두 명이 대화하는 오디오로 구성되어 있다. 아직은 시험 버전인 만큼 원본의 뉘앙스를 완벽하게 살리지 못하거나 오류나 불일치가 있을 수 있다.
딥마인드가 그동안 연구했던 오디오 생성 기술은 제미나이 라이브(Gemini Live), 프로젝트 아스트라(Project Astra), 저니 보이스(Journey Voices), 유튜브 자동 더빙(YouTube’s auto dubbing) 등 다양한 구글 제품에 적용됐다. 앞으로는 더욱 고품질의 음성을 생성하고 보다 세부적인 음성 제어를 추가할 계획이며 이를 비디오 등에 결합하는 연구를 진행할 예정이라고 딥마인드는 밝혔다.
dl-ciokorea@foundryco.com
Read More from This Article: 딥마인드, 오디오 생성 기반 기술 ‘사운드스트림’과 ‘오디오LM’ 소개
Source: News