바이트댄스, AI 동영상 모델 ‘씨댄스 2.0’ 출시··· 텍스트·이미지·오디오·비디오 동시 입력 지원

씨댄스 2.0은 텍스트, 이미지, 오디오, 비디오를 통합적으로 처리하는 멀티모달 음·영상 공동 생성 아키텍처를 기반으로 개발됐다. 기존 1.5 버전 대비 생성 품질과 제어 기능이 개선됐으며, 특히 복합 장면과 상호작용이 많은 영상 환경에서의 안정성 향상에 초점을 맞췄다.

바이트댄스 공식 블로그에 따르면, 씨댄스 2.0은 복잡한 움직임이나 다수 인물이 등장하는 장면에서 비교적 안정적인 결과물을 생성하는 데 중점을 두고 있다. 인물 간 상호작용, 빠른 동작 전환, 카메라 이동이 포함된 장면에서도 물리적 일관성을 유지하려는 설계가 적용됐다. 예를 들어 스포츠 경기나 군무, 액션 장면 등 고난도 동작이 포함된 장면에서 동작의 연결성과 균형을 보다 자연스럽게 구현하는 데 개선이 이루어졌다.

멀티모달 입력 범위도 확대됐다. 사용자는 최대 이미지 9개, 영상 3개, 오디오 클립 3개와 텍스트 지시문을 조합해 입력할 수 있다. 모델은 이 자료들을 종합적으로 분석해 구도, 동작, 분위기, 음향 특성 등을 참고한 새로운 영상을 생성한다. 바이트댄스는 “이 기능이 기존 단일 텍스트·이미지 입력 방식 대비 창작 자유도를 높여줄 것”이라고 설명했다.

영상 제어 기능도 보완됐다. 비교적 긴 스크립트나 세부 동작 지시가 포함된 요청에 대해 지시문 반영 정확도가 향상됐으며, 생성 이후 특정 장면이나 인물, 동작을 수정하는 편집 기능이 추가됐다. 또한 기존 영상에 이어지는 장면을 생성하는 ‘영상 연장’ 기능도 지원한다. 이를 통해 하나의 결과물을 반복적으로 보완하거나 확장하는 작업이 가능해졌다.

오디오 기능 역시 업데이트됐다. 씨댄스 2.0은 듀얼 채널 스테레오 음향을 지원하며, 배경음, 효과음, 대사 등을 영상과 동기화해 출력할 수 있다. 빗소리, 마찰음, 발걸음 소리 등 세부적인 음향 표현에서 정밀도를 높이려는 개선이 반영됐다. 특히 음성과 화면 간 타이밍 정합성을 강화해 시청 경험의 일관성을 높이는 데 초점을 맞췄다.

적용 분야는 광고, 영상 콘텐츠 제작, 게임 애니메이션, 전자상거래 영상 등 다양한 영역을 포함한다. 최대 15초 분량의 멀티샷 영상과 음향을 함께 생성할 수 있도록 설계됐으며, 전문 제작 환경에서의 활용 가능성을 염두에 두고 기능이 구성됐다. jihyun.lee@foundryco.com

바이트댄스, AI 동영상 모델 ‘씨댄스 2.0’ 출시··· 텍스트·이미지·오디오·비디오 동시 입력 지원

Related posts