공개 대상은 비디오 파운데이션 모델 ‘Tongyi Wanxiang(통이 완샹)’의 최신 버전인 Wan2.1 시리즈 중 140억(14B) 및 13억(1.3B) 매개변수 모델 4종이다. 각각 T2V-14B, T2V-1.3B, I2V-14B-720P, I2V-14B-480P인 4종의 모델은 텍스트 및 이미지 입력을 기반으로 고품질 이미지와 영상을 생성하도록 설계됐다.
올해 초 공개된 Wan2.1 시리즈는 중국어와 영어에서 텍스트 효과를 지원하는 AI 영상 생성 모델이다. 복잡한 움직임을 정밀하게 처리하고, 픽셀 품질을 향상시키며, 물리적 원칙을 준수하며, 명령 실행 정확도를 최적화하는 등 사실적인 영상 생성 능력에서 강점을 발휘한다고 회사는 설명했다.
실제로 Wan2.1은 영상 생성 모델의 종합 벤치마크인 VBench리더보드에서 1위를 기록했으며, 허깅페이스의 VBench 리더보드 상위 5개 모델 중 유일한 오픈소스 영상 생성 모델로 자리매김했다고 알리바바 클라우드는 전했다.
설명에 따르면 T2V-14B 모델은 복잡한 동작이 포함된 고품질 영상 생성에 최적화되어 있으며, T2V-1.3B 모델은 생성 품질과 연산 효율성의 균형을 맞춘 작업에 적합하다. 예를 들어, T2V-1.3B 모델은 개인용 노트북에서도 480p 해상도의 5초 길이 영상을 약 4분 만에 생성할 수 있다.
또한, I2V-14B-720P 및 I2V-14B-480P 모델은 텍스트 기반 영상 생성뿐만 아니라 이미지 기반 영상 생성 기능까지 지원한다.
이번에 공개된 모델 4종은 알리바바 클라우드의 AI 모델 커뮤니티인 ‘모델스코프(ModelScope)’와 협업형 AI 플랫폼 ‘허깅페이스(Hugging Face)’에서 다운로드할 수 있다.
알리바바 클라우드는 2023년 8월 자체 개발한 대규모 AI 모델 ‘Qwen(Qwen-7B, 이하 큐원-7B)’을 처음 공개한 바 있다.
[email protected]
Read More from This Article: 알리바바 클라우드, AI 기반 동영상 생성 모델 ‘Wan2.1’ 오픈소스로 공개
Source: News