“가격은 오픈AI 대비 95% 저렴, 성능은 비슷” ··· AI 업계 슈퍼 루키 딥시크, 추론 모델 ‘R1’ 오픈소스로 공개
R1-제로는 지도학습 없이 강화학습만으로 개발된 모델로, 자체 검증, 성찰, 연쇄적 사고 등 뛰어난 추론 능력을 보여준다. 이 모델에서 발견된 무한 반복, 가독성 저하, 여러 언어 혼재 등의 문제점을 보완하기 위해 R1은 강화학습 전 기초 데이터를 선학습하는 방식으로 개발됐다. 6,710억 개 파라미터 규모의 R1은 128K 컨텍스트 길이를 지원한다. MIT 라이선스로 허깅페이스를 통해 공개된 R1과 R1-제로는 학계…