수십 년에 걸쳐 가장 혁신적인 소프트웨어는 언제나 오픈소스 소프트웨어 세계에서 등장해왔다. 머신러닝과 대규모 언어모델 역시 예외는 아니다. 오히려 이제는 오픈소스 코드에 더해 이를 보완하는 오픈소스 모델까지 등장하면서, 오픈소스 생태계는 한층 더 풍부하고 복잡해졌다.
이번 기사에서는 AI와 머신러닝 분야에서 특히 흥미롭고 실용적인 프로젝트를 엄선해 소개한다. 이들 가운데 상당수는 기반 프로젝트로, 자체적인 오픈소스 플러그인과 확장 기능을 중심으로 독자적인 생태계를 키워가고 있다. 기본 프로젝트로 시작한 뒤 필요한 구성 요소를 계속 추가해 나갈 수 있다는 점이 특징이다.
대부분의 프로젝트는 데모 코드를 제공해, 기본적인 작업을 이미 수행할 수 있는 실행 버전을 곧바로 구동할 수 있다. 또한 이들 프로젝트를 개발하고 유지하는 기업은 관련 서비스를 함께 판매하는 경우가 많다. 일부는 코드를 대신 배포해 운영 부담을 줄여주고, 또 다른 경우에는 맞춤형 애드온이나 수정 기능을 제공한다. 코드는 여전히 오픈소스로 공개돼 있어 벤더 종속성은 없다. 이러한 서비스는 비용을 지불하고 도입을 보다 수월하게 만드는 지원 수단에 가깝다.
다음은 개발자가 소형부터 대형, 나아가 초대형에 이르기까지 다양한 규모의 머신러닝 및 대규모 언어모델 잠재력을 끌어낼 수 있도록 돕는 오픈소스 프로젝트 16가지다.
에이전트 스킬(Agent Skills)
AI 코딩 에이전트는 리액트 컴포넌트 작성이나 사용자 인터페이스 일부를 검토하는 등 표준적인 작업을 처리하는 데 자주 활용된다. 코딩 에이전트를 직접 개발하고 있다면, 해당 작업에 맞게 검증된 솔루션을 사용하는 것이 합리적이다. 에이전트 스킬은 AI가 필요에 따라 호출해 사용할 수 있도록 미리 구현된 도구 모음이다. 이를 통해 표준 가이드라인을 준수하면서도 정제되고 실용적인 코드를 생성할 수 있는, 목적 지향적인 작업 세트를 제공한다. 라이선스는 MIT다.
어썸 LLM 앱스(Awesome LLM Apps)
에이전트 기반 코딩의 실제 사례를 찾고 있다면 어썸 LLM 앱스 모음집을 참고할 만하다. 이 프로젝트에는 RAG 데이터베이스와 대규모 언어모델을 조합해 만든 수십 개의 애플리케이션이 포함돼 있다. 밈 생성기처럼 단순한 예제도 있고, 저널리스트 에이전트처럼 보다 심층적인 리서치를 수행하는 애플리케이션도 있다. 가장 복잡한 사례에서는 여러 에이전트로 구성된 팀이 협력해 하나의 답에 도달하도록 설계돼 있다. 모든 애플리케이션에는 실험이 가능한 실행 예제가 함께 제공돼, 과거에 어떤 방식이 효과적이었는지를 학습할 수 있다. 이 컬렉션에 담긴 앱들은 전반적으로 자체 프로젝트를 구상하는 데 좋은 영감을 제공한다. 라이선스는 아파치 2.0이다.
비프로스트(Bifrost)
애플리케이션에서 대규모 언어모델 서비스 접근이 필요하지만 특정 서비스를 정하지 않았다면 비프로스트를 살펴보자. 비프로스트는 15개 이상의 언어모델 제공업체를 연결하는 빠르고 통합된 게이트웨이로, 오픈AI와 호환되는 API를 통해 주요 모델 간 차이를 신속하게 추상화한다. 거버넌스, 캐싱, 예산 관리, 로드 밸런싱 같은 필수 기능을 제공하며, 서비스 제공업체로 요청이 전달되기 전에 문제를 사전에 감지하는 가드레일도 포함돼 있다. 수많은 언어모델 제공업체가 지속적으로 더 나은 모델을 발표하는 상황에서, 특정 모델 하나에만 의존할 이유는 없다. 라이선스는 아파치 2.0이다.
클로드 코드(Claude Code)
AI 코딩 어시스턴트의 인기가 보여주듯, AI 애플리케이션을 만드는 개발자뿐 아니라 모든 개발자는 코드 작성과 검토 과정에서 일정 수준의 도움을 원한다. 클로드 코드는 바로 그런 역할을 하는 페어 프로그래머다. 주요 프로그래밍 언어 전반을 학습한 클로드 코드는 더 빠르고 깔끔하며 품질이 높은 코드를 작성하도록 지원한다. 코드베이스 전체를 이해한 뒤 사용자의 지시에 따라 작업을 수행하면서, 동시에 유용한 개선 제안도 제시한다. 자연어 명령만으로도 기존 코드 리팩터링이나 문서화는 물론, 새로운 기능 추가까지 가능하다. 라이선스는 앤트로픽의 상용 이용약관을 따른다.
클로드봇(Clawdbot)
이 목록에 포함된 많은 도구가 다른 사용자를 위한 코드를 만드는 데 초점을 맞췄다면, 클로드봇은 코드를 작성하는 개인 개발자 자신을 위한 AI 어시스턴트다. 데스크톱 환경과 통합돼 카메라 같은 기본 도구부터 브라우저와 같은 대형 애플리케이션까지 제어할 수 있다. 왓츠앱, 텔레그램, 슬랙, 디스코드 등 10여 개 이상의 커뮤니케이션 채널을 통해 명령을 전달할 수 있는 멀티채널 인박스를 제공하며, 크론 작업을 통한 일정 관리 기능도 지원한다. 개인 데이터를 직접 통제하는 사용자를 위한 종합 비서에 가깝다. AI가 일상을 더 편리하게 만드는 기술이라면, 데스크톱 애플리케이션을 정리하고 관리하는 것부터 시작해볼 만하다. 라이선스는 MIT다.
디파이(Dify)
대규모 언어모델을 단 한 번 호출하는 수준을 넘어서는 프로젝트라면 디파이가 대안이 될 수 있다. 디파이는 복잡한 에이전트 워크플로를 구축하기 위한 개발 환경으로, 대규모 언어모델과 RAG 데이터베이스, 다양한 외부 소스를 하나로 연결한다. 서로 다른 프롬프트와 파라미터 조건에서의 성능을 모니터링하고, 이를 대시보드 형태로 정리해 결과를 반복적으로 개선할 수 있도록 돕는다. 에이전트형 AI 개발에는 빠른 실험과 검증이 필수적인데, 디파이는 이러한 실험을 수행하기에 적합한 환경을 제공한다. 라이선스는 일부 상업적 사용을 제한한 수정된 아파치 2.0이다.
아이겐트(Eigent)
에이전트 워크플로의 가능성과 한계를 살펴보는 가장 효과적인 방법은 이를 자신의 환경에 직접 배포해, 실제 문제 해결에 활용해보는 것이다. 아이겐트는 코드 작성, 웹 검색, 문서 생성 등 다양한 작업을 수행하는 전문 에이전트 인력을 제공한다. 사용자는 지시만 내리면 아이겐트의 대규모 언어모델이 이를 최대한 수행하려 한다. 많은 스타트업이 자사 제품을 직접 사용한다고 강조하지만, 아이겐트는 AI 개발자가 자신이 구축하는 언어모델의 강점과 한계를 직접 체감할 수 있도록 한다. 라이선스는 아파치 2.0이다.
헤드룸(Headroom)
프로그래머는 흔히 데이터를 가능한 한 많이 담아두려는 성향이 있다. 데이터가 유용하다면 더 추가하지 않을 이유가 없기 때문이다. 그러나 대규모 언어모델을 사용하는 코드에서는 이러한 접근이 문제가 된다. 언어모델 서비스는 토큰 단위로 비용을 청구하고, 컨텍스트 윈도 역시 제한돼 있기 때문이다. 헤드룸은 민첩한 압축 알고리즘을 활용해 불필요한 요소를 제거하며, 특히 JSON과 같은 일반적인 형식에 포함된 과도한 레이블과 구두점을 효과적으로 줄인다. 실제로 동작하는 AI 애플리케이션을 설계하는 과정에서 비용 관리가 중요한 만큼, 토큰을 줄이는 것은 곧 비용 절감으로 이어진다. 라이선스는 아파치 2.0이다.
허깅페이스 트랜스포머(Hugging Face Transformers)
완전히 새로운 머신러닝 프로젝트를 시작할 때 허깅페이스 트랜스포머는 가장 탄탄한 기반 가운데 하나로 평가받는다. 트랜스포머는 모델이 외부 환경과 상호작용하는 방식을 정의하는 표준 형식을 제공해, 학습이나 배포 과정에서 새로운 모델을 기존 인프라에 쉽게 적용할 수 있도록 한다. 이를 통해 텍스트, 비전, 오디오, 비디오 등 다양한 영역에서 이미 구축된 도구와 인프라와 자연스럽게 연동된다. 표준화된 패러다임에 맞추면 기존 도구를 적극 활용하면서도 연구의 최전선에 집중하기가 한층 수월해진다. 라이선스는 아파치 2.0이다.
랭체인(LangChain)
지속적인 반복과 개선이 요구되는 에이전트형 AI 솔루션에서는 랭체인이 작업을 체계적으로 정리하는 역할을 한다. 다양한 모델의 작업 결과를 하나로 묶어, 사람이 이를 검토하고 정제하기 쉽게 만든다. 보다 깊은 사고와 계획이 필요한 작업에서는 여러 모델을 활용하는 에이전트를 구성해 하나의 해법으로 수렴하도록 지원한다. 랭체인의 아키텍처에는 장기 메모리를 갖춘 맞춤형 워크플로를 구성하는 프레임워크인 랭그래프와, 성능을 평가하고 개선하는 도구인 랭스미스가 포함돼 있다. 또한 딥 에이전트 라이브러리는 문제를 하위 과제로 나눈 뒤 이를 해결하는 서브 에이전트 팀을 제공한다. 에이전트 실험과 실제 운영 환경 배포 모두에서 검증된 유연한 테스트베드라는 평가를 받는다. 라이선스는 MIT다.
라마인덱스(LlamaIndex)
대규모 언어모델의 초기 활용 사례 가운데 상당수는 반정형 데이터 대량을 정리해 사용자 질문에 유용한 답을 제공하는 데 초점이 맞춰져 있다. 표준 언어모델에 사내 데이터를 빠르게 결합하는 방법 중 하나가 라마인덱스를 활용해 데이터를 수집하고 인덱싱하는 것이다. 이 도구는 문서, 표, 각종 데이터 묶음을 몇 줄의 코드만으로 풀어 정리할 수 있는 데이터 커넥터를 제공한다. 작업 성격에 따라 하위 계층을 조정하거나 확장할 수 있으며, 기업 환경에서 흔히 사용되는 다양한 데이터 형식과도 호환된다. 라이선스는 MIT다.
올라마(Ollama)
노트북 환경에서 대규모 언어모델을 실험하는 개발자라면 올라마는 매우 간단하게 시작할 수 있는 도구 가운데 하나다. 설치를 마치면 명령줄이 소형 챗GPT 인터페이스처럼 동작하며, 점점 확장되는 오픈소스 모델 라이브러리에서 다양한 모델을 내려받아 사용할 수 있다. ollama run <모델명> 명령어만 입력하면 즉시 모델을 실행할 수 있다. 일부 개발자는 이를 대규모 언어모델 결과를 제공하는 백엔드 서버로 활용하고 있다. 과거에는 상당한 엔지니어링 작업이 필요했던 안정적이고 신뢰할 수 있는 언어모델 인터페이스를 손쉽게 제공한다는 점이 특징이다. 서버 구성이 단순화되면서, 개발자는 인기 오픈소스 LLM을 활용해 보다 고차원적인 작업에 집중할 수 있다. 라이선스는 MIT다.
오픈웹UI(OpenWebUI)
채팅 인터페이스와 전용 RAG 데이터베이스를 갖춘 웹사이트를 빠르게 구축하는 방법 가운데 하나가 오픈웹UI 인스턴스를 실행하는 것이다. 이 프로젝트는 기능이 풍부한 프런트엔드와 개방형 백엔드를 결합해, 몇 개의 도커 컨테이너만으로도 맞춤형 채팅 인터페이스를 시작할 수 있도록 한다. 다만 이는 출발점에 불과하다. 각 단계의 데이터를 강화할 수 있는 플러그인과 확장을 추가할 수 있기 때문이다. 프롬프트부터 응답에 이르는 거의 모든 과정을 조정하거나 교체하고 개선할 수 있다. 단순히 설치만으로 만족하는 팀도 있겠지만, 진정한 강점은 자체 코드를 추가하는 데서 나온다. 오픈웹UI는 단일 프로젝트를 넘어, 수백 개에 이르는 기여 코드와 부가 프로젝트로 구성된 생태계를 형성하고 있다. 파이프라인을 세밀하게 커스터마이징하고 MCP 프로토콜을 활용할 수 있어, 정밀한 솔루션 제공이 가능하다. 라이선스는 엔터프라이즈 라이선스 없이 오픈웹UI 브랜딩 제거를 제한하는 수정된 BSD다.
심(Sim)
심은 에이전트 워크플로를 보다 쉽게 실험할 수 있도록 설계된 드래그 앤 드롭 방식의 캔버스를 제공한다. 다양한 대규모 언어모델과 벡터 데이터베이스와의 상호작용은 도구가 처리하며, 사용자는 이들을 어떻게 연결할지만 결정하면 된다. 심과 같은 인터페이스는 코드를 작성할 줄 모르는 구성원까지 포함해, 팀 전체가 에이전트 기반 경험에 참여할 수 있도록 접근성을 높인다. 라이선스는 아파치 2.0이다.
언슬로스(Unsloth)
기반 대규모 언어모델의 성능을 활용하는 가장 직관적인 방법 가운데 하나는 오픈소스 모델을 자체 데이터로 미세 조정하는 것이다. 언슬로스는 이러한 작업을 다른 솔루션보다 빠르게 수행하는 경우가 많다. 주요 오픈소스 모델 대부분은 강화학습을 통해 변형할 수 있으며, 언슬로스는 다양한 표준 정밀도와 대규모 컨텍스트 윈도를 지원하도록 설계됐다. 항상 최적의 답이 RAG 데이터베이스에서 직접 나오지는 않는다. 경우에 따라서는 모델 자체를 조정하는 것이 더 효과적인 해법이 될 수 있다. 라이선스는 아파치 2.0이다.
vLLM
대규모 언어모델을 실제 서비스로 활용하려면 vLLM으로 실행하는 방식이 효과적이다. vLLM은 허깅페이스 같은 저장소에서 다양한 오픈소스 모델을 불러온 뒤, 데이터 흐름을 조율해 지속적으로 안정적인 실행을 가능하게 한다. 입력되는 프롬프트를 배치 처리하고 파이프라인을 관리해, 모델이 빠른 응답을 꾸준히 제공하도록 한다. CUDA 아키텍처뿐 아니라 AMD CPU와 GPU, 인텔 CPU와 GPU, 파워PC CPU, Arm CPU, TPU까지 폭넓게 지원한다. 노트북 환경에서 여러 모델을 실험하는 것과 실제 운영 환경에 배포하는 것은 전혀 다른 문제인데, vLLM은 성능을 끌어올리기 위해 반복적으로 발생하는 다양한 운영 작업을 대신 처리한다. 라이선스는 아파치 2.0이다.
dl-ciokorea@foundryco.com
Read More from This Article: AI·머신러닝 판을 바꾸는 오픈소스 프로젝트 16선
Source: News

