배경

몇주에 하나씩 빅테크 및 스타트업에서 LLM 모델 및 Foundation model을 업로드하고 있다 (정말 정신없을정도로 빠르다!).

트위터로 논문 소식을 팔로잉하는데, 논문들이 다 그렇듯이 벤치마크 결과만 보면 다 자기가 제일 잘났다고 한다.

실제로 돌려봐야 성능을 제대로 가늠하겠다만…

Docker로 감싸주지 않는 오픈소스도 많고, 무엇보다 LLM이다보니 내 GPU가 힘들어한다.

얼마전 NVIDIA 웹사이트를 뒤져보다가 아주 멋진 리소스를 발견해서 공유한다.

무려 ‘GPU 없이 공짜로’ 최신 LLM과 Foundation model을 쓸 수 있다.

NVIDIA NGC

NVIDIA NGC 카탈로그 링크로 들어가면 위와 같은 화면이 나온다.

여기서 Foundation model 란에 들어가면…

짜잔!

최신 LLM을 다 모아볼 수 있다.

Meta의 llama2와 code-llama, Mistral의 Mixtral 8x7B, StableAI의 Stable diffusion Large , Google의 Gemmma, 오픈소스인 StarCoder까지…

심지어 Google에서 만든 Gemma는 출시된지 이틀만에 NGC에 올라왔다 ㄷㄷ

Meta의 Code Llama를 이용해서 코드 생성을 한 것이다.

딱 봐도 속도가 엄청나게 빠르다 ㄷㄷ

ChatGPT처럼 과부화된 서버를 사용하지 않으면 원래 이정도 속도가 나오나보다.

장점
- GPU 없이 무료로 LLM과 Foundation model을 사용해볼 수 있다.
- 최신 LLM과 Foundation model을 환경설정 없이 + 다운로드 없이 편하게 써볼 수 있다.
- ChatGPT 보다 훨씬 빠르다.
- 심지어 파라미터 튜닝도 가능하다.
- API를 연결해서 결과만 받아볼 수도 있다.
단점
- ChatGPT나 Claude에 비해 LLM 성능이 많이 떨어진다.
  - 아마 전처리 프롬프트가 따로 없어서 그런것 같다.
- ChatGPT나 Claude에서는 파일을 업로드해서 LLM 처리가 가능한데, 여기에는 없다.