안녕하세요, 카카오의 AI 모델을 개발하는 카나나 알파(Kanana ⍺) 조직에서 자체 언어모델을 개발하고 있는 Juliet입니다. 저희 조직에서는 카나나 언어모델(Kanana LLM: Kanana Nano, Essence, Flag)의 Pre-training을 담당하고 있습니다.
이번 글에서는 글로벌 경쟁력을 갖춘 작은 언어모델(SLM) 시리즈를 비용 효율적으로 개발하기 위한 실험 과정과 결과를 소개하고자 합니다. 이전 “밑바닥부터 Kanana LLM 개발하기: Pre-training”에서 소개해 드린 Kanana Essence와 이를 Kanana Nano로 압축하는 과정을 넘어, 그보다 훨씬 더 작은 언어모델까지 개발하며 얻은 노하우를 상세히 공유하겠습니다.
참고로, 여기서 소개하는 Kanana Nano-2.1B와 이를 기반으로 한 Instruct 및 Embedding 모델은 직접 사용해 보실 수 있도록 추후 오픈소스로 공개할 예정입니다. 이때 카나나 언어모델 전체를 소개하는 Tech report도 함께 공개할 예정이니 많은 관심 부탁드립니다.