안녕하세요, 카카오의 AI 모델 개발을 담당하는 카나나 알파(Kanana ⍺) 조직에서 멀티모달 언어모델을 개발하고 있는 Logan(차준범)입니다.
최근 언어모델의 놀라운 발전은 AI를 일상의 동반자로 만들며, 혁신적인 변화를 가져왔습니다. 하지만, 우리의 일상적인 소통은 텍스트를 넘어 시각, 청각 및 음성 등 다양한 감각에 걸쳐 이루어지는데요. 다른 사람들의 표정과 목소리 톤에서 그 감정을 느끼고, 때로는 사진이나 영상을 함께 보며 이야기를 나누죠.
바로 이러한 이유에서 텍스트, 이미지와 음성 등 다양한 정보를 처리할 수 있는 멀티모달 언어모델이 크게 주목받고 있습니다. 현재 저희 조직에서는 사람처럼 보고 듣고 말하며 사용자와 자연스럽게 상호작용을 하는 AI 개발을 목표로, 멀티모달 언어모델 연구에 매진하고 있습니다. 이를 통해 AI가 사용자가 보는 것을 함께 보고, 문제를 파악하여 적절한 해결책을 제시하거나, 영상과 음성을 활용하여 더 직관적이고 효과적인 의사소통을 할 수 있을 것으로 기대하고 있습니다.
이번 글에서는 카카오의 멀티모달 언어모델의 시작점인 이미지 이해 모델 Kanana-v의 현재 성능을 시작으로, 개발 과정과 활용 예시, 그리고 앞으로의 발전 방향을 소개하고자 합니다.