안녕하세요! 저희는 AI팀에서 비전 딥러닝 모델을 개발하는 박정현, 이유진 입니다.
저희는 올 해 쓱렌즈 서비스인 멀티모달 검색에 사용되는 이미지와 텍스트 기반의 멀티모달 모델 학습을 진행하고 있는데요, 효율적인 학습셋 생성을 위해 VLM(Vision Language Models), LLM(Large Language Models)을 적극 활용하였고 이 경험을 나누고자 포스팅을 하게 되었습니다.
SSG Lens의 멀티모달 검색 도입
SSG.COM의 AI 비전 검색 서비스인 SSG Lens(쓱렌즈)는 고객이 찾고자 하는 상품을 이미지로 검색할 수 있는 서비스입니다. 스마트폰으로 제품을 촬영하거나 이미지를 업로드하면 유사한 상품을 SSG.COM에서 찾아주고, 이미지에 맞는 속성 필터를 제공하여 편리한 쇼핑을 도와주는 것이 주요 기능이었습니다.
올해 6월, SSG Lens는 한 단계 진화한 멀티모달 검색 기능을 베타 오픈했습니다. 이 기능은 이미지와 텍스트를 동시에 활용해 더 정확한 검색 결과를 제공합니다. 예를 들어, 마음에 드는 스타일의 소파이지만 패브릭이면서 그레이 컬러인 또 다른 소파들을 찾고 싶다면 마음에 드는 소파 이미지를 올리고 “패브릭 소재의 그레이 컬러 소파”라고 텍스트로 추가 요청을 하면, AI가 이미지의 디자인 특징과 텍스트 요구사항을 모두 반영한 검색 결과를 보여줍니다.
이러한 고도화된 검색 서비스의 핵심에는 멀티모달 모델이 있습니다. 멀티모달 모델은 텍스트, 이미지, 음성, 비디오 등 다양한 종류의 데이터를 동시에 이해하고 처리하는 모델입니다. 이런 모델을 학습시키기 위해서는 목적에 맞는 학습셋이 필요한데, 많은 데이터로 깊은 신경망을 학습시켜야 하는 딥러닝 모델의 특성상 더욱 많은 학습셋이 요구됩니다.
저희 AI팀에서 이미지와 텍스트를 더 잘 이해하는 모델을 서비스하기 위해 SSG Lens의 멀티모달 검색 서비스 중 “가구”의 일부 카테고리(소파, 서랍장 등)를 업그레이드하는 프로젝트를 시작했습니다.