공감각적 AI 학습/표현
summary → 빠르게 요점만!
메타(페이스북)은 인간이 정보를 습득할 때 시각적, 청각적으로 여러 감각을 사용하듯,
기계도 이와 같이 여러 가지 형태의 정보를 동시에, 종합적으로, 직접적으로(simultaneously, holistically, and directly) 학습할 수 있도록 여러 가지 다른 형태의 정보를 한 번에 처리할 수 있는 ImageBind를 만들었습니다. (오픈소스)
이 모델은 텍스트, 이미지/비디오, 오디오 뿐만 아니라 3D, 적외선 및 IMU(관성측정) 센서로부터 정보를 바인딩하여 기계에게 전반적인 이해력을 제공합니다.
이러한 기술의 중요한 특징은 각각의 모달리티마다 특정한 임베딩을 가지고 있지 않아도 여러 모달리티 간의 공통된 임베딩 공간을 만들 수 있다는 것이며, 이는 기계가 인간처럼 종합적으로 다양한 데이터를 분석하는 것을 가능하게 합니다.
*모달리티 → 데이터가 갖는 다양한 형태나 유형을 의미. 예를 들어, 이미지는 시각적인 모달리티, 오디오는 청각적인 모달리티, 텍스트는 언어적인 모달리티 등으로 분류
*임베딩 → 기계학습에서 사용되는 벡터화된 데이터 표현 방법. 임베딩은 원본 데이터를 고차원 공간에서 저차원 공간으로 변환하여 데이터 간의 관계를 쉽게 파악할 수 있도록 함.
인간 같이 학습하는 것의 의미와 성능
summary → 빠르게 요점만!
인간은 몇 가지 예시만으로도 새로운 개념을 학습할 수 있습니다.
예를 들어 동물에 대한 설명만으로도 그것을 실제로 인식할 수 있으며, 생소한 자동차 모델의 사진을 보면 그 엔진 소리를 예상할 수 있습니다.
이러한 능력은 이미지가 다양한 감각 경험을 모아 하나의 이미지로 연결해 주기 때문입니다.
그러나 인공지능에서는 여러 모달리티의 수가 증가함에 따라, 짝 지어진 데이터에 의존하는 표준적인 다중 모달리티 학습이 제한될 수 있습니다.
이를 극복하기 위해 ImageBind는 최근 대규모 언어-시각 모델을 활용하여, 이미지를 기반으로 새로운 모달리티를 학습하고 연결하는 방법을 개발하였습니다.
이를 통해, 다양한 모달리티들 간에 공통된 특징을 추출할 수 있게 되었습니다. ImageBind는 이를 통해, 다양한 모달리티들이 서로 상호작용하며 연결될 수 있게 되어, 다양한 모델들이 다른 모달리티를 이해하고 사용할 수 있도록 도와줍니다.
이를 통해 이미지 생성 모델을 업그레이드하여, 음성에 기반한 이미지 생성을 가능하게 하는 등 다양한 분야에 적용할 수 있습니다.
ImageBind 기술은, 이미지 기반으로 한 적은 수의 데이터를 이용해 새로운 모달리티(음성, 깊이 등)의 분류 작업에서 이전 방법보다 더 높은 성능을 보입니다. 예를 들어, 기존의 self-supervised AudioMAE 모델보다 40% 이상의 성능 향상을 보여주며, 새로운 모달리티에 대한 zero-shot 인식 작업에서도 최신 모델을 능가할 정도의 성능을 보입니다.
시사점
summary → 빠르게 요점만!
ImageBind 기술은 다양한 모달리티들을 조합하여 새로운 창조적인 가능성을 보여줍니다.
예를 들어, 해변 일몰을 찍은 비디오에 적절한 배경음을 추가하거나, 사진에서 비슷한 개들을 찾아내는 등의 기능이 가능해집니다.
또한, 이미지와 음성을 조합하여 동적인 애니메이션을 만들어 낼 수 있습니다.
다양한 모달리티를 활용하는 것은 더욱 풍부한 AI 모델을 만들 수 있게 하며, 더 많은 연구와 새로운 응용 분야를 개척할 수 있을 것입니다. ImageBind 기술은 이러한 연구를 진행하고, 새로운 방법론과 응용 분야를 발견할 수 있도록 도와줄 것입니다.
전문 번역