🚎

Whisper보다 6배빠른 ditil-Whisper로 오디오데이터에서 RAG 수행기(백혜림)

Overview

•

오디오 → Distil-Whisper → Text

•

‘22년 9월에 출시된 음식인식(ASR, Speech to Text)

•

다양한 언어로 학습하고, 훈련데이터 총 680,000시간 중 한국어 8,000시간 학습

•

Whisper보다 속도는 6배 빠르다, 성능은 1%로 유지

•

라이선스가 있는 9개의 오픈 소스 데이터 셋 22,000시간 분량 → 한국어는 지원하지 않음. ㅠ