///
Search
🚎

Whisper보다 6배빠른 ditil-Whisper로 오디오데이터에서 RAG 수행기(백혜림)

Overview

오디오 → Distil-Whisper → Text

STT Model

Whisper

‘22년 9월에 출시된 음식인식(ASR, Speech to Text)
다양한 언어로 학습하고, 훈련데이터 총 680,000시간 중 한국어 8,000시간 학습

Distil-Whisper

Whisper보다 속도는 6배 빠르다, 성능은 1%로 유지
라이선스가 있는 9개의 오픈 소스 데이터 셋 22,000시간 분량 → 한국어는 지원하지 않음. ㅠ

FlashAttention

FlashAttention2

Text Splitter

Embedding

VectorStore

Load LLM과 RAG수