Overview
•
오디오 → Distil-Whisper → Text
STT Model
Whisper
•
‘22년 9월에 출시된 음식인식(ASR, Speech to Text)
•
다양한 언어로 학습하고, 훈련데이터 총 680,000시간 중 한국어 8,000시간 학습
Distil-Whisper
•
Whisper보다 속도는 6배 빠르다, 성능은 1%로 유지
•
라이선스가 있는 9개의 오픈 소스 데이터 셋 22,000시간 분량 → 한국어는 지원하지 않음. ㅠ