Обзор
Утилита для локальной транскрипции видео без облачных сервисов. Использует faster-whisper с CTranslate2 для GPU-ускоренного распознавания речи. Поддерживает пакетную обработку и кэширование моделей.
Ключевые возможности
- Локальная обработка: данные не уходят с машины
- GPU-ускорение: заточено под NVIDIA с 8+ ГБ VRAM
- Пакетный режим: glob-паттерны по каталогам
- Кэширование моделей: одна загрузка в
models/ - Выбор модели и compute type для баланса скорости/точности
Технический стек
- Язык: Python
- ASR: faster-whisper, CTranslate2
- Аудио: FFmpeg для извлечения дорожки
- Окружение: Docker (NVIDIA CUDA base)
