Получить текст из любого аудио или видео можно с помощью ИИ Whisper. Это продукт OpenAI с открытым исходным кодом. ИИ, а также все настройки уже загружены на Github. От вас потребуется только ваш Google диск.
<aside> 💡
Войдите в Google Диск. Нажмите «Создать» и выберите Google Colaboratory. Если у вас нет такой опции, подключите ее через «Другие приложения».
</aside>
<aside> 💡
В Colab откройте «Среда выполнения» → «Сменить среду выполнения». Выберите T4 GPU для работы.
</aside>
<aside> 💡
Также во вкладке «Управление сеансами» проверьте, чтобы не было других сеансов.
</aside>
<aside> 💡
В первую ячейку Colab вставьте код и нажмите «Выполнить»:
</aside>
!pip install git+https://github.com/openai/whisper.git
!pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg