image.png

Получить текст из любого аудио или видео можно с помощью ИИ Whisper. Это продукт OpenAI с открытым исходным кодом. ИИ, а также все настройки уже загружены на Github. От вас потребуется только ваш Google диск.

Пошаговая инструкция

1. Откройте Google Colab

<aside> 💡

Войдите в Google Диск. Нажмите «Создать» и выберите Google Colaboratory. Если у вас нет такой опции, подключите ее через «Другие приложения».

</aside>

image.png

0.1.png

2. Настройте среду выполнения

<aside> 💡

В Colab откройте «Среда выполнения» → «Сменить среду выполнения». Выберите T4 GPU для работы.

</aside>

Screenshot_5.png

0.2.png

<aside> 💡

Также во вкладке «Управление сеансами» проверьте, чтобы не было других сеансов.

</aside>

3. Установите Whisper

<aside> 💡

В первую ячейку Colab вставьте код и нажмите «Выполнить»:

</aside>

!pip install git+https://github.com/openai/whisper.git
!pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

image.png

image.png

4. Загрузите файл