Я беру много заметок путем перекодирования моей речи с помощью моего смартфона на базе Android. Записи могут быть быстрым примечанием или долгой диктовкой, таким образом, они варьируются много по размеру. В зависимости от приложения я использую, я, аудио сохраняется или как WAV или как файл MP3.
То, что я хочу сделать, является взятием, этот ответ голосовых заметок и диктовок преобразовывает их в текстовые файлы.
Я нашел этот метод, который теоретически использует pavucontrol для передачи по каналу воспроизведения звука в речь Google Chrome для отправки текстовых сообщений API, но я не могу заставить это работать. Я следовал инструкциям и не получаю ошибок, я просто не вижу, что любой текст появляется в интерфейсе Chrome. В любом случае это не намного лучше, чем содержание моего телефона до моего микрофона ноутбука. Я надеялся на что-то, где я должен буду не обязательно услышать аудио, поскольку оно преобразовывалось для отправки текстовых сообщений, поскольку я мог бы сделать это со своим ноутбуком, в то время как я отсутствую в кафе или чем-то.
Идеально, было бы программное обеспечение, где я мог загрузить пакет звуковых файлов, и оно произведет пакет текстовых файлов, один для каждого звукового файла.
Какое-либо программное обеспечение или метод для этого существуют на Ubuntu?
Попробуйте Mozilla DeepSpeech . Это инструмент с открытым исходным кодом для автоматической транскрипции. Но вам нужно будет обучить инструмент. Вы можете загрузить предварительно обученную модель Mozilla или использовать Наборы голосовых данных Mozilla , чтобы создать свою собственную модель, и вы можете использовать ее для записей на английском языке. Для очень четких записей степень точности относительно хорошая. но для моих проектов по транскрипции этого все равно было недостаточно, так как в записях было много фоновых шумов, они были невысокого качества, вместо этого я использовал Transcribear , это веб-редактор, который позволяет выполнять автоматическую транскрипцию, но вам нужно будет подключиться к Интернету, чтобы загрузить записи на сервер Transcribear.