Com transcriure un fitxer d'àudio fent servir el projecte whisper.cpp v1.5.1

Us presento un petit script que ajuda a transcriure un fitxer d’àudio des de la vostra pròpia màquina, la fiabilitat és “més o menys”. Jo ho trobo útil per llegir fitxers d’àudios que rebo de la gent (o notes de veu pròpies).

He pujat el repositori de codi whisper-file.sh aquí.

Necessitareu llegir les instruccions d’instal·lació per instal·lar whisper.cpp, i després afegir l’script whisper-file.sh al vostre PATH per facilitar l’execució per terminal en qualsevol moment.

1 'M'agrada'

Merci!

Quins idiomes inclouen els models?

Jo he transcrit utilitzant vosk, que és el que utilitza kdenlive per a transcriure subtítols automàticament a català, castellà i anglès. Ho comento a fedicat.

1 'M'agrada'

Gràcies @marcelcosta , no coneixia vosk. He vist que a la pròpia documentació de kdenlive, des de la versió 23.04 mencionen que es pot fer servir whisper, allà diuen:

OpenAI-Whisper is a speech recognition model for general use. It is trained on a large dataset of diverse audio and is capable of performing speech translation, and language identification.

Whisper is slower than VOSK on CPU, but it is more accurate than VOSK. Whisper creates sentences with punctuation marks, even in Base mode.

En quant a quins idiomes inclouen els models

The models are trained on 680,000 hours of audio and the corresponding transcripts collected from the internet. 65% of this data (or 438,000 hours) represents English-language audio and matched English transcripts, roughly 18% (or 126,000 hours) represents non-English audio and English transcripts, while the final 17% (or 117,000 hours) represents non-English audio and the corresponding transcript. This non-English data represents 98 different languages.

segons openai/whisper-large · Hugging Face

En la meva experiència, jo ho he provat en anglès, castellà i català. Es veu que l’anglès molt millor que els altres idiomes, i que es podria fer alguna cosa per millorar la situació:

The pre-trained Whisper model demonstrates a strong ability to generalise to different datasets and domains. However, its predictive capabilities can be improved further for certain languages and tasks through fine-tuning. The blog post Fine-Tune Whisper with :hugs: Transformers provides a step-by-step guide to fine-tuning the Whisper model with as little as 5 hours of labelled data.

segons openai/whisper-large · Hugging Face

He vist que softcatala ha decidit emprar whisper, i que té servei web Transcripció d'àudio i vídeo a text - Softcatalà (potser que la rita ho provi així)

Aquest servei utilitza els models de reconeixement de la parla Whisper. Considerem que són els models lliures de millor qualitat existents per al català, són resilients al soroll de fons i prediuen també la puntuació i majúscules. Oferim diverses variants dels models: com més gran és el model, millor qualitat us donarà, però més temps trigarà a processar-se el fitxer.

Waw, també diuen (ara el provo):

El Buzz és un programa que us permet transcriure a Windows i macOS usant els mateixos models que oferim aquí. El podeu baixar d’aquí.

També parlen d’altres formes de transcriure en la mateixa web:

Altres opcions de transcripció d’àudio al català

1 'M'agrada'

he provat el buzz del .deb de l’enllaç que deia softcatala Release v0.8.4 · chidiwilliams/buzz · GitHub

ocupa bastant, sí (i un cop emprada l’aplicació, es descarrega el model, que el gran pot ser uns altres 2 GiB - a mi el gran no em funciona en el meu equip antic, massa processament - , per tant, tingueu-ho present)

$ du -sh buzz-0.8.4.deb 
1.8G	buzz-0.8.4.deb

Tal com diu aquí, hi ha una dependència, sudo apt install libportaudio2 (que jo ja tenia instal·lada). Buzz també es pot instal·lar via PyPi

$ sudo dpkg -i buzz-0.8.4.deb 
Selecting previously unselected package buzz.
(Reading database ... 884201 files and directories currently installed.)
Preparing to unpack buzz-0.8.4.deb ...
Unpacking buzz (0.8.4) ...
Setting up buzz (0.8.4) ...
Processing triggers for mailcap (3.70+nmu1) ...
Processing triggers for mate-menus (1.26.0-3) ...
Processing triggers for desktop-file-utils (0.26-1) ...
Processing triggers for hicolor-icon-theme (0.17-2) ...

després, s’ha d’executar en la ruta (per tant, no s’afegeix automàticament al PATH)

/opt/buzz/Buzz

l’experiència d’ús és: funciona prou bé, però jo continuaré fent servir el primer mètode descrit perquè sento que tinc més control de lo que faig, i no necessito interfície gràfica. Però això a algú altre potser l’ajuda

1 'M'agrada'

Moltes gràcies per l’explicació i recerca tan detallada!