Gràcies @marcelcosta , no coneixia vosk. He vist que a la pròpia documentació de kdenlive, des de la versió 23.04 mencionen que es pot fer servir whisper, allà diuen:
OpenAI-Whisper is a speech recognition model for general use. It is trained on a large dataset of diverse audio and is capable of performing speech translation, and language identification.
Whisper is slower than VOSK on CPU, but it is more accurate than VOSK. Whisper creates sentences with punctuation marks, even in Base mode.
En quant a quins idiomes inclouen els models
The models are trained on 680,000 hours of audio and the corresponding transcripts collected from the internet. 65% of this data (or 438,000 hours) represents English-language audio and matched English transcripts, roughly 18% (or 126,000 hours) represents non-English audio and English transcripts, while the final 17% (or 117,000 hours) represents non-English audio and the corresponding transcript. This non-English data represents 98 different languages.
segons openai/whisper-large · Hugging Face
En la meva experiència, jo ho he provat en anglès, castellà i català. Es veu que l’anglès molt millor que els altres idiomes, i que es podria fer alguna cosa per millorar la situació:
The pre-trained Whisper model demonstrates a strong ability to generalise to different datasets and domains. However, its predictive capabilities can be improved further for certain languages and tasks through fine-tuning. The blog post Fine-Tune Whisper with Transformers provides a step-by-step guide to fine-tuning the Whisper model with as little as 5 hours of labelled data.
segons openai/whisper-large · Hugging Face
He vist que softcatala ha decidit emprar whisper, i que té servei web Transcripció d'àudio i vídeo a text - Softcatalà (potser que la rita ho provi així)
Aquest servei utilitza els models de reconeixement de la parla Whisper. Considerem que són els models lliures de millor qualitat existents per al català, són resilients al soroll de fons i prediuen també la puntuació i majúscules. Oferim diverses variants dels models: com més gran és el model, millor qualitat us donarà, però més temps trigarà a processar-se el fitxer.
Waw, també diuen (ara el provo):
El Buzz és un programa que us permet transcriure a Windows i macOS usant els mateixos models que oferim aquí. El podeu baixar d’aquí.
També parlen d’altres formes de transcriure en la mateixa web:
Altres opcions de transcripció d’àudio al català