Informaticamachine learningMondo LinuxSpeech Note

Speech Note: trascrivi e traduci offline i tuoi appunti grazie al machine learning

 

Come ben saprete, da qualche tempo a questa parte, ho iniziato a offrire la trascrizione delle puntate del Podcast di Marco’s Box al fine di consentire un rapido riscontro con gli articoli pubblicati sul blog.

Ho iniziato però ad avere difficoltà nell’offrire la trascrizione delle puntate a seguito della decisione di pubblicare il podcast anche in formato video per YouTube. Il motivo? Nelle puntate video non ho un copione da leggere ma vado a braccio commentando con voi le notizie.

Da qui la necessità di cercare uno strumento in grado di effettuare la trascrizione automatica delle puntate. Diversi di voi lettori mi hanno suggerito di affidarmi a strumenti di trascrizione basati sul machine learning in modo da automatizzare il più possibile il processo. Mi sono messo alla ricerca di simili strumenti ma, molte delle soluzioni proposte, seppur efficaci, prevedevano o abbonamenti a servizi di terze parti oppure escamotage come quello di sfruttare Google Drive.

Sapete però che sono pigro e son un fervente sostenitore del principio edonistico del “minimo sforzo, massimo risultato”.

Fra le soluzioni provate sino ad ora la più promettente consiste nell’utilizzare Speech Note, un software open source per Linux, che ci consente di prendere, leggere e tradurre le nostre note vocali, sbobinature, video e quant’altro, il tutto localmente grazie ai modelli di machine learning.

 

Come funzione Speech Note

L’elaborazione di testo e voce avviene interamente offline, localmente sul nostro computer, senza utilizzare una connessione di rete. La nostra privacy è così sempre rispettata. Nessun dato viene inviato a Internet.

Speech Note utilizza molti motori di elaborazione diversi per svolgere il proprio lavoro. Attualmente vengono utilizzati:

Speech to Text (STT)

  • Coqui STT (a fork of Mozilla DeepSpeech)
  • Vosk
  • whisper.cpp
  • Faster Whisper
  • april-asr

Text to Speech (TTS)

  • espeak-ng
  • MBROLA
  • Piper
  • RHVoice
  • Coqui TTS
  • Mimic 3

Machine Translation (MT)

  • Bergamot Translator
Speech Note supporta varie lingue fra cui anche l’italiano.

A partire dalla versione 4.4.0, l’applicazione distribuita tramite Flatpak (pubblicata su Flathub) include anche tutte le dipendenze necessarie per sfruttare l’accelerazione tramite GPU, sia per AMD che per NVIDIA, che aiuta ad accelerare alcune delle operazioni di trascrizione. Questo si ripercuote sulle dimensioni del software una volta installato.
 

Come installare Speech Note da Flathub

Per installare Speech Note da flatpak potete usare il vostro gestore grafico per i pacchetti o direttamente da terminale dando
 
flatpak install flathub net.mkiol.SpeechNote

 

Una volta fatto, per velocizzare le operazioni di trascrizione, potete installare i moduli per la GPU.
In caso di schede video NVIDIA date da terminale
flatpak install flathub net.mkiol.SpeechNote.Addon.nvidia

Se invece avete una scheda video AMD date da terminale
flatpak install flathub net.mkiol.SpeechNote.Addon.amd

Marco Giannini

Quello del pacco / fondatore di Marco’s Box