Speech Note: trascrivi e traduci offline i tuoi appunti grazie al machine learning

Febbraio 13, 2024 Marco Giannini

Come ben saprete, da qualche tempo a questa parte, ho iniziato a offrire la trascrizione delle puntate del Podcast di Marco’s Box al fine di consentire un rapido riscontro con gli articoli pubblicati sul blog.

Ho iniziato però ad avere difficoltà nell’offrire la trascrizione delle puntate a seguito della decisione di pubblicare il podcast anche in formato video per YouTube. Il motivo? Nelle puntate video non ho un copione da leggere ma vado a braccio commentando con voi le notizie.

Da qui la necessità di cercare uno strumento in grado di effettuare la trascrizione automatica delle puntate. Diversi di voi lettori mi hanno suggerito di affidarmi a strumenti di trascrizione basati sul machine learning in modo da automatizzare il più possibile il processo. Mi sono messo alla ricerca di simili strumenti ma, molte delle soluzioni proposte, seppur efficaci, prevedevano o abbonamenti a servizi di terze parti oppure escamotage come quello di sfruttare Google Drive.

Sapete però che sono pigro e son un fervente sostenitore del principio edonistico del “minimo sforzo, massimo risultato”.

Fra le soluzioni provate sino ad ora la più promettente consiste nell’utilizzare Speech Note, un software open source per Linux, che ci consente di prendere, leggere e tradurre le nostre note vocali, sbobinature, video e quant’altro, il tutto localmente grazie ai modelli di machine learning.

Come funzione Speech Note

L’elaborazione di testo e voce avviene interamente offline, localmente sul nostro computer, senza utilizzare una connessione di rete. La nostra privacy è così sempre rispettata. Nessun dato viene inviato a Internet.

Speech Note utilizza molti motori di elaborazione diversi per svolgere il proprio lavoro. Attualmente vengono utilizzati:

Speech to Text (STT)

Coqui STT (a fork of Mozilla DeepSpeech)
Vosk
whisper.cpp
Faster Whisper
april-asr

Text to Speech (TTS)

espeak-ng
MBROLA
Piper
RHVoice
Coqui TTS
Mimic 3

Machine Translation (MT)

Bergamot Translator

Speech Note supporta varie lingue fra cui anche l’italiano.

A partire dalla versione 4.4.0, l’applicazione distribuita tramite Flatpak (pubblicata su Flathub) include anche tutte le dipendenze necessarie per sfruttare l’accelerazione tramite GPU, sia per AMD che per NVIDIA, che aiuta ad accelerare alcune delle operazioni di trascrizione. Questo si ripercuote sulle dimensioni del software una volta installato.

Come installare Speech Note da Flathub

Per installare Speech Note da flatpak potete usare il vostro gestore grafico per i pacchetti o direttamente da terminale dando

flatpak install flathub net.mkiol.SpeechNote

Una volta fatto, per velocizzare le operazioni di trascrizione, potete installare i moduli per la GPU.

In caso di schede video NVIDIA date da terminale

flatpak install flathub net.mkiol.SpeechNote.Addon.nvidia

Se invece avete una scheda video AMD date da terminale

flatpak install flathub net.mkiol.SpeechNote.Addon.amd

Come funzione Speech Note

Come installare Speech Note da Flathub

Marco Giannini

Potrebbe anche interessarti

Lubuntu 10.10 Beta 1 disponibile ma non sarà ancora distro ufficiale di Canonical

Apertura canale Telegram dedicato alle Offerte Amazon

LXDE / Lubuntu aggiungere il Cestino sul pannello inferiore