Mozilla Italia lancia un nuovo contest dedicato a Common Voice
Di seguito il comunicato stampa ufficiale.
Mozilla Italia, dopo aver realizzato CV Android: contest sperimentale (Resoconto Mozilla Italia Contest Sperimentale), ha deciso di organizzare un nuovo contest di durata maggiore e con maggiori gadget in palio, al fine di promuovere maggiormente il progetto Common Voice, specialmente per la lingua italiana dal 1 al 30 Aprile.
Common Voice (https://commonvoice.mozilla.org/) è il progetto di Mozilla per la raccolta di registrazioni vocali (scaricabili) di pubblico dominio utilizzabili in molti ambiti, principalmente in ambito di machine learning, per esempio per la creazione di assistenti vocali per il mondo dell’accessibilità.
Tutto questo richiede uno sforzo collettivo per raggiungere una grande quantità di ore di registrazioni (revisionate), con il testo abbinato e che non abbiano problemi di licenze o limiti di utilizzo.
A oggi, è difficile trovare oltre 150 ore di registrazioni con testo in lingua italiana utilizzabili per questo scopo senza dover pagare o far parte di una università.
Questo perché il mondo universitario è il principale creatore e utilizzatore (solitamente per studi linguistici).
Altre lingue più diffuse, come l’inglese, non hanno gli stessi problemi delle lingue minoritarie (come può essere ritenuta l’italiano) poiché ci sono molti dataset disponibili; come detto, invece, nella lingua italiano dataset di questo tipo sono carenti e, dunque, come comunità italiana di volontari di Mozilla (“Mozilla Italia”) dal 2018 portiamo avanti la promozione di questo progetto.
Come Mozilla Italia, infatti, da diversi mesi organizziamo degli “sprint” (ovvero delle maratone) mensili online, e per incentivare gli utenti a contribuire al progetto inviamo alcuni riconoscimenti ai partecipanti, solitamente degli adesivi Mozilla, idea nata precedentemente al periodo Covid-19. Abbiamo pertanto deciso di organizzare eventi “in remoto” in un periodo storico nel quale è impossibile incontrarsi dal vivo.
Il progetto Common Voice per la lingua Italiana, a oggi, ha superato le 180 ore grazie a centinaia di persone, sia madrelingua sia non madrelingua, con tutte le loro inflessioni, compresi i vari accenti e pronunce, presenti in tutto il nostro Paese.
Quindi, con il supporto dell’applicazione CV Project (open-source) disponibile solo per Android, ma non ufficiale Mozilla, sarà possibile partecipare a un contest che ha come obiettivo proprio la promozione di Common Voice nella lingua italiana. Anche in questo caso, per incentivare gli utenti a partecipare, abbiamo deciso di mettere in palio vari oggetti.
Per ottenere maggiori informazioni, leggere il Regolamento oppure il thread riepilogativo con anche altri link.
Perché partecipare?
In primis per migliorare il materiale della nostra lingua utilizzabile da ricercatori, studiosi ma anche in ambito digitale per programmi open-source o per nuovi prodotti che supportino l’italiano.
Un esempio sono i “big” e i vari competitor commerciali che non supportano le lingue ritenute minoritarie, perché non hanno milioni di parlanti e quindi non frutterebbero sufficienti introiti. Purtroppo, la stessa cosa si presenta anche per la lingua italiana e per le sue cadenze e accenti, ma anche per i vari dialetti.
A questo proposito, infatti, il progetto dovrebbe essere lanciato anche per le lingue sardo, veneto e siciliano per citarne alcune.
Un esempio italiano?
Fino a oggi, come comunità Mozilla Italia, realizziamo un modello di machine learning per la lingua italiana realizzato sfruttando questo dataset Common Voice e aggregandolo con altri disponibile gratuitamente e liberamente, insieme a DeepSpeech (altro progetto open-source di Mozilla), disponibile su https://github.com/MozillaItalia/DeepSpeech-Italian-Model.
Abbiamo realizzato nel 2020 anche un developer contest per progetti che utilizzassero il modello; progetti ovviamente open-source e disponibili su https://github.com/MozillaItalia/DeepSpeech-Contest.
Come registrare le frasi?
Abbiamo una guida: Regole/Linee guida per registrare frasi
Come approvare le registrazione?
Abbiamo una guida: Regole/Linee guida per approvazione registrazioni
Perché un nuovo contest? L’app è sicura?
Il contest sperimentale è servito per testare l’infrastruttura all’interno della comunità, perché è stato necessario un aggiornamento dell’app CV Project per aggiungere alcune funzionalità utili al contest.
L’app non salva alcun dato personale degli utilizzatori, infatti l’unica stringa in grado di identificare un utente è generata casualmente la prima volta che viene avviata l’app (ecco perché, nel Regolamento del contest, è richiesto di inviare quella stringa agli organizzatori).
L’app è solo un client del portale e del servizio ufficiale, infatti le registrazioni vengono inoltrate solo al server principale di Mozilla Common Voice. Permette, comunque, di avere varie funzionalità non disponibili sul portale ufficiale (modalità offline, tema scuro, e altro ancora): è totalmente personalizzabile. Per maggiori informazioni sull’app, navigare su https://saveriomorelli.com/commonvoice/.
Premi di esempio (peluche non inclusi tra i premi):