DEV Community

Alessandro T.
Alessandro T.

Posted on • Originally published at trinca.tornidor.com

1

AI Pronunciation Trainer

In questo articolo presento progetto a cui sto lavorando attualmente: AI Pronunciation Trainer (online qui), uno strumento progettato per aiutarvi a migliorare la vostra pronuncia utilizzando la potenza dell'intelligenza artificiale. Questo progetto è un refactor dell'originale AI Pronunciation Trainer di Thiagohgl a cui ho fatto diversi miglioramenti per rendere lo strumento più efficace e facile da usare.

Cos'è e cosa fa

AI Pronunciation Trainer è uno strumento che utilizza l'intelligenza artificiale per valutare la vostra pronuncia e fornire feedback, aiutandovi a migliorare e a essere compresi più chiaramente. Utilizza i modelli Silero STT / TTS per le funzionalità di speech-to-text e text-to-speech, garantendo una valutazione della pronuncia accurata e affidabile.

Refactor: aggiornamento delle Librerie Frontend e Backend

Ho aggiornato le librerie di backend portando PyTorch, in particolare, alla versione 2.5.x. Ho inoltre cambiato versione del modello Speech-to-Text tedesco per risolvere un bug che impediva l'utilizzo di PyTorch successivo alla versione 1.13.x.
Inoltre:, per quanto riguarda il frontend:

  • Aggiornate le librerie javascript utilizzando le versioni più recenti di jQuery (3.7.1) e Bootstrap (5.3.3)
  • Nuovo frontend basato su Gradio 5.x
  • Aggiunti test E2E con Playwright
  • Aggiunta la possibilità di scrivere, leggere ed ovviamente valutare una frase a scelta libera
  • Tour guidato per i nuovi utenti con driver.js ed css/javascript custom dentro ai Gradio blocks
  • Riproduzione delle singole parole nella registrazione seguite dalla pronuncia 'ideale' della stessa parola letta dal motore Text-to-Speech
  • Aggiunto anche una funzionalità di Text-to-Speech in-browser (su Windows 11 funziona solo nel caso siano installati i pacchetti linguistici inglesi e tedesco)

Versione online: la demo nello spazio HuggingFace

Potete provare online il mio progetto sul mio HuggingFace Space. Questa demo online vi permette di sperimentare le capacità dello strumento senza alcuna installazione o configurazione. Lo spazio HuggingFace fornisce un modo conveniente e accessibile per testare AI Pronunciation Trainer e vedere come può aiutarvi a migliorare la vostra pronuncia. Si prega di essere pazienti, a volte è un po' lento oppure in sleeping nel caso non sia utilizzato da nessuno da un po' (localmente è molto più veloce, soprattutto se avete un computer potente). Esiste anche una versione embedded dello spazio HuggingFace.

Lavori Futuri

Pur funzionando piuttosto bene, ci sono ovviamente margini di miglioramento. Ecco alcuni dei miglioramenti futuri che intendo implementare:

  • Ricevere feedback dall'autore del lavoro originale sulla mia documentazione e sulle modifiche
  • Chiedere all'autore del lavoro originale alcune spiegazioni sulle scelte architetturali e funzionali che ha fatto
  • Valutare il passaggio da PyTorch ad ONNX Runtime
  • Aggiungere più test E2E con Playwright

Conclusione

Ritengo che AI Pronunciation Trainer sia uno strumento utile per chiunque desideri migliorare in autonomia la propria pronuncia. Con la potenza dell'IA ed i miglioramenti apportati durante il refactor, questo strumento fornisce feedback accurati e affidabili per aiutarvi a parlare in modo più chiaro e sicuro. Vi invito a provare la demo HuggingFace Space e capire come questo progetto possa aiutarvi nel vostro percorso verso una migliore pronuncia.

Billboard image

Monitor more than uptime.

With Checkly, you can use Playwright tests and Javascript to monitor end-to-end scenarios in your NextJS, Astro, Remix, or other application.

Get started now!

Top comments (0)

Billboard image

The Next Generation Developer Platform

Coherence is the first Platform-as-a-Service you can control. Unlike "black-box" platforms that are opinionated about the infra you can deploy, Coherence is powered by CNC, the open-source IaC framework, which offers limitless customization.

Learn more

👋 Kindness is contagious

Dive into an ocean of knowledge with this thought-provoking post, revered deeply within the supportive DEV Community. Developers of all levels are welcome to join and enhance our collective intelligence.

Saying a simple "thank you" can brighten someone's day. Share your gratitude in the comments below!

On DEV, sharing ideas eases our path and fortifies our community connections. Found this helpful? Sending a quick thanks to the author can be profoundly valued.

Okay