Come trasformare la tua voce in testo con Whisper di OpenAI per Windows

2023/02/07

Whisper di OpenAI è una nuova soluzione basata sull’intelligenza artificiale che può trasformare la tua voce in testo. Soprattutto, arriva a costo zero.

Tuttavia, c’è un problema: è più difficile da installare e utilizzare rispetto alla normale utility di Windows. Soprattutto se vuoi usare i Tensor Core della tua GPU Nvidia per dargli una bella spinta.

Non preoccuparti, però. Ecco perché siamo qui! Continua a leggere per scoprire come installarlo e usarlo, ma anche, se ne possiedi uno, per fare in modo che Whisper sfrutti la tua GPU Nvidia.

Cos’è il Whisper di OpenAI?

ChatGPT è di gran moda al giorno d’oggi e abbiamo già visto come puoi utilizzare ChatGPT di OpenAI. Eppure, non è l’unico progetto interessante di OpenAI.

Alimentato da deep learning e reti neurali, Whisper è un sistema di elaborazione del linguaggio naturale in grado di “capire” il parlato e trascriverlo in testo. Ma è anche la sua cosa, seduto in un posto proprio tra tutte le soluzioni simili:

Whisper è una soluzione AI “addestrata” al linguaggio naturale. Quindi, è meglio comprendere il linguaggio umano “normale” rispetto alle soluzioni precedenti.
Whisper non viene fornito con un’interfaccia, né può registrare l’audio. Può solo prendere file audio esistenti e produrre file di testo.
Dal momento che è bravo a “dare un senso al linguaggio”, Whisper ha anche il superpotere della traduzione automatica in un solo passaggio.
Whisper non è un servizio online e può funzionare interamente offline.
Se disponi di una GPU Nvidia relativamente moderna (GTX970 o successiva), Whisper può essere eseguito in “modalità con accelerazione hardware” per aumentarne la velocità.
Non è necessario registrarsi, acquistare una licenza o acquistare un abbonamento.

Perché le GPU AMD non sono supportate?

Affinché le GPU siano utili per qualcosa di più della grafica, dovrebbero agire come processori completamente programmabili. Ecco perché Nvidia ha creato CUDA, ufficialmente definito “una piattaforma di elaborazione parallela e un modello di programmazione”. Per saperne di più su CUDA e sull’hardware correlato (“CUDA core”), leggi il nostro articolo su cosa sono i CUDA core e su come migliorano i giochi per PC.

CUDA è una tecnologia proprietaria Nvidia, compatibile solo con le GPU Nvidia. Le alternative più vicine per l’hardware di AMD sono OpenCL e Radeon Compute Platform. Per saperne di più su come confrontare le soluzioni di ciascuna azienda, consulta il nostro articolo sulle unità di calcolo AMD rispetto ai core Nvidia CUDA.

Rispetto alle alternative, CUDA è considerato più maturo, performante e più facile da usare. Pertanto, la maggior parte degli sviluppatori prende di mira solo CUDA, il che, a sua volta, significa che il loro software sfrutta solo le funzionalità hardware delle GPU Nvidia. E questo include Whisper.

Come scaricare e installare Whisper

Sfortunatamente, Whisper non è un’app autonoma che puoi scaricare, installare ed eseguire. Si basa su altro software, che deve essere anch’esso installato.

Per Windows, per mantenere semplice questa guida, utilizzeremo ampiamente Chocolatey per l’installazione della maggior parte delle parti software necessarie. Consulta la nostra guida sul modo più rapido per installare il software Windows per maggiori informazioni su Chocolatey.

Per Linux e Mac, il processo di installazione (esclusa la variabile del percorso di Windows e i file batch facili da usare che creeremo) dovrebbe essere simile.

Per installare e utilizzare Whisper, è necessario che Python e il suo strumento PIP siano installati e aggiunti alla variabile “Path” di Windows. Per informazioni in merito, consulta il nostro articolo su come installare Python PIP su Windows, Mac e Linux.
Installa FFMPEG tramite Chocolatey con questo comando: Inoltre, installa la sua versione Python con: choco install ffmpeg pip3 install python-ffmpeg
Infine, installa Whisper dalla sua pagina Github con: pip3 install git+https://github.com/openai/whisper.git

Ottenere la versione abilitata per CUDA di Whisper

Sebbene Whisper non utilizzi GPU Nvidia, il pacchetto torcia su cui si basa offre una versione con accelerazione CUDA. L’utilizzo di questo invece della versione “semplice” può aiutare Whisper a completare le sue trascrizioni molto più velocemente con l’aiuto della tua GPU Nvidia.

Per fare in modo che Whisper utilizzi i core CUDA della tua GPU Nvidia:

Se hai già installato la versione “vanilla” di torch, disinstallala ed eliminane i resti con: Al termine, prosegui con: pip3 uninstall torch pip cache purge
Installa la versione abilitata per CUDA della torcia con: pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu117
Per verificare se Whisper può utilizzare la tua GPU Nvidia, usa: Dovresti vedere (predefinito: cuda) invece di (predefinito: cpu) . whisper --help | findstr -i pytorch

Cosa fare se la torcia non si installa

Se riscontri l’errore “nessuna versione trovata” durante l’installazione di torch, potrebbe essere necessario installare una versione precedente di Python parallela a quella attuale.

Usa questo comando per farlo:

choco install python --version OLDER_VERSION --side-by-side

Sostituisci “OLDER_VERSION” con una versione, come 3.10.

choco installa la versione alternativa di Python

Quindi, utilizzare il percorso della versione secondaria per tutti i comandi Whisper “generici” (ad esempio, “c:\Python310\Scripts\pip.exe” anziché solo “pip”).

Come registrare la tua voce

Puoi utilizzare qualsiasi app di registrazione audio per trasformare la tua voce in un file WAV o MP3. Windows include un’app di questo tipo: per ulteriori informazioni, vedi come utilizzare l’app Registratore vocale di Windows 10.

Per un’opzione più completa, prova Audacity . Scopri come farlo con la nostra guida su come utilizzare Audacity per registrare audio su Windows e Mac.

Come iniziare a trascrivere con Whisper

Sebbene Whisper non sia dotato di una GUI intuitiva, il suo utilizzo è semplicissimo.

Diciamo che abbiamo il file LatestNote.mp3 che contiene il parlato in greco, nella cartella c:\MyAudioFiles , e vogliamo tradurlo in inglese e trascriverlo in un file di testo.

Iniziamo eseguendo Command Prompt o PowerShell .
“Cambia directory” in cui è memorizzato il file audio con questo comando: cd C:\MyAudioFiles
Scateniamo Whisper sul file con: whisper --model base --language gr --task translate LatestNote.mp3

Una volta elaborato, il file di testo (denominato “LatestNote.mp3.txt”) apparirà nella stessa cartella. Aprilo in un editor di testo come Blocco note per visualizzare il testo tradotto.

Abbiamo usato un esempio di traduzione perché la trascrizione in inglese è ancora più semplice: devi solo “perdere” i flag “–language” e “-task”. Pertanto, per una semplice trascrizione, il comando precedente sarebbe:

whisper --model base LatestNote.mp3

Il flag “modello” è necessario perché Whisper utilizza una delle varie opzioni. Espandiamoli per aiutarti a scegliere il meglio per le tue esigenze.

Quale modello scegliere?

Whisper offre vari modelli linguistici. Più grande è il modello, maggiore è la sua precisione, ma anche maggiori sono i suoi requisiti hardware. Sono:

Minuscolo.
Base.
Piccolo.
Medio.
Grande.

La maggior parte dei madrelingua inglesi dovrebbe andare bene con i modelli minuscoli o base . I non madrelingua inglese possono vedere risultati migliori con modelli più grandi, come small e medium .

Nota, tuttavia, che i modelli medi e grandi richiedono oltre 8 GB di VRAM (ovvero “la memoria della tua GPU”).

Per selezionarne uno, specificare il modello dopo l’opzione “–model” nel comando:

whisper --model tiny/small/medium/large [file]

Per esempio:

whisper --model small My_Voice_Note.mp3

Come semplificare la trascrizione

Dover digitare l’intero comando Whisper ogni volta che vuoi trascrivere dell’audio può diventare rapidamente noioso. Creiamo un file batch accessibile a livello globale per semplificare il processo.

Esegui Esplora risorse e visita l’unità C:.
Crea una cartella per i tuoi script e copia il suo percorso negli Appunti.
Nel menu Start di Windows, cerca “percorso” e seleziona Modifica le variabili di ambiente del sistema .
Trova la variabile Path sotto Variabili utente per YOUR_USERNAME . Fare doppio clic su di esso per modificarlo. Fare clic su Nuovo e incollare il percorso nella cartella degli script. Fare clic su OK per accettare le modifiche.
Torna alla cartella degli script in Esplora risorse. Crea un nuovo file batch chiamato “wht.bat”. “Dentro” di esso, inserisci questo comando: whisper --model tiny --language en %1
Crea altri due file batch, “whs” e “whm”.
Metti questo all’interno del primo script: whisper --model small --language en %1
Inserisci questo all’interno del secondo: whisper --model medium --language en %1

Congratulazioni, ora hai tre script per utilizzare facilmente i modelli piccoli, piccoli e medi di Whisper con i tuoi file audio! Per trascrivere qualsiasi file audio in testo:

Individua il file con Esplora file di Windows .
Fai clic con il pulsante destro del mouse su un punto vuoto e scegli Apri nel terminale .
Digita questo comando, sostituendo “wht” con “whs” o “whm” per utilizzare i modelli di linguaggio piccolo o medio: wht YOUR_AUDIO_FILE.mp3

Digitando alla velocità del suono con Whisper

Anche i dattilografi più veloci non possono eguagliare la velocità con cui parliamo. Tuttavia, fino a poco tempo fa, parlare invece di digitare non era ottimale per la creazione di documenti.

La maggior parte delle soluzioni voice-to-text ha prodotto risultati mediocri. Potresti trovare alcune soluzioni che vale la pena provare, ma erano complicate da usare o costose. Per fortuna, Whisper ha cambiato tutto questo.

Dopo i passaggi precedenti, dovresti essere pronto a trascrivere o tradurre la tua voce con elevata precisione, utilizzando un solo comando.