I ricercatori dell’MIT hanno sviluppato un nuovo metodo per la progettazione di reti neurali in grado di eseguire compiti specifici in modo ottimale. Attraverso un’analisi delle reti neurali, i ricercatori hanno dimostrato che queste possono essere progettate per minimizzare la probabilità di classificare in modo errato i prestiti o i pazienti in categorie sbagliate, quando sono forniti molti dati di addestramento. Per raggiungere l’ottimalità, queste reti devono essere costruite con un’architettura specifica.

I ricercatori dell’MIT hanno scoperto che, in alcune situazioni, i blocchi di costruzione che consentono a una rete neurale di essere ottimale non sono quelli che i programmatori usano in pratica. Questi blocchi di costruzione ottimali, derivati dalla nuova analisi, sono non convenzionali e non sono mai stati considerati prima, affermano i ricercatori.

In un articolo pubblicato questa settimana su Proceedings of the National Academy of Sciences, descrivono questi blocchi di costruzione ottimali, chiamati funzioni di attivazione, e mostrano come possono essere utilizzati per progettare reti neurali che ottengono prestazioni migliori su qualsiasi insieme di dati. I risultati sono validi anche quando le reti neurali diventano molto grandi. Questo lavoro potrebbe aiutare i programmatori a selezionare la corretta funzione di attivazione, consentendo loro di costruire reti neurali che classificano i dati con maggiore precisione in una vasta gamma di aree applicative, spiega l’autore senior Caroline Uhler, professore al dipartimento di ingegneria elettrica e informatica (EECS).

Molti strumenti di machine learning utilizzati oggi si basano su reti neurali, che sono state create ispirandosi al cervello umano. Molteplici strati di nodi interconnessi, o neuroni, elaborano i dati. I ricercatori addestrano una rete per completare un compito mostrandole milioni di esempi da un insieme di dati.

Ad esempio, una rete addestrata per classificare le immagini in categorie, come cani e gatti, riceve un’immagine che è stata codificata come numeri. La rete esegue una serie di operazioni di moltiplicazione complesse, strato per strato, fino a quando il risultato è solo un numero. Se quel numero è positivo, la rete classifica l’immagine come cane e se è negativo, come gatto.

Le funzioni di attivazione aiutano la rete a imparare schemi complessi nei dati di input, applicando una trasformazione all’uscita di uno strato, prima che i dati siano inviati al successivo. Quando i ricercatori costruiscono una rete neurale, selezionano una funzione di attivazione da utilizzare. Scelgono anche la larghezza della rete (quanti neuroni ci sono in ogni strato) e la profondità (quanti strati ci sono nella rete.)

“Il fatto è che, se si prendono le funzioni di attivazione standard che le persone usano in pratica e si continua ad aumentare la profondità della rete, si ottengono prestazioni veramente terribili. Mostriamo che se si progetta con funzioni di attivazione diverse ed aumentando i dati, la rete diventa sempre migliore”, spiega Radhakrishnan.

Gli autori hanno studiato una situazione in cui una rete neurale è infinitamente profonda e larga – ciò significa che la rete è costruita continuamente aggiungendo più strati e nodi – e viene addestrata per eseguire compiti di classificazione. In classificazione, la rete impara a riconoscere le categorie dei dati di input.

Dopo una dettagliata analisi, i ricercatori hanno individuato solo tre modi in cui questo tipo di rete può imparare a classificare i dati di input. Un metodo classifica un input in base alla maggioranza degli input

In Other News Around the World:

Di RRR

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *