rete neurale intelligenza artificiale

L’algoritmo neurale che genera didascalie sorprendentemente precise

Cosimo Alfredo Pina

Dopo l’algoritmo di Google capace di trasformare normali foto in inquietanti opere d’arte, un software sviluppato da ricercatori della Stanford University torna a dimostrare come le moderne tecnologie possono essere applicate ad un contenuto comune come un’immagine, con risultati sorprendenti.

Infatti se i software di Google e Facebook sono in grado di capire quali persone sono dentro un’immagine, come dimostrato dai tag automatici del social blu e l’app Google Foto, quello dei ricercatori di Stanford è capace di riconoscere in maniera più precisa il contesto delle immagini, come ad esempio quali azioni stanno compiendo i soggetti dell’inquadratura.

NeuralTalk, questo il nome del programma, scompone l’immagine nelle varie componenti riconoscibili e genera delle didascalie con precisione e naturalezza davvero notevoli (trovate degli esempi nella galleria a fondo articolo).

Come i sistemi simili, che devono elaborare grandi quantità di informazioni, anche questo software si appoggia ad una rete neurale artificiale per confrontare in tempi accettabili l’immagine con il database di dati acquisiti con “l’esperienza”.

LEGGI ANCHE: Google sempre più vicino all’intelligenza artificiale “umana”

“Considero i pixel delle immagini e dei video come la materia oscura di Internet. Solo adesso iniziamo ad illuminarla” ha spiegato Fei-Fei Li, il capo del progetto dietro NeuralTalk.

I migliori esploratori di questa miniera di dati sono senz’altro i big come appunto Google, Facebook e i servizi di hosting di foto che inoltre saranno i primi a beneficiare di sistemi del genere.

Infatti grazie a software come NeuralTalk sarà possibile cercare sulla propria libreria di foto e video con frasi naturali come “un cane che gioca sulla spiaggia”, oppure “il selfie che mi sono fatto in montagna”.

Il lavoro dietro a NeuroTalk è liberamente visualizzabile, utilizzabile e modificabile; infatti il gruppo di ricerca ha messo a disposizione tutto il relativo codice su una comoda e ben documentata repository GitHub che potrete consultare liberamente.

Via: The Verge