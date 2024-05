Questo significa che il modello di xAI, l'azienda fondata da Elon Musk per "capire la vera natura dell'universo", si sta mettendo alla pari con i concorrenti di Google, Gemini, OpenAI, GPT-4o , e Anthropic, Claude 3 . Ma soprattutto sta mostrando un trend nel settore, ovvero come i modelli multimodali siano la nuova frontiera dell'IA .

Grok, il chatbot IA annunciato da Elon Musk a novembre dell'anno scorso come "progettato per essere un po' ironico", non vuole stare troppo indietro nella corsa all'IA e starebbe per basarsi su un modello multimodale (a proposito, sapete cos'è l'intelligenza artificiale generativa ?).

Cos'è un modello multimodale

L'IA multimodale è quindi il passaggio successivo dell'IA generativa , in quanto è un'IA in grado di elaborare diverse modalità ed elimina le restrizioni su input e output nelle nostre interazioni. Di fatto avvicinando ulteriormente utenti e chatbot IA .

Per esempio mostrate l'immagine di una torta e l'IA vi fornisce la ricetta , o il contrario. Lo abbiamo visto con Gemini, che sta mostrando di avere non solo capacità enormi , ma potenzialità ancora maggiori .

Ora invece pensate a un chatbot in grado di ricevere qualsiasi tipo di input, che sia un'immagine, un testo o un audio, e possa rispondere con diversi output, indipendentemente dalla sorgente. Questo è un modello multimodale , ovvero in grado di elaborare le informazioni da diverse modalità.

Oppure a un altro che è stato allenato su una quantità enorme di immagini, ed è in grado di "comprendere" un testo per produrre un'immagine a partire da esso.

Le novità di Grok

Ora questa tecnologia sta per arrivare in Grok, il modello di xAI disponibile per gli utenti che pagano l'abbonamento X Premium Plus.

A marzo, Grok è passato alla versione 1.5 e ad aprile è stato introdotto il primo modello multimodale, Grok-1.5 Vision (1.5V).

Secondo xAI questo aggiornamento consente a Grok di essere competitivo con altri modelli attualmente esistenti (Claude 3, GPT 4V e Gemini Pro) in un certo numero di domini, dal ragionamento multi disciplinare alla comprensione di documenti, diagrammi scientifici, tabelle, screenshot e fotografie.

Qui sotto potete vedere i risultati, da prendere con le pinze perché questi benchmark sono spesso criticati in quanto a volte inclusi nei dati di allenamento, e quindi non rappresentare il valore effettivo di un modello. Nondimeno, possiamo dare a xAI il beneficio del dubbio di aver fatto un buon lavoro, e di essere, almeno sulla carta, in linea con i migliori modelli in circolazione.