Gemini 1.0 è stata presentata come l'IA più potente al mondo. Una settimana dopo Google annuncia il successore

Gemini 1.5 è il nuovo modello di Google: più contesto, più ragionamento e meno necessità di calcolo. Tanto che Gemini 1.5 Pro è già ai livelli di 1.0 Ultra
Alessandro Nodari
Alessandro Nodari

Dalle parti di Mountain View sta succedendo qualcosa di strano: neanche una settimana dopo aver annunciato Gemini 1.0, il nuovo avanzatissimo modello IA declinato nelle versioni Gemini Nano, Pro e Ultra, è già la volta del successore, Gemini 1.5 (se volete sapere cosa sia Gemini, date un'occhiata al nostro approfondimento, mentre qui potete scoprire come provarlo in anteprima, in italiano). 

Stando a Google, il nuovo modello "offre prestazioni notevolmente migliorate", soprattutto per quanto riguarda la "comprensione dei contesti lunghi", tanto che Gemini 1.5 Pro è già ai livelli di Gemini 1.0 Ultra, ma necessita di meno potere computazionale.

Quindi in teoria gli utenti gratuiti potrebbero a breve accedere a funzionalità comparabili a quelle degli utenti a pagamento (il modello Pro è disponibile nel chatbot Gemini gratuito, mentre il modello Ultra è accessibile usando il chatbot Gemini Advanced a pagamento, grazie Google per confondere sempre). 

Nel suo annuncio, che non prende in considerazione la versione Ultra del modello (probabilmente ancora in fase di sviluppo), Google afferma che Gemini 1.5 rappresenta una nuova generazione di LLM (Large Language Models) che "offre una svolta nella comprensione del contesto lungo" e che se al momento nella versione Gemini 1.5 Pro elabora una finestra di contesto di 128.000 token, alcuni sviluppatori sono in grado di provare già fino a 1 milione di token, "raggiungendo la finestra di contesto più lunga di qualsiasi modello di fondazione su larga scala".

Numero di token per Gemini 1.0 Pro, a sinistra, GPT-4 Turbo, Claude 2.1 e Gemini 1.5 Pro, a destra. Fonte: Google

I token, rappresentano i frammenti di una parola: più ce ne sono, più grande è il contesto che si può dare al chatbot nel prompt per farlo "ragionare" su un argomento. Una finestra di contesto più grande consente di elaborare documenti più lunghi e di avere conversazioni più lunghe.

Per confronto, Gemini 1.0 gestisce 32.000 token, mentre GPT-4 Turbo di Open AI ha una finestra di contesto di 128.000 token, equivalenti a circa 300 pagine di testo in un prompt. 

Google ha pubblicato un articolo a supporto delle potenzialità del modello in cui spiega che Gemini 1.5 utilizza una nuova architettura mixture-of-experts (MoE), il che significa che il sistema attiva selettivamente diversi "esperti" o sottomodelli specializzati all'interno di una rete neurale più ampia per attività specifiche basate sui dati di input.

Nel rapporto, la GrandeG spiega che Gemini 1.5 offre un miglioramento sostanziale rispetto a 1.0, dicendo che supera 1.0 Pro del 28,9% in "Math, Science & Reasoning" e 1.0 Ultra del 5,2%, nelle stesse materie.

Allo stesso modo, Google confronta il nuovo modello con GPT-4 Turbo, rivelando prestazioni mediamente migliori.

Gemini 1.5 Pro controntato con Gemini 1.0 Pro e Gemini 1.0 Ultra. Fonte: Google DeepMind

La GrandeG dichiara che il nuovo modello è in grado di eseguire "un ragionamento complesso su grandi quantità di informazioni" e fornisce un esempio di analisi di una trascrizione di 402 pagine della missione dell'Apollo 11 (quella che è andata sulla Luna).

Certo il risultato è impressionante, e Google afferma che non ci sia un peggioramento nelle prestazioni.

Ancora più stupefacente, Google ha fatto vedere al modello Gemini 1.5 Pro un film muto di Buster Keaton di 44 minuti, ed è poi stato in grado di analizzare con precisione vari punti ed eventi della trama, e persino ragionare su piccoli dettagli, mentre un altro esempio riguarda la capacità di ragionare su un progetto da più di 100.000 linee di codice e dare spiegazioni su come funziona. 

Nel complesso, possiamo definire cinque aspetti per cui Gemini 1.5 è superiore a Gemini 1.0.

Il primo è una finestra di contesto molto maggiore, che da 32.000 token arriva a 128.000 e fino a 1 milione di token. Questo significa che per lavori intensivi Gemini 1.5 sarà più efficace. 

Il secondo aspetto riguarda la programmazione: grazie alla finestra di contesto maggiore, ma non solo, Gemini 1.5 Pro è meglio di Gemini 1.0 Ultra in questo aspetto, ed è la stessa Google ad affermarlo.

Gemini 1.5 Pro è il nostro modello più performante in codice fino ad oggi, superando Gemini 1.0 Ultra su Natural2Code, il nostro set di test di generazione di codice interno realizzato per prevenire le perdite del web

Inoltre non solo Gemini può analizzare più dati, come 100.000 linee di codice (800.000 token) o un film muto, ma senza degradazione di prestazioni:

Gemini 1.5 Pro estende in modo significativo questa frontiera di lunghezza del contesto a più milioni di token con quasi nessun degrado delle prestazioni, rendendo possibile elaborare input significativamente più grandi. Rispetto a Claude 2.1 con una finestra di contesto di 200k token, Gemini 1.5 Pro raggiunge un richiamo del 100% a 200k token, superando il 98% di Claude 2.1. Questo richiamo del 100% è mantenuto fino a 530k token e il richiamo è del 99,7% a 1M di token. Quando aumenta da 1M token a 10M token, il modello mantiene il 99,2% di richiamo.

Gemini 1.5 Pro può anche imparare in una conversazione. In genere si può insegnare ai modelli una lingua, ma si rischia di riempire la finestra di contesto prima che possa imparare. Il nuovo modello di Google, fornendogli un libro di grammatica e un dizionario, è in grado di tradurre dall'inglese al kalang in maniera simile a un essere umano che ha appreso dalle stesse fonti.

Infine Gemini 1.5 Pro dovrebbe avere tempi di risposta inferiori grazie all'architettura MoE, che migliora l'efficienza computazionale. Non sappiamo quanto, ma il modello Mixtral 8x7B che utilizza la stessa tecnologia è un modello da 47B ma con le necessità di calcolo di un modello da 12.9B.

Insomma, Gemini 1.5 sembra un notevole passo avanti, ma quello che stupisce è la tempistica. Che senso ha annunciarlo a una settimana dal lancio di Gemini 1.0?

È la dimostrazione della velocità di sviluppo nel campo dell'IA, o solo scarsa comunicazione tra i gruppi di ricerca e marketing? Oppure Google sa qualcosa che noi non sappiamo, e si sta preparando per assorbire il colpo di un nuovo modello concorrente come GPT-5?

Al momento non si può sapere, ma quello che si sa è che Gemini 1.5 Pro non è ancora disponibile sull'app Gemini, ed è in preview per sviluppatori e clienti aziendali tramite AI Studio e Vertex AI.

Fonte: Google

Tutte le news sulla tecnologia su Google News
Ci trovi con tutti gli aggiornamenti dal mondo della tecnologia
Seguici