La ricetta del prompt

https://www.sciot.it/wp-content/uploads/2025/08/La_Ricetta_del_Prompt__Come_il_JSON_Rivoluziona_la_Creazione_di_Video_AI.mp3

Podcast 🎙️

Quando vuoi generare un video, ad esempio con VEO3 ma vale anche per Kling, Runway, Midjourney, il risultato finale è direttamente proporzionale alla quantità di informazioni che inserisci all’interno del prompt.

Supponiamo di avere di fronte una persona che non ha mai cucinato in vita sua e di fornirgli fuoco, acqua, spaghetti, aglio, peperoncino, olio, prezzemolo e vongole.

La nostra richiesta è: prepara un piatto di spaghetti alle vongole.

Attenzione, non fate l’errore di pensare che il nostro potenziale cuoco ha delle informazioni base; lui non sa nulla e non può accedere ad eventuali istruzioni.

Sembra facile? Proviamo a vedere quante informazioni sottintese ci sono.

Potrei andare avanti ma capite bene che senza alcuna informazione la probabilità di ottenere il risultato richiesto è pressoché nulla. 

Quindi?

Quindi al nostro cuoco bisogna dare tutte le informazioni necessarie. Ci basta anche solo omettere che gli spaghetti vanno inseriti quando l’acqua raggiunge i cento gradi per avere un disastro.

Tornando al nostro video, va da se che per ottenere quello che abbiamo in mente dobbiamo scrivere una “sceneggiatura” quanto più dettagliata possibile. Ma qui c’è un però.

Il nostro “regista” adesso ha accesso alle informazioni e se non specifichiamo esattamente cosa vogliamo cercherà da solo in rete le informazioni mancanti che gli consentano di raggiungere il risultato. 

Questo vuol dire che se chiediamo un soggetto maschile senza specificarne l’abbigliamento, sicuramente non gli farà indossare una minigonna ma l’abito sarà coerente in percentuale, al resto delle informazioni che gli forniamo.

Nel prompt, ad esempio, diciamo che è estate? L’uomo con molta probabilità indosserà una t-shirt. L’ambientazione è notturna? L’uomo non indosserà occhiali da sole. E’ chiaro fino ad ora? 

Posso creare un uomo con la minigonna che indossa un maglione d’estate e con gli occhiali da sole di notte. Ma devo specificarlo.

Va da se che per ottenere un video di 8 secondi coerente alle aspettative, la quantità di informazioni da fornire è enorme ed è il motivo per il quale tutti i video che probabilmente stanno affollando i vostri social sono quasi tutti uguali. Una volta essersi sbattuti a creare un prompt, cambi poche informazioni e hai un altro video, diverso, ma molto simile al precedente per ambientazioni, luci, abiti, personaggi.

Sintetizziamo portando tutto al giusto livello?

PiĂą rendi le variabili delle costanti piĂą il risultato sarĂ  ottimale.

Qui si apre un altro capitolo. Quali sono le variabili?

Ricordate il nostro cuoco alle prese con le vongole? L’acqua l’avreste inserita tra gli ingredienti?

Probabilmente no, ed infatti nelle ricette l’acqua non c’è mai. Questo perché noi utilizziamo la programmazione ad oggetti senza rendercene conto. Fornisco input, descrivo la procedura, ottengo un output.

La cottura della pasta, nel nostro esempio, è un oggetto a parte. Non fa parte della ricetta ed è un oggetto riutilizzabile in più contesti. Ricordate, in programmazione non si butta via nulla, si adatta.

Quindi per l’oggetto cottura della pasta, in input forniamo calore, acqua e spaghetti, in output riceviamo la pasta cotta (si spera al dente).

Dopo di che prendiamo l’oggetto “pasta cotta” e lo integriamo nell’item “spaghetti con le vongole”.

Alla luce di quanto detto la nostra ricetta verrĂ  eseguita in questo modo:

Tutto questo noi lo facciamo in maniera naturale in base alle nostre competenze.

E già, perché la riuscita dei vari step dipende anche da come sappiamo portarli a compimento.

Io ad esempio posso preparare un ragĂą napoletano fenomenale (non esagero) ma non ho idea di come si prepari una torta di mele.

Introduciamo quindi il concetto di database. 

Un database è come un grande archivio digitale dove le informazioni vengono raccolte, ordinate e conservate, così da poterle ritrovare e usare facilmente quando servono. E’ generalmente composto da costanti (i nomi dei cassetti dell’archivio) e da variabili (i valori che la costante può assumere).

Velocemente, se il cassetto contenitore si chiama: NOME, le variabili che potranno essere contenute sono Francesco, Marco, Lucia e così via.

Ritorniamo al nostro video.

Non sarebbe piĂą comodo avere una serie di costanti che a seconda del contesto assumano un valore piuttosto che un altro?

Pensiamoci bene, alla fine un video, per quanto epico sia, ridotto all’osso si sintetizza in:

Ognuno di questi quattro fondamentali si può poi esplodere in decine e decine di sotto insiemi, ma il concetto resta sempre quello.

Ed è la capacità di sviluppare sottoinsiemi che fa la differenza tra me e Claudio Sorrentino.

Tutto questo contestualizzato in VEO3 si traduce con codice Json.

Se come prompt, invece di descrivere quello che voglio, inserisco un Json dove le costanti sono esplicitate nel codice, ci consente di evitare di dimenticare l’acqua per la pasta ma soprattutto consente a VEO3 di seguire un ordine senza deviare o allucinare.

Facciamo un esempio: voglio generare un video di una ragazza che salta la corda.

Versione descrittiva classica

Una ragazza sta saltando la corda dentro una palestra illuminata dalla luce del giorno. Indossa pantaloncini sportivi, sneakers bianche e una semplice T-shirt bianca. Ha lunghi capelli neri e ricci che rimbalzano ad ogni salto. La scena mostra il suo corpo intero in movimento, con il ritmo della corda ben visibile e sullo sfondo l’ambiente tipico di una palestra con attrezzi e pavimento da allenamento. L’atmosfera è realistica, energica e dinamica.

Versione Json

{

  “description”: “A young woman is jumping rope energetically in a gym during the day. She wears sporty shorts, white sneakers, and a plain white T-shirt. Her long, curly black hair bounces naturally with each jump. The gym is well lit with daylight streaming in, showing workout equipment in the background. The camera captures her full body with smooth, dynamic motion, focusing on the rhythm of the rope and her athletic energy.”,

  “visual_style”: “photorealistic”,

  “aspect_ratio”: “16:9”,

  “motion”: “dynamic, fluid camera tracking her jumps”,

  “sound”: “realistic jump rope sounds with ambient gym background noise”

}

Le identificate le costanti? description, visual_style, aspect_ratio, motion, sound.

Mentre le variabili sono: photorealistic, dynamic, fluid camera tracking her jumps e così via.

Se quindi strutturiamo un Json, ben formato con tutte le costanti e gli associamo tutte le variabili, il gioco è fatto.

Un po come ordinare al totem McDonald, prendi il panino, scegli gli ingredienti, associ la bibita, lo snack e procedi con l’ordine.

Ultimamente sto vedendo in rete molti tools che offrono questo servizio a pagamento, paghi un abbonamento mensile e ti danno accesso a box reimpostati in cui inserisci le tue variabili in caselle pre-formattate e ti restituisce il Json da incollare in VEO3.

Si chiamano App SaaS ovvero software as a service. 

Mentre le guardavo mi sono ricordato di essere un programmatore e me la sono fatta da solo.

Chiaramente è perfettibile però 

a. è gratis

b. è stato un esercizio simpatico 

c. mi sono divertito a svilupparla (si, ognuno ha i suo difetti)

Ah… l’app la trovate qui

Exit mobile version