The BrAIn - Technical Insight of a living AI System

Scritto da AQuest | Jun 9, 2026 2:47:21 PM

How to develop a living AI System that transforms collective thought into real time generative matter.

The BrAIn è un’installazione guidata dall’intelligenza artificiale e operativa in tempo reale, sviluppata per i Digital Design Days con l’obiettivo di esplorare la relazione tra intelligenza collettiva, analisi semantica e sistemi visivi generativi.
Piuttosto che realizzare una tradizionale opera interattiva o un semplice motore di visualizzazione passivo, il progetto è stato concepito come un organismo computazionale vivente, capace di ascoltare, interpretare e tradurre visivamente le idee umane in tempo reale.

L’installazione era in grado di acquisire continuamente i contenuti vocali provenienti dagli interventi delle conferenze, elaborare le informazioni semantiche attraverso diversi livelli di intelligenza artificiale e trasformare concetti astratti in output visivi dinamici, proiettati su una grande parete LED.

Il risultato non era un’esperienza audiovisiva statica e predeterminata, ma un sistema in costante evoluzione, modellato dal linguaggio, dalla presenza umana e dall’interazione del pubblico.

REASON WHY

The BrAIn nasce dalla volontà di rendere visibile ciò che normalmente rimane invisibile: il flusso delle idee. Durante una conferenza, centinaia di concetti, intuizioni e visioni sul futuro vengono condivisi attraverso le parole degli speaker, ma gran parte di questo patrimonio intellettuale esiste solo per la durata del discorso stesso.

The BrAIn trasforma questo processo effimero in una presenza tangibile, creando un organismo digitale capace di ascoltare, comprendere e interpretare il pensiero umano in tempo reale.

L’obiettivo non è rappresentare fedelmente ciò che viene detto, ma costruire una manifestazione visiva dell’intelligenza collettiva che emerge dall’evento, mostrando come idee, linguaggio, tecnologia e partecipazione del pubblico possano fondersi in un unico ecosistema generativo.
In questo senso, The BrAIn diventa una metafora contemporanea della mente condivisa: un sistema vivente che cresce, evolve e si trasforma continuamente attraverso il contributo delle persone che lo alimentano.

INPUT

L’acquisizione dei contenuti audio provenienti dagli stage avviene attraverso una connessione Ethernet basata sul protocollo Dante, standard professionale per la distribuzione audio su rete IP.
Il segnale viene prelevato direttamente dal mixer digitale dell’evento e instradato verso una scheda di acquisizione audio mediante connessioni bilanciate, garantendo elevata qualità e affidabilità nella trasmissione.

Una volta acquisito, l’audio viene elaborato da un software sviluppato in Python che utilizza Whisper per la trascrizione automatica del parlato. Questo processo consente di convertire in tempo reale gli interventi degli speaker in testo, creando una rappresentazione digitale continuamente aggiornata dei contenuti della conferenza.

Oltre alla semplice trascrizione, il software svolge un ruolo fondamentale nella gestione logica del flusso audio. Analizza infatti la durata e la qualità dei contributi vocali, determinando quando un segmento contiene informazioni sufficienti per avviare la successiva fase di elaborazione semantica.

Il sistema è inoltre in grado di gestire pause, silenzi o interventi troppo brevi, decidendo autonomamente se attendere ulteriori contenuti, procedere con l’analisi oppure attivare sorgenti alternative quando il materiale disponibile non risulta significativo o adeguato per generare output di valore.

ANALISI AI

La fase di analisi semantica rappresenta il nucleo concettuale dell’intero progetto The BrAIn ed è il momento in cui il contenuto audio trascritto viene trasformato in una rappresentazione visiva significativa.

Per raggiungere questo obiettivo è stata sviluppata un’architettura composta da due modelli linguistici distinti, entrambi eseguiti localmente tramite Ollama e progettati per svolgere ruoli complementari all’interno dell’ecosistema.

Il primo modello, denominato The BrAIn, costituisce il vero e proprio motore creativo e interpretativo del sistema. Il suo compito non è semplicemente riassumere il contenuto degli interventi, ma comprenderne il significato profondo, identificare i concetti fondamentali e tradurli in una forma utilizzabile dai sistemi di generazione visiva.

Attraverso un insieme di istruzioni appositamente progettate, il modello estrae le idee più rilevanti dal discorso, individua le relazioni semantiche tra i concetti e produce un output altamente strutturato.

Questo output è composto da sei keyword selezionate dinamicamente e da un prompt descrittivo in linguaggio naturale. Le keyword rappresentano la sintesi concettuale del contenuto elaborato, mentre il prompt costituisce una reinterpretazione creativa e simbolica del messaggio espresso dallo speaker.

L'obiettivo non è generare una semplice illustrazione letterale delle parole pronunciate, ma costruire una rappresentazione archetipica capace di tradurre idee astratte in immagini evocative e ricche di significato.
Per ottenere questo risultato, il modello è stato istruito a operare secondo un sistema di trasformazione concettuale che converte temi, valori e concetti emersi dal discorso in soggetti visivi ibridi caratterizzati da una forte componente simbolica.

Ogni soggetto viene costruito fondendo elementi appartenenti a differenti categorie naturali, come animali, piante, oggetti o figure antropomorfe, privilegiando combinazioni in grado di generare immagini originali, riconoscibili e semanticamente coerenti.

L'estetica risultante è volutamente surrealista, metafisica e artistica, con particolare attenzione alla materialità, alla tensione formale e alla capacità evocativa dell'immagine. In questo modo il sistema trasforma il linguaggio in una forma visiva che non rappresenta semplicemente ciò che viene detto, ma ciò che il discorso significa a livello simbolico e concettuale.

A supporto del modello principale è stato sviluppato un secondo agente AI denominato The BrAIn Impostor. Questo modello svolge il ruolo di speaker virtuale e viene attivato quando i contenuti provenienti dagli stage non risultano sufficienti per alimentare il processo creativo. Situazioni come pause tra gli interventi, silenzi prolungati o contributi poco significativi potrebbero infatti interrompere il flusso generativo dell'installazione.

Per evitare questo problema, l'Impostore produce autonomamente contenuti originali legati al mondo del design contemporaneo, della creatività digitale, dell'innovazione, del branding, della motion design, dell'arte generativa e delle nuove forme di esperienza interattiva.

A differenza del modello principale, l'Impostore non sintetizza informazioni esistenti ma genera riflessioni, opinioni e visioni originali ispirate alla cultura del design.
Il suo linguaggio è stato progettato per richiamare quello di un keynote speaker internazionale o di un editoriale pubblicato su una rivista specializzata, caratterizzato da una forte componente visionaria e speculativa.
I contenuti prodotti vengono quindi reinseriti nel flusso di elaborazione e analizzati dal modello principale come se fossero interventi reali, garantendo la continuità narrativa e visiva dell'installazione.

L'interazione tra questi due modelli genera un ciclo creativo continuo in cui il linguaggio viene ascoltato, interpretato, rielaborato e infine trasformato in immagini. The BrAIn agisce come una mente artificiale che interpreta il significato del mondo circostante, mentre The BrAIn Impostor garantisce che tale processo non si interrompa mai.

Il risultato è un organismo digitale capace di mantenere costantemente attiva la propria attività cognitiva e creativa, producendo una rappresentazione visiva in continua evoluzione dell'intelligenza collettiva generata dall'evento.

GENERAZIONE CONTENUTI

La generazione dei contenuti visivi rappresenta la fase in cui le informazioni semantiche elaborate da The BrAIn vengono trasformate in elementi grafici concreti e successivamente integrate in un ambiente tridimensionale immersivo.
L’intero processo è suddiviso in due macrofasi complementari, affidate rispettivamente a ComfyUI e TouchDesigner, che operano in stretta sinergia per produrre visual generativi in tempo reale.

La pipeline prende avvio dal prompt semantico generato dal modello linguistico The BrAIn. Questo prompt non viene inviato direttamente al motore di generazione delle immagini, ma viene prima arricchito attraverso una serie di istruzioni aggiuntive progettate per garantire coerenza estetica, qualità tecnica e uniformità stilistica tra tutti i contenuti prodotti durante l’evento.
Tali istruzioni definiscono parametri relativi al linguaggio visivo, ai materiali, all’illuminazione, alla composizione dell’immagine, alla qualità fotografica e all’approccio artistico complessivo, assicurando che ogni contenuto generato rispetti l’identità visiva del progetto.

La generazione vera e propria avviene all’interno di ComfyUI attraverso una pipeline custom sviluppata appositamente per l’installazione. Il sistema utilizza un modello generativo basato su architettura Latent Rectified Flow Transformer, una delle più recenti evoluzioni nel campo della generazione di immagini tramite intelligenza artificiale.

A differenza dei tradizionali modelli diffusion-based, questa tecnologia consente di ottenere una convergenza più efficiente verso il risultato finale, migliorando la coerenza delle immagini generate e riducendo il numero di passaggi necessari per produrre output di alta qualità.

Per specializzare ulteriormente il comportamento del modello vengono impiegati diversi moduli LoRA (Low-Rank Adaptation). Questi componenti permettono di modificare e guidare il comportamento del modello principale senza la necessità di effettuare un retraining completo, introducendo caratteristiche estetiche specifiche e influenzando aspetti quali stile, materiali, anatomie ibride, resa fotografica, dettagli superficiali e qualità cinematografica dell’immagine.

L’utilizzo combinato di più LoRA consente di ottenere un linguaggio visivo distintivo, fortemente riconoscibile e coerente con la direzione artistica definita per The BrAIn.

Come risultato di questa elaborazione, il sistema produce simultaneamente due asset fondamentali:
- un’immagine fotorealistica ad alta risoluzione che rappresenta la traduzione visiva del concetto elaborato dal modello semantico.
- una depth map, ovvero una mappa di profondità che descrive la distanza relativa degli elementi presenti nella scena rispetto all’osservatore. Questa informazione aggiuntiva costituisce il collegamento tra la generazione bidimensionale e la successiva elaborazione tridimensionale.

Entrambi gli asset vengono trasferiti in tempo reale a TouchDesigner, piattaforma che rappresenta il motore grafico finale dell’installazione. All’interno di TouchDesigner l’immagine e la relativa depth map vengono elaborate per ricostruire una rappresentazione tridimensionale della scena sotto forma di point cloud dinamica.
Ogni pixel dell’immagine viene trasformato in una particella spazialmente posizionata in base alle informazioni contenute nella mappa di profondità, generando strutture tridimensionali complesse che mantengono la leggibilità dell’immagine originale ma acquisiscono una nuova dimensione volumetrica e dinamica.

Le particelle non vengono visualizzate come una semplice ricostruzione statica, ma sono sottoposte a numerosi sistemi di animazione procedurale che ne modificano continuamente comportamento, distribuzione, densità e movimento.
Questo approccio consente di trasformare ogni immagine generata in una forma visiva viva e in continua evoluzione, rafforzando l’idea di un organismo digitale che interpreta e rielabora costantemente il pensiero umano.

Parallelamente alla gestione delle point cloud, TouchDesigner si occupa dell’intera fase di compositing video e post-produzione in tempo reale.
Il sistema integra numerosi livelli grafici aggiuntivi, tra cui overlay informativi, elementi tipografici, visualizzazioni delle keyword generate dal modello AI, indicatori dello stato cognitivo del sistema e contenuti di supporto alla narrazione visiva.

A questi si aggiungono ulteriori effetti di compositing, trattamenti cromatici, simulazioni ottiche, effetti particellari e animazioni procedurali che contribuiscono a definire l’estetica finale dell’installazione.

L’output risultante viene inviato a un LED wall verticale di 4,5 metri di altezza e 2 di larghezza, trasformando il flusso di dati proveniente dagli speaker e dai modelli di intelligenza artificiale in un’esperienza visiva immersiva e monumentale.

Ogni immagine mostrata rappresenta il risultato di una catena di elaborazione che parte dal linguaggio, attraversa l’interpretazione semantica, la generazione visiva e la ricostruzione tridimensionale, per culminare in una rappresentazione tangibile dell’intelligenza collettiva prodotta dall’evento.

Nel podio posizionato di fronte all’installazione LED è integrato un monitor verticale che funge da finestra privilegiata sul funzionamento interno del sistema. Attraverso un’interfaccia ispirata ai terminali di sviluppo, il display mostra in tempo reale i log generati dalle diverse componenti della pipeline, rendendo visibili le fasi normalmente invisibili del processo creativo.
Gli spettatori possono osservare l’acquisizione e la trascrizione dello speech, l’elaborazione semantica dei modelli AI, la selezione delle keyword, la costruzione dei prompt, l’attivazione dei modelli generativi e l’avanzamento della generazione delle immagini.

Il monitor non svolge quindi una semplice funzione diagnostica, ma diventa parte integrante dell’esperienza, trasformando il processo computazionale in un elemento narrativo che permette al pubblico di comprendere come il sistema ascolta, interpreta e traduce il linguaggio umano in contenuti visivi generativi.

Dal punto di vista tecnico, l’intero sistema è orchestrato attraverso un progetto TouchDesigner particolarmente articolato, composto da centinaia di nodi interconnessi.

La rete include componenti dedicati alla ricezione dati, gestione delle pipeline AI, elaborazione delle immagini, conversione delle depth map, simulazione particellare, rendering GPU, effetti post-process, gestione delle interazioni e distribuzione dell’output video.
Questa architettura nodale consente di mantenere una notevole flessibilità operativa, permettendo al sistema di elaborare contenuti complessi in tempo reale e di adattarsi continuamente ai cambiamenti generati dagli speaker, dall’intelligenza artificiale e dalle interazioni del pubblico.

INTERCONNESSIONI

L’intera architettura software è progettata secondo un modello distribuito e modulare, in cui i diversi componenti del sistema comunicano tra loro attraverso una rete di messaggi scambiati tramite WebSocket.
Ogni modulo, dall’acquisizione audio all’analisi semantica, dalla generazione delle immagini alla visualizzazione finale, opera come un servizio indipendente, in grado sia di pubblicare informazioni sia di ascoltare eventi provenienti dagli altri componenti della pipeline.

Questo approccio event-driven consente di disaccoppiare completamente le varie fasi di elaborazione, evitando dipendenze dirette tra i singoli sistemi e garantendo una maggiore robustezza operativa. Ogni componente continua infatti a svolgere autonomamente il proprio compito, elaborando dati e mantenendo attivi i propri processi anche in presenza di anomalie o interruzioni che coinvolgano altri moduli della piattaforma.

La comunicazione tramite WebSocket permette inoltre uno scambio di informazioni bidirezionale e in tempo reale, fondamentale per sincronizzare processi eterogenei come trascrizione, analisi AI, generazione visuale e rendering.
Grazie a questa architettura resiliente, eventuali guasti, rallentamenti o riavvii di una singola componente non compromettono il funzionamento complessivo dell’installazione. Il sistema è infatti progettato per degradare in modo controllato, mantenendo operativa l’esperienza e garantendo continuità narrativa e visiva anche in condizioni non ottimali.

Questa strategia consente a The BrAIn di comportarsi come un organismo distribuito, capace di adattarsi dinamicamente agli imprevisti senza interrompere il proprio processo creativo e comunicativo.

INTERAZIONE UTENTE

L’esperienza interattiva prende avvio nel momento in cui un visitatore si avvicina al podio posizionato di fronte all’installazione. Grazie a un sistema di rilevamento basato su sensori di profondità e computer vision, la presenza dell’utente viene identificata automaticamente, attivando una modalità di interazione dedicata.

Sul LEDwall compare una rappresentazione tridimensionale del volto della persona rilevata, ricostruita in tempo reale sotto forma di una nuvola di particelle animate.
Non si tratta di una semplice visualizzazione statica: il sistema analizza continuamente le espressioni facciali e i movimenti del volto, riproducendo fedelmente variazioni dello sguardo, movimenti degli occhi, apertura della bocca e microespressioni.

L’avatar particellare diventa così una sorta di riflesso digitale dell’utente, capace di reagire istantaneamente ai suoi comportamenti.
Questa fase rappresenta il primo punto di contatto tra l’essere umano e l’organismo artificiale. In linea con il concept dello speech di AQuest “Hello Human Behaviour”, il sistema stabilisce immediatamente un dialogo non verbale con il visitatore, comunicandogli in modo intuitivo che è stato riconosciuto e che la sua presenza sta influenzando attivamente l’installazione.

La tecnologia diventa quindi uno strumento per rendere visibile la relazione tra osservatore e sistema, trasformando l’utente da semplice spettatore a parte integrante dell’esperienza.

Oltre al tracciamento facciale, il sistema esegue in tempo reale il tracking delle mani.
Le articolazioni vengono rilevate e rappresentate graficamente attraverso una struttura composta da punti e connessioni che visualizzano la posizione e il movimento delle dita nello spazio. Questa rappresentazione schematica permette al pubblico di comprendere immediatamente che i propri gesti vengono interpretati dal sistema e utilizzati come strumento di controllo.

I movimenti delle mani influenzano direttamente il comportamento della rappresentazione tridimensionale generata da The BrAIn. Attraverso specifiche gesture e variazioni della posizione nello spazio, l’utente può modificare parametri visuali legati alla simulazione particellare, intervenendo sull’intensità, sulla frequenza e sulla qualità del noise procedurale applicato all’oggetto 3D.
La forma generata dall’intelligenza artificiale non viene quindi semplicemente osservata, ma può essere manipolata e trasformata attraverso l’interazione fisica, creando un dialogo continuo tra il contenuto concettuale prodotto dal sistema e l’interpretazione umana.

Il risultato è un’esperienza in cui riconoscimento, rappresentazione e interazione convergono in un unico processo: il sistema osserva il visitatore, gli restituisce una versione digitale di sé stesso e gli offre gli strumenti per intervenire attivamente sulla materia visiva generata dall’intelligenza artificiale, rendendolo parte integrante del processo creativo e cognitivo che anima The BrAIn.

TAKE OUT

Dopo alcuni istanti di interazione, il sistema conclude l’esperienza sintetizzando il contributo dell’utente in un artefatto fisico unico e irripetibile.
L’intero processo culmina infatti nella generazione di un artwork personalizzato che rappresenta il risultato finale dell’incontro tra l’intelligenza artificiale e l’intervento umano.

L’immagine prodotta da The BrAIn, modificata in tempo reale attraverso le azioni e i gesti del visitatore, viene elaborata in una composizione finale e stampata immediatamente tramite una stampante termica su una striscia di carta.
Oltre alla rappresentazione visiva generata durante l’interazione, il documento include una serie di metadati che contestualizzano il momento dell’esperienza: informazioni temporali, elementi semantici legati al concetto elaborato dal sistema e altri dettagli che rendono ogni stampa strettamente associata a uno specifico istante di vita dell’installazione.

La scelta di utilizzare un supporto tipicamente associato allo scontrino commerciale nasce dalla volontà di trasformare un processo digitale e immateriale in un oggetto tangibile e conservabile. In questo modo l’esperienza non termina con la fine dell’interazione sul LEDwall, ma continua oltre il tempo dell’evento attraverso una traccia fisica che il visitatore può portare con sé.

Lo “scontrino” diventa quindi molto più di una semplice stampa: è una testimonianza del dialogo avvenuto tra persona e macchina, una registrazione materiale di un momento irripetibile in cui il comportamento umano ha influenzato direttamente il processo creativo dell’intelligenza artificiale.
Ogni esemplare è unico, poiché rappresenta la combinazione tra il contenuto generato dal sistema e le modifiche introdotte dal singolo utente, trasformandosi in una sorta di souvenir generativo che certifica il proprio contributo all’evoluzione continua di The BrAIn.

CONCLUSIONE

The BrAIn ha dimostrato come l'intelligenza artificiale possa essere utilizzata non soltanto come strumento di automazione o generazione di contenuti, ma come elemento capace di partecipare attivamente a un processo creativo collettivo.
Nel corso dei Digital Design Days, l'installazione ha operato ininterrottamente come un organismo digitale vivente, ascoltando, interpretando e traducendo in tempo reale idee, concetti e visioni provenienti dagli speaker e dal pubblico.

La combinazione di tecnologie di speech-to-text, analisi semantica, modelli linguistici, generazione di immagini AI, computer vision e rendering tridimensionale ha dato vita a un ecosistema complesso in cui ogni componente ha contribuito alla costruzione di un'unica esperienza narrativa.
Il linguaggio è stato trasformato in materia visiva, le idee in immagini, e l'interazione umana in un elemento attivo del processo creativo.

Uno degli aspetti più significativi emersi durante l'evento è stato il livello di partecipazione generato dal sistema. Nell'arco dei giorni del DDD sono state prodotte migliaia di immagini uniche e altrettanti artwork stampati sotto forma di scontrini, ciascuno rappresentante un momento irripetibile dell'attività dell'installazione.

Ogni generazione è stata il risultato della combinazione tra il contenuto semantico elaborato dall'intelligenza artificiale, il contesto dell'evento e il contributo diretto delle persone che hanno interagito con il sistema.

Questo elevato volume di contenuti non rappresenta soltanto un dato quantitativo, ma testimonia la capacità di The BrAIn di sostenere un processo creativo continuo, mantenendo coerenza narrativa, qualità visiva e rilevanza concettuale per l'intera durata della manifestazione.
L'installazione non ha semplicemente mostrato immagini generate dall'AI: ha costruito una rappresentazione dinamica dell'intelligenza collettiva presente all'interno dell'evento, trasformando ogni intervento, ogni interazione e ogni contributo umano in una nuova manifestazione visiva.

The BrAIn si è quindi configurato come un esperimento sul futuro della relazione tra esseri umani e sistemi intelligenti. Un sistema capace non solo di comprendere il linguaggio, ma di attribuirgli forma, materia e presenza nello spazio.
In un contesto in cui l'intelligenza artificiale viene spesso percepita come uno strumento invisibile che opera dietro le quinte, The BrAIn ne ha reso visibile il processo cognitivo, permettendo al pubblico di osservare e partecipare attivamente alla trasformazione delle idee in esperienza.

Più che un'installazione tecnologica, The BrAIn è stato un laboratorio vivente sul potenziale dell'intelligenza artificiale come medium creativo, dimostrando come dati, linguaggio, immaginazione e partecipazione umana possano convergere in un unico organismo generativo in continua evoluzione.

Autore:

Ivan Zambanello | R&D Lead / Creative Technologist @AQuest

Hai una storia o un progetto da raccontare?

Condividi con noi le tue idee e obiettivi:
troveremo insieme la migliore strategia di comunicazione digitale.

Visualizza articolo completo