Negli ultimi anni l’intelligenza artificiale ha conquistato anche il mondo della finanza. Sempre più spesso si parla di algoritmi capaci di prevedere l’andamento dei mercati, di modelli in grado di leggere testi finanziari e report aziendali, fino ad arrivare all’uso dei grandi modelli linguistici – gli stessi che alimentano le più moderne applicazioni di IA – per interpretare notizie, dati macroeconomici e sentiment degli investitori.
Che il fenomeno sia in crescita lo confermano anche i numeri. Secondo dati diffusi da MarketAxess Holdings Inc. e riportati da Bloomberg, in agosto il trading algoritmico ha rappresentato oltre il 40% degli scambi nel mercato obbligazionario “high grade” statunitense, contro meno del 10% nel 2020. In soli quattro anni la quota è quadruplicata. L’andamento mostra un pattern ricorrente: attività in calo a settembre e poi di nuovo in aumento negli ultimi tre mesi dell’anno. Un segnale chiaro di come il trading automatizzato non solo stia guadagnando terreno, ma contribuisca a sostenere i volumi di mercato anche nei periodi tradizionalmente più lenti, come l’estate o le festività.
L’idea che muove il tutto è affascinante: avere uno strumento che sappia anticipare le mosse dei mercati e guidare decisioni di investimento. Non sorprende che ci siano ormai centinaia di studi dedicati all’uso dell’IA nel trading. Alcuni lavori, come il “Large Language Models in Finance: A Survey” (2023), mostrano le applicazioni possibili dei modelli linguistici per analizzare testi e previsioni, mentre altre ricerche si concentrano su tecniche di machine learning tradizionali per stimare l’andamento dei prezzi o il rischio di default delle imprese.
Eppure, dietro all’entusiasmo per queste nuove tecnologie si nasconde un rischio meno visibile, ma molto concreto: quello del data leakage.
Il termine può sembrare tecnico, ma il concetto è semplice. Con “data leakage” – o “fuga di informazione” – si intende la situazione in cui un modello predittivo riceve, anche in modo involontario, informazioni che in realtà non dovrebbe avere.
Immaginiamo di voler costruire un modello che preveda il prezzo di un’azione domani, usando i dati di oggi. Se però nel processo di preparazione dei dati finiamo, anche indirettamente, per includere numeri che dipendono già dai prezzi di domani, il modello impara a prevedere qualcosa che in realtà conosce già. Non si tratta quindi di vera previsione, ma di un inganno statistico che rende i risultati molto più belli sulla carta di quanto non sarebbero nella realtà.
Il data leakage non è quasi mai intenzionale: spesso nasce da piccoli errori nella preparazione dei dati o nella scelta del metodo di valutazione. Alcuni esempi tipici?
- Normalizzare i dati con informazioni future: calcolare medie o deviazioni standard su tutta la serie storica, invece che solo sul passato disponibile al momento della previsione.
- Costruire indicatori che guardano avanti: ad esempio, usare un valore che include già il prezzo del giorno dopo.
- Selezionare solo aziende “sopravvissute”: un errore comune è analizzare i titoli che oggi sono in Borsa, dimenticando quelli che sono falliti o delistati. In questo modo si elimina dalla storia una parte importante dell’informazione.
- Validazione non corretta: usare metodi di cross-validation che mescolano passato e futuro, facendo in modo che il modello impari da dati che in teoria dovrebbe ancora “attendere”.
Il problema è che quando si cade in queste trappole, il modello sembra funzionare benissimo nei test, ma poi crolla di fronte ai dati reali. In finanza, dove la differenza tra un buon e un cattivo modello può valere milioni, il rischio è evidente.
Negli ultimi anni la comunità accademica ha iniziato a riflettere seriamente sul tema del data leakage, proprio perché rappresenta uno degli ostacoli principali alla credibilità delle previsioni basate sull’IA in finanza.
Un lavoro molto citato è quello di Zachary David (2019), “Information leakage in financial machine learning research”. L’autore mette in luce come anche procedure considerate “di routine” – dalla normalizzazione dei dati fino alla selezione degli indici azionari – possano introdurre inconsapevolmente informazioni dal futuro. Il risultato è che i modelli appaiono molto più accurati di quanto non siano nella pratica.
Un secondo contributo interessante è lo studio di Liu, Chen, Zheng e Feng (2022), “A Prediction Method with Data Leakage Suppression for Time Series”. Qui gli autori affrontano direttamente il problema nelle serie temporali, che sono il pane quotidiano dei mercati finanziari. Il loro metodo propone accorgimenti per impedire che operazioni di pulizia o decomposizione dei dati vadano a contaminare il set di addestramento con informazioni future.
C’è poi la ricerca di Talagala (2024) con lo sviluppo di tsdataleaks, un pacchetto pensato per individuare automaticamente possibili fughe informative nei dataset utilizzati nelle competizioni di forecasting. È un segnale importante: il problema è talmente diffuso che si stanno creando strumenti software ad hoc per prevenirlo.
Infine, alcuni studi più recenti sull’applicazione dei modelli linguistici di grandi dimensioni (LLM) alla finanza – come il già citato sondaggio del 2023 – sottolineano che il rischio di data leakage si moltiplica quando si lavora con testi. Infatti, un report aziendale o una notizia di giornale possono contenere informazioni pubblicate dopo la data che si vorrebbe prevedere: se il modello le usa, la previsione non è più una vera previsione.
Il messaggio che emerge da questa letteratura è chiaro: la potenza degli strumenti di intelligenza artificiale non basta, se non viene accompagnata da rigore metodologico nel trattamento dei dati.
L’intelligenza artificiale promette di rivoluzionare il trading e la previsione dei mercati. Dai modelli di machine learning ai più recenti modelli linguistici, gli strumenti a disposizione degli analisti sono sempre più sofisticati. Ma insieme alle opportunità arrivano anche nuove responsabilità.
Il data leakage è un nemico invisibile che può trasformare un modello apparentemente geniale in un castello di carte. Per questo è importante parlarne, comprenderlo e tenerlo presente quando si valutano nuovi strumenti di analisi e di previsione. Senza dati puliti e corretti, anche l’IA più avanzata rischia di diventare poco più che un’illusione.
Foto di Pexels