NOTA- Progetto SICED
Introduzione
L'intelligenza artificiale (IA) e l'apprendimento automatico (machine learning) stanno gradualmente rafforzando il loro impatto sulla vita di tutti i giorni e si ritiene che abbiano un'influenza dominante nell'assistenza sanitaria digitale per la diagnosi e il trattamento delle malattie nel prossimo futuro. I progressi tecnologici nell'intelligenza artificiale e nel machine learning hanno spianato la strada a strumenti automatici di diagnosi delle patologie utilizzando grandi set di dati, per affrontare le sfide future allo scopo di rilevare malattie umane in una fase molto precoce, specialmente nel cancro. In particolare, il machine learning è il sottoinsieme dell'intelligenza artificiale in cui vengono sviluppati algoritmi di base relativi alla rete neurale per consentire alla macchina di apprendere e risolvere problemi come il cervello umano. Il deep learning è un suo sottoinsieme che invece imita la capacità del cervello umano di processare dati, di identificare immagini e oggetti, elaborare linguaggi, migliorare la scoperta di farmaci, aggiornare farmaci di precisione, migliorare la diagnosi e aiutare gli umani a prendere decisioni.
La ricerca sull'oncologia clinica è ora particolarmente focalizzata sulla decodifica dell'insorgenza molecolare del cancro attraverso la comprensione della complessa architettura biologica della proliferazione delle cellule tumorali (1). Inoltre, si ritiene che l'uso dell'IA, nel processo decisionale clinico, aumenti le possibilità di previsione e diagnosi precoci della malattia mediante il sequenziamento NGS e le tecniche di imaging ad alta risoluzione. L’uso dell’IA porterebbe anche all'introduzione di nuovi biomarcatori per la diagnosi del cancro, alla progettazione di nuovi farmaci personalizzati e alla fornitura di potenziali strategie di trattamento generando set di dati significativi e utilizzando strumenti bioinformatici specializzati.
Questo progetto si è focalizzato sulla possibilità di sfruttare l’Intelligenza Artificiale nella diagnosi precoce dell’adenocarcinoma duttale pancreatico attraverso l’utilizzo di una piattaforma digitale in grado di acquisire e analizzare un numero considerevole di dati. L’infrastruttura creata, potrà essere utilizzata in trial clinico-diagnostici e, trattandosi di una struttura aperta ad implementazioni, potrà fornire in futuro, soluzioni diagnostiche sempre più accurate e non solo nella diagnosi del tumore al pancreas. Infatti, l’utilizzo della piattaforma potrebbe estendersi anche ad altre patologie oncologiche e non, grazie alla capacità di raccogliere ed elaborare dati proveniente da qualsiasi fonte.
Stato dell’arte
L’ adenocarcinoma duttale del pancreas (PDAC), originante dall’ epitelio duttale pancreatico, è la forma di carcinoma pancreatico di gran lunga più frequente. Circa il 70% dei carcinomi pancreatici ha origine dalla testa dell’organo e per la maggior parte si sviluppa dai dotti che trasportano gli enzimi della digestione (adenocarcinoma duttale pancreatico). I tumori neuroendocrini, invece, che originano dalle cellule delle isole di Langerhans, il cui ruolo è la produzione di ormoni, sono relativamente rari e per la maggior parte benigni. L’adenocarcinoma pancreatico duttale rappresenta circa il 2% di tutti i tumori maligni e il 10 % di quelli dell’apparato gastroenterico, secondo solo a quello del colon; la sua incidenza è notevolmente aumentata negli ultimi decenni raggiungendo la frequenza di 10 casi/100000 abitanti negli Stati Uniti, dove tale neoplasia rappresenta la quarta causa di morte tra i decessi legati a tumore (2). Nonostante i recenti progressi nelle tecniche chirurgiche e nelle terapie mediche, la sopravvivenza media per un paziente affetto da PDAC al momento della diagnosi è di circa 4-6 mesi, mentre il tasso medio di sopravvivenza a 5 anni è inferiore all’8%. Entro il 2030 l’adenocarcinoma del pancreas diventerà la seconda causa di morte per cancro negli Stati Uniti dopo il cancro ai polmoni, superando il cancro del colon-retto, della mammella e della prostata. Si stima che i tumori del tratto gastrointestinale (cancro del pancreas, del fegato e del colon-retto) costituiscano 3 delle 4 principali cause di morte per cancro nel 2040 (3). I motivi principali di una prognosi così scadente sono da ricercare nella regione anatomica di particolare complessità in cui il tumore cresce e nel fatto che nella maggior parte dei pazienti tale neoplasia viene diagnosticata in fase ormai troppo avanzata. Infatti, dal momento della diagnosi, la curva di sopravvivenza dei pazienti cade drammaticamente nel primo anno di follow-up; per la terapia di questa neoplasia non ci sono stati significativi miglioramenti negli ultimi tre decenni e la cattiva prognosi è sostanzialmente uniforme a livello internazionale (4-5). Il tumore del pancreas è difatti un tumore maligno complesso con prognosi sfavorevole poiché in fase precoce non dà segni particolari o, quando i sintomi sono presenti, si tratta di disturbi piuttosto vaghi, che possono essere interpretati in modo errato. Per questi motivi la diagnosi spesso viene fatta quando la malattia è già estesa. La rimozione chirurgica è l’unico trattamento potenzialmente curativo, tuttavia, meno del 20% dei pazienti sono candidati alla chirurgia al momento della presentazione clinica: la sopravvivenza mediana per i pazienti su cui non si è intervenuti chirurgicamente è di 3,5 mesi, mentre nei pazienti sottoposti a pancreasectomia la sopravvivenza mediana è di 12,6 mesi (6). A tutt’oggi non esistono programmi di screening che possano essere raccomandati alla popolazione generale e in particolare ai soggetti ad alto rischio. Secondo i criteri internazionali (7), rivisitati nelle linee guida italiane (8), i soggetti a rischio che potenzialmente potrebbero essere sottoposti a programmi di sorveglianza sono:
- soggetti aventi tre o più consanguinei, a prescindere dal grado di parentela, sulla stessa linea affetti da cancro del pancreas;
- due consanguinei (direttamente correlati) sulla stessa linea, di cui almeno uno di primo grado, affetti da cancro del pancreas;
- portatori di mutazioni BRCA-1, BRCA-2 o p16 con almeno un consanguineo, di primo o secondo grado, affetto da cancro del pancreas;
- portatori di mutazione della Sindrome di Peutz-Jeghers;
- soggetti con pancreatite ereditaria.
Attualmente, l'individuazione e la diagnosi del cancro del pancreas si basano principalmente su modalità di imaging, tra cui ecografia transaddominale, tomografia computerizzata (TC), ecografia endoscopica etc., queste tecnologie di screening hanno innumerevoli limitazioni tecniche e sono inefficaci nel rilevare il cancro del pancreas allo stadio iniziale e piccole metastasi o lesioni peritoneali. Così come i biomarcatori utilizzati nella pratica clinica mancano della necessaria sensibilità e specificità come discusso precedentemente. Nuovi marcatori come: i marcatori genetici (ad es. KRAS, TP53, SMAD4 e CDKN2A), il DNA tumorale circolante (ctDNA), cellule tumorali circolanti (CTC) ed esosomi sono stati analizzati mostrando un grande potenziale per la diagnosi precoce del cancro del pancreas (10).
Per le ragioni esposte, la realizzazione di nuovi test diagnostici su proteine sieriche coinvolte nella patogenesi del tumore al pancreas, insieme ad un’analisi su vasta scala di altri parametri del paziente, quali analisi anatomopatologiche, cliniche e genetiche dei campioni biologici, e la loro integrazione attraverso l’utilizzo di tecniche di intelligenza artificiale potrebbero portare alla realizzazione di piattaforme digitali in grado di migliorare la diagnosi precoce dell’adenocarcinoma del pancreas, riducendone il tasso di fatalità.
L’analisi attraverso machine learning di datasets genetici e metabolici sta producendo i primi risultati sulla possibile diagnosi precoce dell’adenocarcinoma del pancreas. Un esempio è il lavoro di Zhang et al. (2020) in cui è stata descritta una firma composta da nove coppie di geni da set di dati di espressione genica di microarray (11). Un altro interessante lavoro, i cui dati sono stati ottenuti attraverso questa tecnologia riguarda geni che producono proteine secretorie che potrebbero essere impiegati come biomarcatori sierici per la diagnosi di PDAC (12). Gli autori, in questo caso, hanno identificato un possibile pannello di 9 geni (IFI27, ITGB5, CTSD, EFNA4, GGH, PLBD1, HTATIP2, IL1R2, CTSA). Questi marcatori sono stati validati anche in studi di proteomica e trascrittomica, che hanno suggerito il loro ruolo prognostico nella diagnosi di PDAC permettendo di discriminare con precisione il PDAC dalla pancreatite cronica e dalle fasi iniziali della progressione (IPMN). L’ulteriore vantaggio dello sviluppo di pannelli di biomarcatori sierici nella diagnosi precoce, così come lo sviluppo di tecnologie ad alta sensibilità per la biopsia liquida su cellule e/o su DNA circolante, potrebbe in futuro rendere fruibile per la popolazione un test di screening non invasivo. In linea con questo principio, è da sottolineare che sono operativi diversi trial clinici sull’utilità diagnostica del DNA tumorale circolante come strumento di sorveglianza e di screening nei pazienti con tumore al pancreas (13).
Risultati del progetto
Poiché il fattore di rischio maggiore è rappresentato dalla predisposizione genetica, abbiamo utilizzato un approccio bioinformatico per identificare variazioni genetiche che caratterizzassero i pazienti con carcinoma pancreatico.
L’analisi dei dati genetici raccolti nei tre diversi database (https://portal.gdc.cancer.gov/, https://cbioportal.org e https://dcc.icgc.org) è risultata laboriosa a causa delle innumerevoli mutazioni riscontrate nei campioni biologici (biopsie e sangue periferico) di questi pazienti. Per questa ragione, abbiamo preferito focalizzare la nostra attenzione su quei geni mutati in alta percentuale (38 geni target) e quindi più frequenti in pazienti con carcinoma pancreatico. Inoltre, tra le diverse mutazioni somatiche raccolte nei nostri 3 database abbiamo rilevato un alto numero di mutazioni puntiformi. Tra le diverse mutazioni vi sono soprattutto: sinonime, missenso, nonsenso, piccole inserzioni e delezioni (frameshift e in frame), mutazioni nei siti di splicing o nelle regioni non tradotte (UTR). L’analisi è stata eseguita su un totale di 963 pazienti.
Un’alta frequenza di mutazioni sono state ritrovate nei geni KRAS, CDKN2A, TP53 e SMAD4. Questi geni, come ampiamente riconosciuto, sono caratteristici di mutazioni precoci nella storia naturale del tumore pancreatico. Sono state identificate inoltre, alte frequenza di mutazioni nei geni BRCA1 e BRCA2 e PALB2 coinvolti nello sviluppo del tumore alla mammella e ovaio e nei geni CFTR e PRSS1 implicati in un incremento del rischio di sviluppare pancreatite. Sono stati individuati anche alterazioni nei geni MLH1, MSH2 e MSH6 causativi della sindrome di Lynch.
Sono stati inoltre individuati altri geni con alte frequenze di mutazione, questi comprendono proteine che regolano diverse funzioni cellulari, tra le quali: riparazione del DNA, progressione del ciclo cellulare in fase G1/S, adesione cellula-cellula e invasione cellulare. Tra questi, i geni MAP-chinasi (BRAF) e i geni coinvolti nel TGFβ pathway, in cui tutte le proteine coinvolte sono state trovate modificate nei pazienti con PDAC. Tra gli altri geni analizzati, abbiamo identificato mutazioni frequenti in TTN, ROBO2, PREX2, ARID1A e ATRX.
Il risultante dataset è stato utilizzato per una prima prova di identificazione di variazioni genetiche significative, che potessero da sole distinguere l’adenocarcinoma duttale rispetto al carcinoma pancreatico mucinoso. Tuttavia, la varietà e la molteplicità delle mutazioni nei geni considerati possono portare a fenomeni fenotipici molto differenti. Cercare di comprendere come una o più mutazioni sono collegati a fattori di rischio di patologie cancerogene legate al pancreas è compito non banale. Al fine di fornire un modello matematico della complessa relazione esistente tra mutazione genetica e cancro al pancreas, in questo progetto è stato usato un approccio basato sui cosiddetti algoritmi evoluzionari (Evolutionary Algorithm), ed in particolare i Genetic Algorithm (GA). In particolare, è stata usata una tecnica chiamata Programmazione Genetica, la quale consente di risolvere un problema di Regressione Simbolica attraverso l’uso di algoritmi genetici. Tale approccio ha consentito di estrarre una formula matematica descrivente la correlazione tra i vari geni ed il tumore in oggetto. La classica tecnica del K-Fold Cross-Validation è stata altresì impiegata per valutare l’accuratezza della formula ricavata.
Impatto del progetto
Questo progetto ha lo scopo di migliorare gli strumenti di stratificazione del rischio di sviluppo del tumore al pancreas, attraverso l’utilizzo di nuove tecniche diagnostiche integrate dall'intelligenza artificiale.
I risultati della ricerca saranno resi disponibili attraverso piattaforme digitali agli utilizzatori finali.
Implementare la diagnosi precoce significa apportare un significativo miglioramento della prognosi per questo tipo di patologia.
Un primo banco di prova, che potrebbe consolidare l’uso della piattaforma SICED, potrebbe essere rappresentato dalla sperimentazione clinica sui dati genetici ottenuti attraverso biopsia liquida di DNA tumorale circolante di pazienti con tumore al pancreas.
Diagnosi precoce significa poter intervenire chirurgicamente in anticipo con la resezione radicale, quando il tumore è ancora in situ. I dati ottenuti verranno elaborati e resi fruibili attraverso soluzioni digitali che potrebbero favorire il miglioramento dell’efficacia dei percorsi clinico-assistenziale di sorveglianza nella popolazione a rischio.
L’implementazione dei percorsi clinico-assistenziale di sorveglianza nella popolazione a rischio hanno tutto il potenziale di cambiare l’attuale panorama di riferimento.
Referenze
- MJ, Javed Z, Sadia H, Qureshi IA, Irshad A, Ahmed R, Malik K, Raza S, Abbas A, Pezzani R, Sharifi-Rad J. Clinical applications of artificial intelligence and machine learning in cancer diagnosis: looking into the future. Cancer Cell Int. 2021 May 21;21(1):270.
- Khalaf N, El-Serag HB, Abrams HR, Thrift AP. Burden of Pancreatic Cancer: From Epidemiology to Practice. Clin Gastroenterol Hepatol. 2021 May;19(5):876-884.
- Rahib L, Wehner MR, Matrisian LM, Nead KT. Estimated Projection of US Cancer Incidence and Death to 2040. JAMA Netw Open. 2021 Apr 1;4(4): e214708.
- Kindler HL. A Glimmer of Hope for Pancreatic Cancer. N.Engl.J.Med. 2018 Dec 20; 379(25):2463-2464.
- Galon J, Bruni D. Approaches to treat immune hot, altered, and cold tumours with combination immunotherapies. Nat Rev Drug Discov. 2019 Mar;18(3): 197-218.
- Lambert A, Schwarz L, Borbath I, Henry A, Van Laethem JL, Malka D, Ducreux M, Conroy T. An update on treatment options for pancreatic adenocarcinoma. Ther Adv Med Oncol. 2019 Sep 25.
- Argent BE, Gray MA, Steward MC, et al. Cell physiology of pancreatic ducts. In: Johnson LR, editor. Physiology of the gastrointestinal tract.
- Solomon S, Whitcomb DC, LaRusch J. PRSS1-Related Hereditary Pancreatitis. In: GeneReviews. Edited by RA Pagon, MP Adam, HH Ardinger HH, et al: University of Washington, Seattle. 1993-2014. 2012 Mar 1.
- Firpo M.A., K.M. Boucher, S.J. Mulvihill, Prospects for developing an accurate and diagnostic biomarker panel for lower prevalence cancers, Theor. Biol.Med. Model. 2014, 11:34.
- Wang S, Zheng Y, Yang F, Zhu L, Zhu XQ, Wang ZF, Wu XL, Zhou CH, Yan JY, Hu BY, Kong B, Fu DL, Bruns C, Zhao Y, Qin LX, Dong QZ. The molecular biology of pancreatic adenocarcinoma: translational challenges and clinical perspectives. Signal Transduct Target Ther. 2021 Jul 5;6(1):249.
- Zhang ZM, Wang JS, Zulfiqar H, Lv H, Dao FY, Lin H. Early Diagnosis of Pancreatic Ductal Adenocarcinoma by Combining Relative Expression Orderings With Machine-Learning Method. Front Cell Dev Biol. 2020 Oct 15; 8:582864.
- Khatri I, Bhasin MK. A Transcriptomics-Based Meta-Analysis Combined With Machine Learning Identifies a Secretory Biomarker Panel for Diagnosis of Pancreatic Adenocarcinoma. Front Genet. 2020 Sep 10; 11:572284.
- Grunvald MW, Jacobson RA, Kuzel TM, Pappas SG, Masood A. Current Status of Circulating Tumor DNA Liquid Biopsy in Pancreatic Cancer. Int J Mol Sci. 2020 Oct 16;21(20):7651. doi: 10.3390/ijms21207651. PMID: 33081107; PMCID: PMC7589736.