Il cancro al seno è il tipo di tumore più comune al mondo e la principale causa di morte tra le donne. La diagnosi precoce e la rapidità della diagnosi sono fondamentali per salvare vite umane. L'analisi istopatologica dei tessuti da parte di un patologo rimane il metodo definitivo per confermare la presenza o l'assenza di malattia e per valutare la progressione della stessa. Tuttavia, questo processo è spesso noioso e soggettivo, il che può portare a variazioni nell'interpretazione, anche tra patologi esperti. Claranet ha svolto, insieme a partner come Emoj e altri, un bando per progetti di un gruppo di ricerca finanziato dalla Regione Marche dal nome ProBreast.
Problemi e sfide
Gli strumenti di diagnosi assistita da computer (CAD) esistenti generalmente eseguono solo una delle varie fasi del processo diagnostico. Per ottenere un rapporto diagnostico completo, è necessario utilizzare più strumenti, il che non è efficiente. I principali problemi incontrati includono:
- Variabilità dei dati
- La necessità di ottenere etichette accurate per le immagini istologiche, che indichino la presenza o l'assenza di tessuto canceroso.
Soluzione implementata
Per risolvere questi problemi, è stata sviluppata una soluzione integrata, basata su una robusta architettura AWS per la raccolta dei dati, l'elaborazione, l'addestramento dei modelli e la distribuzione dei risultati.
- Raccolta e preparazione dei dati: Sono stati scansionati campioni bioptici anonimizzati, producendo 300 serie di immagini istologiche a diversi livelli di ingrandimento (da 1,25x a 40x), etichettate manualmente da medici. Le immagini sono accompagnate da informazioni cliniche dettagliate.
- Creazione del set di dati: Sono state utilizzate tecniche di normalizzazione degli spot e di estrazione delle patch per creare set di dati adatti all'addestramento del modello. È stata creata una pipeline di dati automatizzata, utilizzando AWS Glue DataBrew per garantire la coerenza del set di dati e AWS SageMaker per la pulizia e la pre-elaborazione dei dati.
- Addestramento del modello: sono stati addestrati diversi modelli di deep learning, tra cui le reti neurali convoluzionali profonde (DCNN) e l'algoritmo eXtreme Gradient Boosting (XGBoost). I modelli sono stati testati e validati con diversi parametri per ottimizzarne le prestazioni.
Architettura AWS
- AWS S3: archiviazione di immagini istopatologiche e dati clinici. I dati sono organizzati e protetti per un accesso rapido ed efficiente.
- AWS Glue DataBrew: strumento di preparazione dei dati che li ha ripuliti e normalizzati. Le trasformazioni sono state automatizzate per garantire la coerenza tra i set di dati.
- AWS SageMaker: piattaforma utilizzata per l'addestramento, la convalida e la distribuzione di modelli di deep learning. SageMaker ha semplificato il processo di formazione dei modelli fornendo un'infrastruttura gestita per l'elaborazione intensiva richiesta.
- AWS Lambda: utilizzato per attivare processi di elaborazione dei dati in risposta a eventi, rendendo più semplice l'automazione dei flussi di lavoro.
- AWS CloudWatch: strumento di monitoraggio utilizzato per raccogliere e monitorare le metriche delle prestazioni dei modelli e dei servizi AWS, garantendo una manutenzione proattiva e regolazioni in tempo reale.
- AWS IAM: Identity and Access Management, che garantisce che solo le persone e i servizi autorizzati possano accedere ai dati sensibili e alle risorse AWS.
- AWS ECS: Container Management Service utilizzato per distribuire e gestire le applicazioni diagnostiche in produzione, garantendo scalabilità e gestione efficiente delle risorse.
Risultati ottenuti
I risultati ottenuti con i diversi modelli sono promettenti:
- La classificazione delle immagini istologiche, mediante l'applicazione del modello VGG16 pre-addestrato su ImageNet, ha raggiunto un'accuratezza dell'87,6%.
- La previsione del grado del cancro utilizzando l'algoritmo XGBoost ha raggiunto un'accuratezza del 95%.
- La previsione della recidiva del cancro a 10 anni utilizzando la regressione lineare ha raggiunto un'accuratezza del 71%.
Conclusioni
Lo strumento CAD sviluppato combina l'analisi delle immagini istologiche con l'analisi dei dati clinici e istologici per generare un rapporto diagnostico e prognostico completo per il cancro al seno. Questo strumento ha il potenziale per ridurre il carico di lavoro dei medici e migliorare la riproducibilità delle diagnosi. L'architettura AWS ha permesso di implementare una soluzione scalabile, sicura e ad alte prestazioni, facilitando l'implementazione e lo sfruttamento dei modelli di deep learning. Sono necessari ulteriori studi per migliorare la robustezza e l'accuratezza dei modelli, in particolare acquisendo più dati etichettati e sperimentando diversi approcci di deep learning.