CAD: uno strumento diagnostico per il cancro al seno che utilizza l'architettura AWS

Il cancro al seno è il tipo di tumore più comune al mondo e la principale causa di morte tra le donne. La diagnosi precoce e la rapidità della diagnosi sono fondamentali per salvare vite umane. L'analisi istopatologica dei tessuti da parte di un patologo rimane il metodo definitivo per confermare la presenza o l'assenza di malattia e per valutare la progressione della stessa. Tuttavia, questo processo è spesso noioso e soggettivo, il che può portare a variazioni nell'interpretazione, anche tra patologi esperti. Claranet ha svolto, insieme a partner come Emoj e altri, un bando per progetti di un gruppo di ricerca finanziato dalla Regione Marche dal nome ProBreast.

Problemi e sfide

Gli strumenti di diagnosi assistita da computer (CAD) esistenti generalmente eseguono solo una delle varie fasi del processo diagnostico. Per ottenere un rapporto diagnostico completo, è necessario utilizzare più strumenti, il che non è efficiente. I principali problemi incontrati includono:

  • Variabilità dei dati
  • La necessità di ottenere etichette accurate per le immagini istologiche, che indichino la presenza o l'assenza di tessuto canceroso.

Soluzione implementata

Per risolvere questi problemi, è stata sviluppata una soluzione integrata, basata su una robusta architettura AWS per la raccolta dei dati, l'elaborazione, l'addestramento dei modelli e la distribuzione dei risultati.

  • Raccolta e preparazione dei dati: Sono stati scansionati campioni bioptici anonimizzati, producendo 300 serie di immagini istologiche a diversi livelli di ingrandimento (da 1,25x a 40x), etichettate manualmente da medici. Le immagini sono accompagnate da informazioni cliniche dettagliate.
  • Creazione del set di dati: Sono state utilizzate tecniche di normalizzazione degli spot e di estrazione delle patch per creare set di dati adatti all'addestramento del modello. È stata creata una pipeline di dati automatizzata, utilizzando AWS Glue DataBrew per garantire la coerenza del set di dati e AWS SageMaker per la pulizia e la pre-elaborazione dei dati.
  • Addestramento del modello: sono stati addestrati diversi modelli di deep learning, tra cui le reti neurali convoluzionali profonde (DCNN) e l'algoritmo eXtreme Gradient Boosting (XGBoost). I modelli sono stati testati e validati con diversi parametri per ottimizzarne le prestazioni.

Architettura AWS

  • AWS S3: archiviazione di immagini istopatologiche e dati clinici. I dati sono organizzati e protetti per un accesso rapido ed efficiente.
  • AWS Glue DataBrew: strumento di preparazione dei dati che li ha ripuliti e normalizzati. Le trasformazioni sono state automatizzate per garantire la coerenza tra i set di dati.
  • AWS SageMaker: piattaforma utilizzata per l'addestramento, la convalida e la distribuzione di modelli di deep learning. SageMaker ha semplificato il processo di formazione dei modelli fornendo un'infrastruttura gestita per l'elaborazione intensiva richiesta.
  • AWS Lambda: utilizzato per attivare processi di elaborazione dei dati in risposta a eventi, rendendo più semplice l'automazione dei flussi di lavoro.
  • AWS CloudWatch: strumento di monitoraggio utilizzato per raccogliere e monitorare le metriche delle prestazioni dei modelli e dei servizi AWS, garantendo una manutenzione proattiva e regolazioni in tempo reale.
  • AWS IAM: Identity and Access Management, che garantisce che solo le persone e i servizi autorizzati possano accedere ai dati sensibili e alle risorse AWS.
  • AWS ECS: Container Management Service utilizzato per distribuire e gestire le applicazioni diagnostiche in produzione, garantendo scalabilità e gestione efficiente delle risorse.

cad aws

Risultati ottenuti

I risultati ottenuti con i diversi modelli sono promettenti:

  • La classificazione delle immagini istologiche, mediante l'applicazione del modello VGG16 pre-addestrato su ImageNet, ha raggiunto un'accuratezza dell'87,6%.
  • La previsione del grado del cancro utilizzando l'algoritmo XGBoost ha raggiunto un'accuratezza del 95%.
  • La previsione della recidiva del cancro a 10 anni utilizzando la regressione lineare ha raggiunto un'accuratezza del 71%.

Conclusioni

Lo strumento CAD sviluppato combina l'analisi delle immagini istologiche con l'analisi dei dati clinici e istologici per generare un rapporto diagnostico e prognostico completo per il cancro al seno. Questo strumento ha il potenziale per ridurre il carico di lavoro dei medici e migliorare la riproducibilità delle diagnosi. L'architettura AWS ha permesso di implementare una soluzione scalabile, sicura e ad alte prestazioni, facilitando l'implementazione e lo sfruttamento dei modelli di deep learning. Sono necessari ulteriori studi per migliorare la robustezza e l'accuratezza dei modelli, in particolare acquisendo più dati etichettati e sperimentando diversi approcci di deep learning.