Contexte : Le cancer du sein est le type de cancer le plus répandu dans le monde et la principale cause de mortalité chez les femmes. La détection précoce et le diagnostic rapide sont cruciaux pour sauver des vies. L'analyse des tissus histopathologiques par un pathologiste reste la méthode définitive pour confirmer la présence ou l'absence de la maladie, ainsi que pour évaluer la progression de la maladie. Cependant, ce processus est souvent fastidieux et subjectif, ce qui peut entraîner des variations d'interprétation, même parmi les pathologistes expérimentés. Claranet (Flowing) a été sollicité par ProBreast pour accompagner un projet émis par la région des Marches en Italie, au travers d’un appel à projet d’un groupement de recherche Bando Régionale.
Problématique et enjeux
Les outils de diagnostic assisté par ordinateur (CAD) existants n'effectuent généralement qu'une seule des différentes étapes du processus de diagnostic. Pour obtenir un rapport diagnostique complet, il est nécessaire d'utiliser plusieurs outils, ce qui n'est pas efficace. Les principaux enjeux rencontrés incluent :
- La variabilité et l'imbalance des données.
- La nécessité d'obtenir des étiquettes précises pour les images histologiques, indiquant la présence ou l'absence de tissus cancéreux.
Solution mise en œuvre
Pour répondre à ces problématiques, une solution intégrée a été développée, en s'appuyant sur une architecture AWS robuste pour la collecte, le traitement, l'entraînement des modèles et le déploiement des résultats.
- Collecte et préparation des données : Les échantillons de biopsie anonymes ont été numérisés, produisant 300 ensembles d'images histologiques à différents niveaux de grossissement (1,25x à 40x), étiquetés manuellement par des praticiens médicaux. Les images sont accompagnées d'informations cliniques détaillées.
- Création des ensembles de données : Des techniques de normalisation des taches et d'extraction de patchs ont été utilisées pour créer des ensembles de données adaptés à l'entraînement des modèles. Un pipeline de données automatisé a été mis en place, utilisant AWS Glue DataBrew pour garantir l'homogénéité des ensembles de données et AWS SageMaker pour les étapes de nettoyage et de prétraitement des données.
- Entraînement des modèles : Plusieurs modèles de deep learning ont été entraînés, notamment des réseaux de neurones convolutifs profonds (DCNNs) et l'algorithme eXtreme Gradient Boosting (XGBoost). Les modèles ont été testés et validés avec différents paramètres pour optimiser leurs performances.
Architecture AWS
AWS S3 : Stockage des images histopathologiques et des données cliniques. Les données sont organisées et sécurisées pour un accès rapide et efficace.
AWS Glue DataBrew : Outil de préparation des données qui a permis de nettoyer et de normaliser les données. Les transformations ont été automatisées pour garantir la cohérence des ensembles de données.
AWS SageMaker : Plateforme utilisée pour l'entraînement, la validation et le déploiement des modèles de deep learning. SageMaker a simplifié le processus d'entraînement des modèles en fournissant une infrastructure gérée pour le calcul intensif nécessaire.
AWS Lambda : Utilisé pour déclencher des processus de traitement de données en réponse à des événements, facilitant l'automatisation des flux de travail.
AWS CloudWatch : Outil de surveillance utilisé pour collecter et suivre les métriques de performance des modèles et des services AWS, assurant ainsi une maintenance proactive et des ajustements en temps réel.
AWS IAM : Gestion des identités et des accès, assurant que seules les personnes et les services autorisés peuvent accéder aux données sensibles et aux ressources AWS.
AWS ECS : Service de gestion des conteneurs utilisé pour déployer et gérer les applications de diagnostic en production, garantissant une scalabilité et une gestion efficace des ressources.
Résultats obtenus
Les résultats obtenus avec les différents modèles sont prometteurs :
- La classification des images histologiques, en ajustant le modèle VGG16 préentraîné sur ImageNet, a atteint une précision de 87,6 %.
- La prédiction du grade du cancer avec l'algorithme XGBoost a obtenu une précision de 95 %.
- La prédiction de la récurrence du cancer sur 10 ans avec la régression linéaire a abouti à une précision de 71 %.
Conclusion
L'outil CAD développé combine l'analyse d'images histologiques et l'analyse de données cliniques et histologiques pour générer un rapport diagnostique et pronostique complet pour le cancer du sein. Cet outil peut potentiellement réduire la charge de travail des médecins et améliorer la reproductibilité des diagnostics. L'architecture AWS a permis de mettre en œuvre une solution scalable, sécurisée et performante, facilitant ainsi le déploiement et l'exploitation des modèles de deep learning. Des études supplémentaires sont nécessaires pour améliorer la robustesse et la précision des modèles, notamment en acquérant davantage de données étiquetées et en expérimentant différentes approches de deep learning.