Claranet Italia: come l’AI ha accelerato la gestione degli incidenti cloud
Claranet Italia è un system integrator e managed service provider che supporta le aziende nella progettazione, gestione e ottimizzazione delle infrastrutture cloud. Tra i servizi principali offerti vi sono i Managed Services, un modello basato su team tecnici dedicati che conoscono in profondità l’ambiente del cliente, lo monitorano costantemente e intervengono in modo tempestivo in caso di anomalie o incidenti.
Introduzione
Claranet applica su sé stessa le soluzioni che propone ai propri clienti, sperimentandole in un contesto reale, critico e ad alta complessità.
Il progetto nasce all'interno del team di Managed Services di Claranet Italia, uno degli ambienti più complessi e critici dell'organizzazione, caratterizzato da elevati volumi operativi, requisiti di servizio particolarmente stringenti e dalla necessità di garantire continuità e tempestività nel servizio.
La sfida
All’interno del servizio di Managed Services, una delle principali criticità era legata ai tempi di diagnosi dei problemi infrastrutturali. In particolare, il team si trovava a dover:
- Ridurre il tempo necessario per individuare la root cause degli incidenti.
- Automatizzare attività ripetitive e ad alto consumo di tempo.
La domanda iniziale è stata semplice ma strategica: è possibile automatizzare parte di questo processo? Storicamente, la diagnosi di problemi infrastrutturali è sempre stata considerata un’attività troppo complessa e variabile per essere automatizzata. Tuttavia, l’evoluzione delle tecnologie di Intelligenza Artificiale ha aperto nuove possibilità.
Le attività di analisi e comprensione del problema
Per comprendere a fondo la problematica, sono stati organizzati diversi incontri con i colleghi del team di Managed Services e condotta un’analisi approfondita dei flussi operativi.
L’attenzione si è concentrata sulle notifiche automatiche generate dalle sonde di AWS CloudWatch. Questi alert segnalano la presenza di un problema su una determinata risorsa, ma non forniscono informazioni sufficienti per comprenderne immediatamente la causa.
A partire dall’allarme, il Cloud Support Engineer deve:
- Eseguire una serie di controlli manuali sulle risorse coinvolte.
- Raccogliere informazioni tecniche da più fonti.
- Identificare la causa radice del problema.
- Valutare e testare diverse possibili soluzioni, partendo da quelle meno invasive.
- Mitigare l’incidente nel più breve tempo possibile.
- Comunicare al cliente le attività svolte e le azioni correttive definitive.
Questo processo, seppur efficace, risultava ripetitivo, impegnativo e fortemente dipendente dall’esperienza degli specialisti, con un impatto significativo sui tempi di risposta.
La soluzione adottata
Una volta mappati chiaramente i passaggi del processo, è emerso come l’Intelligenza Artificiale potesse supportare e automatizzare diverse fasi operative.
Attraverso l’utilizzo degli Strands agents e fornendo in input le informazioni presenti nei ticket, insieme ai permessi necessari per interrogare le risorse infrastrutturali, l’AI è stata in grado di:
- Raccogliere automaticamente le informazioni tecniche rilevanti.
- Proporre comandi di diagnostica mirati per individuare la root cause dell’allarme.
- Eseguire attività di troubleshooting usando sui comandi.
- Analizzare gli output e suggerire diverse opzioni di risoluzione.
Il risultato è un sistema in cui gli esperti non devono più partire da zero, ma possono validare le analisi e le soluzioni proposte dall’AI, intervenendo in modo rapido e mirato.
I risultati
L’introduzione di questa soluzione ha portato benefici concreti e misurabili:
- Riduzione del tempo di diagnosi del 75%, passando da circa 20 minuti a meno di 5 minuti per incidente.
- Diminuzione significativa del tempo che intercorre tra l’apertura dell’incident e la notifica al cliente.
- Maggiore efficienza operativa del team di Managed Services, che può concentrarsi su attività a maggior valore aggiunto.
Feedback del team
Il progetto è stato affinato grazie al feedback continuo dei colleghi coinvolti. Questo ha permesso di migliorare progressivamente i prompt utilizzati dall’AI, adattandoli alle diverse casistiche operative ed evitando comportamenti o processi indesiderati.
Prossimi step
Il progetto è in continua evoluzione. I prossimi sviluppi previsti includono:
- L’introduzione di un sistema di caching per evitare di attivare ripetutamente le stesse analisi su problematiche identiche e sulle stesse macchine.
- L’estensione del supporto ad altri servizi cloud, oltre alle istanze EC2 attualmente coperte.
- Il miglioramento continuo dei prompt e dei flussi decisionali, sulla base dei feedback operativi.
Conclusione
Questo progetto dimostra come l’Intelligenza Artificiale possa diventare un alleato strategico nei Managed Services, non per sostituire l’esperienza umana, ma per potenziarla. Automatizzando le attività più ripetitive e time-consuming, Claranet Italia è riuscita a migliorare significativamente i tempi di risposta, la qualità del servizio e la soddisfazione dei clienti, ponendo le basi per un’evoluzione continua del modello operativo.