Cerved
Cerved è uno dei principali fornitori di informazioni commerciali in Italia e una delle principali agenzie di rating in Europa. L’azienda aiuta le imprese, le banche, le istituzioni e gli individui a proteggersi dal rischio e a raggiungere una crescita sostenibile. Grazie al suo esclusivo repository di dati e analisi, Cerved offre ai clienti servizi, consigli e piattaforme digitali per gestire i rischi e sostenere la crescita basata sui dati.
La grande differenza nell'utilizzo dei servizi AWS rispetto al nostro precedente sistema on-premise è che l'ecosistema AWS ci fornisce modelli di apprendimento automatico, integra questi processi nel nostro sistema più ampio e gestisce ogni parte della nostra pipeline dalla formazione alla distribuzione”. ”
Ingegnere Informatico Cerved
Abbiamo anche fornito formazione on-the-job per alcune attività in cui abbiamo iniziato a implementare una pipeline di apprendimento automatico per rilasciare automaticamente tutti i livelli per AWS Lambda e per le librerie”. ”
Senior Solutions Architect di Claranet
Un ecosistema appositamente costruito per l'apprendimento automatico
I principali servizi AWS che Cerved utilizza in questo progetto sono AWS Lambda e Amazon Kinesis. Utilizza anche Amazon Kinesis Data Streams per i diversi componenti del servizio di monitoraggio dei media che raccoglie articoli di notizie dalle sue molte fonti. Amazon SageMaker supporta le attività di apprendimento automatico, in cui esiste una pipeline di formazione per molti modelli di classificazione binari indipendenti. Questi vengono poi distribuiti come strati AWS Lambda. Le diverse funzioni di AWS Lambda poi classificano le notizie utilizzando la classificazione multi-label, in base alle diverse categorie di argomenti di notizie. La parte centrale del sistema corrisponde e riconosce anche le aziende e le entità aziendali basate su reti neurali personalizzate e il più grande ecosistema italiano di informazioni commerciali di Cerved, che comprende più di sei milioni di aziende italiane attive. Attraverso un altro modello personalizzato per NER (denominato riconoscimento dell'entità) il sistema riconosce le posizioni menzionate negli articoli in quanto trae da fonti esterne come l'Istituto Nazionale di Statistica.
"La grande differenza nell'utilizzo dei servizi AWS rispetto ai nostri precedenti sistemi on-premise è che l'ecosistema AWS ci fornisce modelli di apprendimento automatico, integra questi processi nel nostro sistema più ampio e gestisce ogni parte delle nostre pipeline dalla formazione alla distribuzione", spiega Tavolaro. "È molto facile farlo. Stiamo sfidando l'approccio standard a MLOps oggi utilizzando la soluzione serverless per dare ai nostri team la migliore gestione dei costi e il rilascio più veloce del manufatto."
L’ecosistema AWS sta rendendo il nostro sistema flessibile e più facile da mantenere, oltre a fornire una migliore qualità per i nostri clienti e la creazione di risparmi sui costi per Cerved. ”
Data Scientist di Cerved
La Sfida
Cerved voleva migliorare la precisione, facilitare la manutenzione e ottenere la possibilità di estendere rapidamente la funzionalità del suo servizio di monitoraggio dei media. Un altro motivo chiave per il passaggio a AWS è stato il risparmio sui costi: il passaggio a un approccio di spesa operativa (opex) per la spesa IT eliminerebbe la necessità di costose infrastrutture in loco che sono sottoutilizzate al di fuori dei periodi di punta. "Gestire ambienti completamente predefiniti semplifica lo sviluppo", afferma Gabriele Sotto, Data Scientist di Cerved. "Questo approccio ci permette di essere flessibili e indipendenti." Dopo aver avviato il progetto a metà del 2020, Cerved inizialmente si è concentrata sulla costruzione e implementazione dei nuovi modelli di apprendimento automatico per tre componenti principali del suo servizio di monitoraggio dei media per le aziende italiane, che categorizzano gli articoli aziendali per tipi di eventi aziendali, riconoscere le aziende con diverse attività economiche e finanziarie in Italia, e riconoscere località geografiche in tutta Italia.
Semplificare lo sviluppo di modelli di apprendimento automatico
Con il supporto di AWS Partner che offre servizi di consulenza Claranet, Cerved è stato in grado di superare la sua costosa e inflessibile on-premise, soluzione basata su regole per il tagging e categorizzazione articoli di notizie. Ora utilizza un'infrastruttura serverless AWS che semplifica lo sviluppo, l'addestramento, l'implementazione e la manutenzione dei modelli di apprendimento automatico per il monitoraggio dei media automatizzato in tempo reale nell'ambiente di produzione.
Amazon Kinesis Data Firehose raccoglie quindi le informazioni dai passaggi di classificazione e ingerisce i risultati in un indice Amazon OpenSearch Service. I risultati e le classificazioni degli articoli sono poi presentati alla redazione di Cerved per la revisione manuale attraverso un'interfaccia utente personalizzata.
Costruire competenze MLOps
Una sfida che Cerved ha dovuto affrontare è che, mentre aveva forti competenze interne di data scientist e data engineering, mancavano le competenze DevOps per l'apprendimento automatico MLOps. È qui che l'esperienza e le competenze di Claranet in DevOps e MLOps hanno davvero contribuito a supportare il progetto con consigli su tutto, dall'implementazione delle API all'architettura della soluzione. Claranet ha aiutato Cerved a progettare e automatizzare l'implementazione dei modelli di apprendimento automatico sviluppati attraverso l'infrastruttura serverless come codice. Claranet sta anche aiutando Cerved a pianificare e progettare le tubazioni di monitoraggio e riqualificazione per i modelli di apprendimento automatico.
Claranet ha utilizzato un approccio alle operazioni di formazione per fornire un percorso di apprendimento per sviluppare le competenze e le competenze interne di AWS di Cerved in queste aree. "Abbiamo fornito alcuni corsi sui big data e sul machine learning", afferma Gianluigi Mucciolo, Senior Solutions Architect di Claranet.
In sintesi
Con l'aiuto Claranet, Cerved ha ridotto i costi infrastrutturali e migliorato la precisione della categorizzazione degli articoli di notizie per il suo servizio di monitoraggio dei media del 25% utilizzando modelli di apprendimento automatico. Ciò è stato possibile passando da sistemi on-premise a un ambiente AWS serverless per lo sviluppo di apprendimento automatico.
Dall'implementazione dei modelli di apprendimento automatico ridisegnati utilizzando l'ambiente di sviluppo serverless AWS, Cerved ha ottenuto un miglioramento medio del 25 per cento in quanto con precisione e precisione etichetta e categorizza automaticamente gli articoli prima che vengono inviati a un team di redattori per la revisione manuale. "Questo si traduce in un risparmio di tempo da parte del team editoriale perché è necessario rimuovere meno articoli che sono stati etichettati in modo errato", afferma Divna Djordjevic, Data Scientist di Cerved. "E, a lungo termine, questo si trasforma in risparmi sui costi e consente anche al team editoriale di concentrarsi su compiti più difficili."
Un altro importante vantaggio dell'utilizzo di AWS è il risparmio sui costi dell'infrastruttura, rispetto al precedente sistema on- premise. "Ora, nel cloud con una soluzione AWS serverless, possiamo utilizzare il sistema solo quando ne abbiamo bisogno durante il periodo da due a tre ore in cui arriva la notizia", dice Daniele Tavolaro, Data Engineer di Cerved. "Quindi paghiamo solo per l'uso effettivo durante quel periodo."Tutto questo aiuta Cerved a fornire una migliore qualità dei dati, che aiuta i clienti a prendere decisioni migliori e garantire una crescita più sostenibile. Sulla base del successo del progetto fino a oggi, Cerved prevede di espandere il suo uso dell'ambiente serverless MLOps per aggiungere più modelli di apprendimento automatico ad altri componenti del suo servizio di monitoraggio dei media. Si prevede inoltre di esporre queste funzionalità attraverso le API per offrire nuove linee di prodotti per i clienti.