Il Machine Learning (ML) e l’intelligenza Artificiale (AI) stanno rimodellando il mondo dell’informatica.

Machine Learning, o Apprendimento automatico, è il campo della computer science che permette ad un computer di apprendere senza che venga esplicitamente programmato.
Il Machine Learning diventa efficace nel raggiungere lo scopo prestabilito solo quando i dati coinvolti all’interno del processo di Apprendimento automatico vengono sottoposti ad una fase di Data Quality.
Una verità essenziale e fondamentale riguardo al Machine Learning e all’AI è che gli algoritmi utilizzati nei processi di apprendimento automatico, per quanto siano performanti e ottimizzati, non restituiranno mai risultati attendibili se alla base ci sono dei dati “sporchi”. La qualità dei dati è alla base del successo o del fallimento dell’apprendimento automatico.
Le cause che determinano una scarsa qualità del dato possono essere molteplici: ad esempio gli inserimenti manuali da parte degli utenti, duplicazioni, imprecisioni o programmi non del tutto funzionanti. A meno che non si tratti di dati di qualità, è difficile che qualsiasi algoritmo di Machine Learning ottenga risultati utili ai fini di un modello decisionale.

Quali sono gli svantaggi portati da una scarsa qualità dei dati?

  • Spreco di risorse: ad es. un pacco che viene spedito all’indirizzo sbagliato;
  • Sanzioni normative:ad es. sanzioni per un reporting GDPR non accurato;
  • Analytics inaffidabili:ad es. previsioni errate che impattano sui profitti;
  • Danno della reputazione: ad es. perdita di fiducia da parte dei clienti cui arrivano comunicazioni errate;
  • Dati inaffidabili:ad es. scelte strategiche inficiate da informazioni di scarsa qualità.

Consideriamo sistemi che, tramite algoritmi di Machine Learning, debbano prendere delle decisioni in tempo reale: valori errati o “sporchi” nei dati in ingresso potrebbero portare a conseguenze dannose.
Come rendere efficaci per il business le soluzioni di Machine Learning e Intelligenza Artificiale?
Ipotizziamo, ad esempio, di offrire tramite il nostro sito web, un servizio basato su algoritmi di raccomandazione, come quelli utilizzati da tutte le più grandi piattaforme (Amazon, Facebook, Netflix, ecc.). Il nostro servizio consiglia ai clienti cosa acquistare in base alle loro abitudini e al loro dati geografici. Ora,supponiamo che, per via di un indirizzo errato, ad un cliente vengano proposti dei prodotti non disponibili all’interno della sua regione: in questo caso la scarsa qualità anche di un solo dato può azzerare le potenzialità del nostro algoritmo, portando il cliente a perdere fiducia nel nostro servizio.
Per evitare problemi di questo tipo e rendere realmente efficaci le soluzioni di Machine Learning e di Intelligenza Artificiale dal punto di vista del business, è importante integrare queste piattaforme anche con strumenti di Data Quality che assicurino dati puliti ed affidabili, indipendentemente dalle loro dimensioni e dal loro formato.
In questo ambito Nodes collabora con i principali leader di mercato identificati nell’ultimo Magic Quadrant di Gartner: Magic Quadrant for Data Quality Tools.