Augmented data e data augmentation per intelligenza artificiale e big data

Il mondo della tecnologia è sempre più strettamente connesso a quello dell’economia. Il mercato si fa sempre più tech, e ormai tutte le aziende hanno scoperto l’importanza dei big data. Tra le tecniche dedicate al supporto di tale tecnologia risultano fondamentali augmented data e data augmentation. Scopriamo di cosa si tratta.

Big data, un elemento fondamentale

Cos’è l’aumento dei dati? Per Data augmentation ci si riferisce appunto all’aumento dei dati presenti nei processi big data. Conseguenza diretta di questi ultimi sono inoltre gli Augmented data, ossia i dati arricchiti.

Entrambi formano un insieme di tecniche atte ad ampliare il dataset a disposizione senza raccogliere realmente nuovi elementi. Questo processo permette l’apprendimento automatico delle reti neurali artificiali, in modo da consentire al sistema di imparare all’aumentare del dataset di training.

Che intelligenza artificiale e big data siano strettamente connessi lo dimostrano tanti studi specifici a tema, tra questi la pubblicazione del paper “Augmented Analytics is the Future of Data and Analytics” che risale al luglio 2017 stilato dalla società di ricerca Gartner. In questo report si coniava il termine Augmented Analytics. Ci si riferisce a una sorta di automatizzazione dell’apprendimento, ossia la comprensione e l’elaborazione di linguaggio naturale, tipica appunto delle IA, in questo caso applicate ai big data.

Augmented data e data augmentation

L’intelligenza artificiale, applicata con machine learning e deep learning, analizzano, scandaglia e comprende il linguaggio scritto. Insomma, esamina i dati in ogni minimo dettaglio e li fa propri. Tale processo però può portare a quello che viene definito overfitting. Con questo termine si intende sovradattamento del modello statistico al campione di dati osservato. Ed è quo che scendono in campo le tecniche di augmented data e data augmentation.

Tale situazione si verifica quando il modello ha troppi parametri rispetto al numero di osservazioni eseguito.

Questa problematica viziata alla sorgente rischia di mandare la rete neurale artificiale in errore, poiché impara a memoria da quel che vede, ma non riuscendo a trovare una regola generalizzata, sbaglia. Per questo motivo quindi gli augmented ampliano il dataset, aumentano in tal modo le discriminanti dei trainer data e risolvono il problema realizzando un nuovo modello regolamentato che non manda in overfitting l’AI.

Potrebbe interessarti anche Come verificare la copertura del 5G e città coperte in Italia