Augmented data e data augmentation, tecniche per Big Data

L'importanza dei augmented data e data augmentation nei big data. Ecco cosa sono.

di , pubblicato il
big data

Quando si parla di big data si parla ormai di complessi archivi informatici utilissimi al fine di migliorare e rendere più performante l’attività di un’azienda, ma tale sistema necessita di una serie di tecniche atte a supportarne la concreta fattibilità, come ad esempio gli augmented data e la data augmentation. Di cosa si tratta? Scopriamo insieme a cosa servono tali tecniche e come funzionano nel dettaglio.

Big data, tecniche per una tecnologia migliore

Quando si parla di big data, si parla inevitabilmente anche di Data augmentation, ossia letteralmente, l’aumento dei dati. Conseguenza diretta di questi ultimi sono inoltre gli Augmented data, ossia i dati arricchiti. Entrambi formano un insieme di tecniche atte ad ampliare il dataset a disposizione senza raccogliere realmente nuovi elementi. Questo perché la data augmentation applica ai dati già esistenti una serie di cambiamenti casuali controllati e realizzando in tal modo delle copie modificate. Questo processo permette l’apprendimento automatico delle reti neurali artificiali, in modo da consentire al sistema di imparare all’aumentare del dataset di training.

Come dicevamo, tale processo è atto ad automatizzare l’apprendimento, la comprensione e l’elaborazione di linguaggio naturale. Il termine “Augmented Analytics” è stato coniato dalla società di ricerca Gartner con la pubblicazione del paper “Augmented Analytics is the Future of Data and Analytics” che risale al luglio 2017. Comprendiamo quindi quanto, alla luce di queste tecniche, big data e intelligenza artificiale siano sempre più strettamente connesse.

AI e big data, una combo inscindibile

L’intelligenza artificiale, come dicevamo, è sempre più alla base delle varie tecniche e processi che lavorano nel mondo dei big data. Tra le diverse tecniche di AI, troviamo infatti l’apprendimento automatico (o machine learning), basato su algoritmi artificiali che hanno il compito di imitare alcune determinate facoltà umano, come appunto quella dell’apprendimento.

Una sottocategoria di tale processo è il deep learning, basato su reti neurali artificiali in grado di analizzare, rappresentare e “comprendere” il linguaggio scritto e parlato.

Ma a cosa servono, praticamente augmented dei big data? I processi sopra descritti sono utilizzati per risolvere problematiche legate all’overfitting. Con questo termine si intende sovradattamento del modello statistico al campione di dati osservato. Tale situazione si verifica quando il modello ha troppi parametri rispetto al numero di osservazioni eseguito. Questa antinomia rischia di mandare la rete neurale artificiale in errore, poiché impara a memoria da quel che vede, ma non riuscendo a trovare una regola generalizzata, sbaglia. Per questo motivo quindi gli augmented ampliano il dataset, aumentano in tal guisa le discriminanti dei trainer data e risolvono l’impasse.

Potrebbe interessarti anche In un romanzo di fine 800 c’era già le preoccupazioni di oggi sull’Intelligenza artificiale

Argomenti: ,