I Big Data

(…) l’analisi di dati su larga scala per estrapolare nuove indicazioni e creare nuove forme di valore (…) la vera rivoluzione non sta nelle macchine che elaborano i dati , ma solo nei dati in sé e nel modo in cui li usiamo.
Victor Mayer-Schönberger e Kenneth Cukier – Definiscono così i Big Data nel loro libro best seller Big data. Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà

Le macchine ci sono di aiuto, ma il vero valore dei dati sta nel modo in cui l’uomo li usa. Il termine Big Data è andato a svilupparsi negli anni 2000, grazie all’Astronomia e alla Genomica.

Cosa sono i Big Data?

Alcuni dati:

  • Il web rappresenta solo il 4% dei dati totali
  • Il 96% è il cosiddetto deep web, ossia l’insieme dei contenuti presenti sul web e non indicizzati dai comuni motori di ricerca (ad es. Google e Bing)

Oggi viviamo immersi nei dati, ma dobbiamo gestirli nel modo giusto.

Le 4 V che definiscono i Big Data

smeup le 4 V dei Big Data

Le sfide dei dati

Vediamo quali sono le sfide che i dati devono affrontare.

Data Availability
Qual è il livello di disponibilità del dato? Questi dati sono disponibili a tutti?
Non lo sappiamo. Sappiamo ad esempio che i nostri profili di Facebook e Instagram sono privati e che quei dati sono disponibili solo alla nostra cerchia di amici.

Data Quality
Quanto sono “buoni” i dati? Sono completi e aggiornati?
Pensiamo alla ricerca per le malattie: per una malattia comune posso trovare molte informazioni complete e aggiornate; per una malattia più rara invece troverò poche informazioni e probabilmente datate, quindi non adatte al mio obiettivo.

Data Discovery
Come troviamo dati di alta qualità nella vasta collezione di dati che si trovano nel web?
La data discovery è una grande sfida. Cercando ad esempio su Wikipedia, troviamo le informazioni, ma non abbiamo la certezza che quelle informazioni inserite siano corrette, in quanto ognuno può portare il proprio contributo, ma nessun esperto valida quei dati prima della pubblicazione.

Combining
Come mettiamo insieme i diversi dati?
La necessità di combinare diversi tipi di dati provenienti da fonti diverse: immagini, testi, suoni.

Alcuni concetti base sui sistemi informativi

I sistemi informativi

Definiamo innanzitutto cosa sono il sistema informativo e il sistema organizzativo.

Sistema informativo
Per sistema informativo si intende l’insieme delle informazioni utilizzate, memorizzate ed elaborate in un’organizzazione per il perseguimento dei propri fini.
Immaginate un’azienda che produce sanitari, dovrà gestire i seguenti dati: quelli relativi agli ordini in entrata, i dati sui pagamenti, le informazioni sulle vendite, quelle sui materiali utili alla realizzazione dei prodotti, le informazioni di pagamento di tutti i dipendenti.

Sistema organizzativo
E’ l’insieme di risorse, regole e procedure per l’utilizzo coordinato dei dati contenuti nel sistema informativo, utili al perseguimento degli obiettivi aziendali.
C’è un sistema organizzativo in ogni organizzazione: scuola, parco, azienda, ecc.

Come si è evoluto il sistema informativo

Negli anni ‘70 poche persone avevano accesso alle informazioni, si utilizzavano prevalentemente archivi cartacei.
Negli anni ‘80, con l’utilizzo dei primi computer, le informazioni venivano archiviate all’interno di ciascun personal computer e restavano lì, perché non esisteva ancora internet.
Dagli anni 2000 c’è la libera circolazione dell’informazione (messaggi, foto, post…) tra le persone, grazie a internet.

Evoluzione delle strutture organizzative

Siamo passati dal paradigma degli anni ‘60, “produci e vendi”, al paradigma dell’attuale scenario economico “percepisci e rispondi”.
Negli anni ‘60 l’economia era orientata alla produzione di massa. Le organizzazioni erano composte per il 60% dai Colletti Blu, classe operaia, e per il 40% dai Colletti Bianchi, la classe dirigente.
Intorno agli anni ‘70 le organizzazioni lasciano spazio ai cosiddetti Knowledge Worker, lavoratori che fanno da collante tra i Colletti Blu e i Colletti Bianchi. Appartengono a questa nuova categoria i professionisti qualificati, come ad esempio gli amministrativi. Questa trasformazione è frutto della necessità di analizzare concetti, non solo di produrre.
Si arriva così all’attuale contesto economico, caratterizzato dall’informazione che costituisce un valore. L’informazione circola e c’è bisogno di persone che la analizzino: analisi dell’andamento dell’azienda, analisi degli investimenti, analisi di marketing… Tanto più un’azienda riesce a maneggiare i dati, tanto più sarà in grado di evolvere e fare crescere il proprio business.

Evoluzione dell’informatica

Complementariamente all’evoluzione delle strutture organizzative, si assiste ad un’evoluzione dell’informatica. Le fasi sono state:

  • Anni ‘70: sistemi mainframe, legati al concetto di “Informatica come tecnologia di produzione”
  • Anni ‘80: personal computer, legati al concetto di “Informatica come tecnologia di coordinamento e controllo”
  • Anni ‘90 con le reti web e anni 2000 con la conoscenza: l’informatica ha assunto il ruolo di “tecnologia di intermediazione”.

Il livello dati

La piramide dei dati

smeup piramide dei dati1

Come conservo i dati?


Come accedo ai dati?


Come interrogo i dati?


Database

Insieme di dati riguardanti lo stesso argomento o argomenti correlati. Oltre ai dati, il database contiene informazioni sulla loro rappresentazione e sulle relazioni tra i dati stessi.

Database Management System
Sistemi di gestione dei database, quindi applicazioni software in grado di gestire il database e i dati in esso contenuti.

SQL (Structured Query Language)
Linguaggio per l’accesso ai dati memorizzati in un DataBase.

Query
Interrogazione a un database in modo da ottenere una parte dei dati in esso contenuti. Una query relazionale deve essere formulata in linguaggio SQL.

DataWarehouse (DWH)
E’ un database che raccoglie i dati provenienti da altri database. Si contraddistingue dal Database per le seguenti caratteristiche:
Integrato: contiene dati riguardanti argomenti diversi ma correlati tra loro (es. database delle offerte commerciali integrato con quello degli ordini effettivi).
Subject Oriented: orientato secondo le diverse attività del Business (ordini, prodotti, pagamenti…) ma indipendente dalle applicazioni software.
Time Variant: ha un orizzonte temporale in genere più esteso perché è destinato a durare nel tempo, accumulando informazioni riutilizzabili.
Non Volatile: i dati inseriti in un DWH una volta caricati non sono più modificabili.

Database Relazionali
Sono stati concepiti agli inizi degli anni ‘70. Si basano su una serie di concetti matematici che richiamano la terminologia dell’SQL, il linguaggio utilizzato per interrogarli.

Un esempio di Database Relazionale

smeup database relazionale 1

I Database Relazionali hanno una struttura rigida, in tabelle.
Le tabelle sono un insieme di tuple (record) con gli stessi attributi. Ogni tupla rappresenta un oggetto e l’informazione relativa a quell’oggetto.
Ogni record viene identificato univocamente da una chiave primaria.
I diversi oggetti possono avere relazioni fra loro. Una relazione rappresenta un legame tra un record di una tabella e quello di un’altra tabella. La relazione è indicata dalla presenza della chiave primaria di un’altra tabella tra gli attributi di una tabella, che è la chiave secondaria.

smeup database relazionale 2

Alcuni attributi possono essere classificati, raccolti in una tabella (metadato) e legati da una relazione con l’attributo originale.

smeup database relazionale 3

La Business Intelligence

Definizione di Business Intelligence

(…) Business Intelligence (B.I.) refers to skills, processes, technologies, applications and practices used to support decision making.
Wikipedia

La B.I. non è quindi solo un processo, né una particolare tecnologia, ma è l’insieme di tutte le tecniche, l’esperienza, le tecnologie, gli algoritmi e le applicazioni che aiutano e supportano l’uomo nel processo decisionale.

La Business Intelligence è un insieme di processi per raccogliere ed analizzare le informazioni.

Analizziamo questa frase.

Si tratta di un particolare insieme di processi aziendali, quindi come altri processi aziendali (ad esempio la produzione e la gestione contabile), comporta il coinvolgimento di strumenti, tecnologie e figure professionali.

Una parte di questi processi ha l’obiettivo di reperire le informazioni di business sparse in sistemi informativi diversi e difformi come struttura e tecnologia (come le informazioni contenute nei software ERP, nei CRM, in file excel, nei canali social aziendali).

Un’altra parte dei processi di B.I. ha l’obiettivo di permettere l’analisi delle informazioni raccolte con strumenti dedicati.

L’informazione è qualcosa che è subito fruibile per il ragionamento, il dato invece ha bisogno di essere inserito in un contesto, completato e trasformato.

Differenze tra dato, informazione e conoscenza

I dati sono grezzi.
Le informazioni sono dati accompagnati, in una certa misura, da un contesto e da un significato.
La conoscenza è la comprensione, la consapevolezza dei fatti, ottenuta tramite l’esperienza o l’apprendimento.

L’esempio dello Smartphone

Dati – I dati della batteria vengono dai sensori

Sono grezzi, ovvero sono al loro stato naturale, non sono stati manipolati nè riorganizzati in alcun modo. Non hanno fine decisionale, i consumi vengono esposti così come sono.

smeup mockup_01
smeup mockup_02

Informazione – I dati sono stati processati con uno scopo

In questo caso lo scopo è calcolare il tempo residuo della batteria sulla base dei dati e delle applicazioni aperte sullo smartphone.

Conoscenza – Generata dall’esperienza o dall’apprendimento

Certe applicazioni sullo smartphone imparano il nostro personale utilizzo del telefono e, in base a quello, calcolano il tempo residuo della batteria.

smeup mockup_03

Il processo di Business Intelligence

smeup piramide dei dati2

Come presentare i dati?
In quale forma?


Come accedere ai dati?
Con quali strumenti?


Come strutturare, aggregare, modificare i dati affinché siano utili per l’analisi?


Come i dati provenienti da diverse applicazioni si trasformano in dati standardizzati che risiedono nel DataWarehouse?

Nell’immagine a seguire vediamo che la raccolta dei dati si ritrova in 3 fasi: dati puri, manipolazione, inserimento nel DataWarehouse.

L’ottimizzazione dei dati, quindi la manipolazione/trasformazione dei dati ai fini dell’analisi, avviene dalla seconda porzione (estrazione, trasformazione e caricamento), fino al motore di analisi, inteso come il software in grado di estrarre i dati dal DataWarehouse e manipolarli.

Infine il vertice è dato dalla presentazione del dato.

smeup il processo di BI

Soluzioni di Business Intelligence

La Business Intelligence risponde a domande come:

  • cosa è accaduto?
  • quanti?
  • dove?
  • dov’è esattamente il problema?
  • cosa significa quello che sta accadendo?
  • cosa potrà succedere se questo trend continua?
  • qual è il miglior risultato?

Per far ciò vengono realizzati cruscotti con diversi tipi di report, da quelli più sintetici a quelli più analitici (indicatori, tabelle, grafici).

Qlik

smeup è partner di Qlik, tra i principali software per la B.I.
In azienda gli analisti lo utilizzano per creare moderni cruscotti di B.I. da qualsiasi fonte dato, per i clienti.
Qlik permette di integrare i dati dalle varie fonti: Excel, sistemi gestionali ERP, DataWarehouse. Possiamo estrarre i dati dalle varie fonti, costruire un modello relazionale all’interno di Qlik costituito da tabelle, il cui formato proprietario è il qvd.

Published On: Dicembre 2nd, 2020 / Categories: Business Analytics /

Naviga per categoria:

Seleziona una categoria d’interesse dal nostro magazine