Skip to content
Tiatra, LLCTiatra, LLC
Tiatra, LLC
Information Technology Solutions for Washington, DC Government Agencies
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact
 
  • Home
  • About Us
  • Services
    • IT Engineering and Support
    • Software Development
    • Information Assurance and Testing
    • Project and Program Management
  • Clients & Partners
  • Careers
  • News
  • Contact

Big data: ecco come orientarsi tra data warehouse, data lake e data lakehouse

L’85% dei CEO esige dai manager senior di produrre informazioni data-driven su cui fondare le attività di innovazione, ha scritto IDC nel suo “FutureScape: Worldwide Future of Digital Innovation 2023 Predictions”. Nel 2024 il ruolo della conoscenza estratta dai dati è quanto mai attuale. La natura dei big data continua a cambiare, e una loro quota crescente è generata nel cloud: il 32% nel 2027, secondo le stime di “Worldwide IDC Global DataSphere Forecast, 2023-2027”, contro il 17,5% nel 2022. Proprio il cloud sta modificando le tecnologie del data management: la diffusione delle soluzioni public cloud – fondamentalmente, quelle dei grandi fornitori americani – spinge l’evoluzione dal data warehouse al data lake fino al data lakehouse. In ogni caso l’obiettivo è estrapolare conoscenza con tecniche che vanno dalla business intelligence (BI), agli analytics fino all’intelligenza artificiale (IA).

In generale, i CIO in Italia tendono a mantenere il data warehouse se i dati della loro azienda sono strutturati e in quantità non voluminose, mentre il data lake è la scelta più o meno obbligata per chi ha a che fare con dati non strutturati. In molti casi le due soluzioni si affiancano per rispondere alle esigenze di analisi e visualizzazione di entrambi i tipi di dati. Il data lake, per esempio, si presta alla manipolazione delle informazioni in tempo reale o ultra-reale, che sono il 22% dei nuovi dati creati, secondo IDC.

I dati in streaming, invece, che rappresentano il 75% del totale dei nuovi dati, sono destinati idealmente al Ddta lakehouse, il nuovo sistema di data management la cui adozione è facilitata dall’utilizzo del public cloud, come spiega Stefano Gatti, esperto del settore e curatore della newsletter LaCulturadelDato.

Dal data warehouse al data lake

Le due soluzioni del data warehouse e del data lake sono molto diverse tra loro, evidenzia Gatti. La prima riguarda il primo dei sistemi IT dell’era della manipolazione dal dato, con infrastrutture di supporto spesso ancora on-premise. In seguito, sull’onda del web 2.0, si è fatto strada il data lake ai fini di estrarre valore dai big data non strutturati. Ma la differenza è anche nella filosofia sottostante e negli obiettivi.

“Nel data warehouse prevale il metodo, si analizzano dati di business, finanziari, di prodotto e simili, che richiedono maggiore precisione. Nel data lake, invece, prevale la logica di innovazione”, afferma Gatti. “Di conseguenza, nell’ambito della gestione dei dati a fini analitici, il data warehouse ha un focus più su applicazioni di reporting, mentre il data lake si configura piuttosto come un laboratorio di sperimentazione per data scientist e data analyst, adatto ad aree creative, come il marketing. Entrambe le soluzioni oggi possono mostrare dei limiti: nel data warehouse il campo è molto circoscritto, mentre nel data lake si rischia di perdere la direzione dello sforzo di innovazione e la capacità di arrivare a un’applicazione di valore su larga scala”.

Il data lakehouse, che unisce i pregi e supera i limiti dei due modelli, rappresenta secondo Gatti una “evoluzione darwiniana di data warehouse e data lake”. Ma per i CIO italiani non si prescinde dalla pratica, ovvero dalla domanda chiave: di che cosa ho veramente bisogno?

Il data lake al servizio del business

Nel caso di Haleon (che in Italia distribuisce farmaci tramite propri centri logistici, magazzini di terze parti e un team di vendita), la scelta dell’IT è di gestire i dati in un data lake in cloud globale (l’azienda è una multinazionale), perché i dati sono di fonti e formati disparati. A questo data lake su Microsoft Azure attingono i dipartimenti di business per estrarre le informazioni utili alle loro operazioni, sia quotidiane che di lungo periodo, come le attività di analisi. Qui si inserisce il lavoro del gruppo IT italiano diretto da Saverio La Pietra, Digital & Tech Senior Partner di Haleon in Italia.

“In ogni mercato in cui operiamo il team locale di data analyst sviluppa dei connettori per l’accesso ai dati nel cloud in base alle specifiche richieste”, spiega La Pietra. “Al momento sfruttiamo i dati soprattutto per le aree marketing, vendita, finanza e demand planning”.

Per esempio, in uno dei progetti condotti da La Pietra e dal suo team, l’esigenza è arrivata dal marketing, che aveva necessità di organizzare con maggiore efficienza i tanti report interni, voluminosi e in formati disparati, che vengono prodotti regolarmente dagli analisti distribuiti sui vari mercati locali con i dati utili a decidere quando attivare le campagne di comunicazione. Il team di La Pietra ha accolto la richiesta avviando un progetto di centralizzazione dei dati per migliorare il processo.

“Abbiamo iniziato conducendo una fase di discovery, che è durata 4-5 mesi ed è stata abbastanza laboriosa, perché i report erano tanti e occorreva capire, insieme alle persone del marketing e ai data analyst, quali fossero le intersezioni e le ridondanze in questi documenti”, racconta La Pietra. “In seguito abbiamo ottimizzato i dati dei report e adesso stiamo centralizzando tutto in un unico repository, o hub, che speriamo di rendere operativo nella prima metà del 2024 e dove ogni persona del marketing troverà i dati che le servono in base al suo profilo”. E su cui potrà lavorare anche in autonomia, ovvero in modalità self-service.

I data analyst e il paradigma self-service

Nella filosofia di Haleon la gestione dei dati ha l’obiettivo di evitare una sovrabbondanza di informazioni che si traduce in perdita di tempo. Snellire le operazioni quotidiane vuol dire essere più competitivi: l’azienda è una GDO del pharma e deve confrontarsi con altri attori della vendita al dettaglio e dell’e-commerce che fanno della velocità e del prezzo la loro forza. Un altro elemento fondamentale della strategia è portare la conoscenza IT nei team di business con le figure dei data analyst.

“I data analyst si occupano di predisporre la consultazione e l’approfondimento dei dati con il prodotto di business Intelligence”, afferma La Pietra. “Non sono figure del dipartimento IT, bensì personale interno ai gruppi di business. Io li chiamo ‘shadow IT’: tecnici esperti inseriti nelle funzioni aziendali che conoscono il significato del dato e sanno come applicarlo a specifici usi”, spiega La Pietra.

Il loro ruolo è cruciale: fare da collegamento tra Big Data e risultati di business. Grazie alla BI, infatti, vengono sviluppate le dashboard di consultazione e analisi che sono messe a disposizione dei colleghi delle varie funzioni. Alcune persone in azienda – dopo una specifica attività di formazione – sono in grado di crearsi questi prodotti in autonomia, predisponendo dei report dettagliati sul loro specifico settore, come gli antidolorifici OTC, gli integratori multivitamici o i prodotti per l’igiene orale.

Data lakehouse: quando è la soluzione “giusta”

Oggi l’ampia diffusione del public cloud, con la sua infrastruttura moderna, facilita la creazione e la manutenzione degli ambienti di data lakehouse, dove si fondono la gestione ordinata tipica del data warehouse e il lavoro di innovazione del data analyst e del data scientist tipica del data lake, evidenzia Gatti. 

“Il public cloud aiuta ad abbattere i costi soprattutto in termini di know-how, perché comunque l’infrastruttura richiesta dal data lakehouse è complessa”, chiarisce l’esperto. “Oggi i CIO tendono a tenere sia un data warehouse che un data lake, ma alcune aziende stanno semplificando la loro struttura di gestione dei dati ricorrendo solamente al data lakehouse, almeno nel public cloud, e secondo me questa scelta è più efficiente. L’ideale sarebbe avere una sola struttura per gestire i dati per scopi analitici e il data lakehouse ha la duttilità necessaria. Ma, ovviamente, dipende dal punto di partenza”.

Infatti, se un’azienda già ha un data warehouse e un data lake on-premise e la strategia prevede la migrazione al cloud, quest’ultima può essere l’occasione per passare in modo efficiente al data lakehouse. Se, al contrario, non si può migrare tutto al cloud perché ci sono prodotti legacy che devono rimanere on-premises, “si può cominciare realizzando un data lakehouse per alcuni prodotti la cui migrazione al cloud è giustificata, considerato che nel cloud la computazione costa più dello storage”, indica Gatti. “Poi, se il risultato del data lakehouse è soddisfacente, si può estendere la migrazione ad altri prodotti, riducendo il ruolo del database on-premises, che ha costi inferiori sulla computazione ma maggiori per investimento e manutenzione”.

Il futuro del data Management

I CIO sono sulla stessa lunghezza d’onda: se l’IT è già strutturato per data warehouse e data lake, si tende a rimandare il passaggio al data lakehouse, in quanto esige un cambio di architettura e, quindi, un investimento. Questo va giustificato con un risparmio sui costi, un aumento delle prestazioni e, soprattutto, un’esigenza di business, per esempio, se si vogliono integrare applicazioni di IA facendo leva sulle competenze del cloud provider.

Secondo Gartner (“Future of Data Architecture”), infatti, il futuro va verso un uso sempre più esteso degli Analytics su ogni fonte e tipologia di dati e verso l’applicazione dell’IA. Elementi cruciali di questa evoluzione saranno la condivisione delle informazioni con l’intero ecosistema di partner, fornitori e utenti e la democratizzazione dell’accesso ai dati per tutte le funzioni di business in base al paradigma degli “analytics self-service”.

Big Data, Data Management
Read More from This Article: Big data: ecco come orientarsi tra data warehouse, data lake e data lakehouse
Source: News

Category: NewsJanuary 23, 2024
Tags: art

Post navigation

PreviousPrevious post:UAE President announces the establishment of the AI and Advanced TechnologyNextNext post:2024年にITリーダーとして成長する15の方法

Related posts

Start small, think big: Scaling AI with confidence
May 9, 2025
CDO and CAIO roles might have a built-in expiration date
May 9, 2025
What CIOs can do to convert AI hype into tangible business outcomes
May 9, 2025
IT Procurement Trends Every CIO Should Watch in 2025
May 9, 2025
‘서둘러 짠 코드가 빚으로 돌아올 때’··· 기술 부채 해결 팁 6가지
May 9, 2025
2025 CIO 현황 보고서 발표··· “CIO, 전략적 AI 조율가로 부상”
May 9, 2025
Recent Posts
  • Start small, think big: Scaling AI with confidence
  • CDO and CAIO roles might have a built-in expiration date
  • What CIOs can do to convert AI hype into tangible business outcomes
  • IT Procurement Trends Every CIO Should Watch in 2025
  • ‘서둘러 짠 코드가 빚으로 돌아올 때’··· 기술 부채 해결 팁 6가지
Recent Comments
    Archives
    • May 2025
    • April 2025
    • March 2025
    • February 2025
    • January 2025
    • December 2024
    • November 2024
    • October 2024
    • September 2024
    • August 2024
    • July 2024
    • June 2024
    • May 2024
    • April 2024
    • March 2024
    • February 2024
    • January 2024
    • December 2023
    • November 2023
    • October 2023
    • September 2023
    • August 2023
    • July 2023
    • June 2023
    • May 2023
    • April 2023
    • March 2023
    • February 2023
    • January 2023
    • December 2022
    • November 2022
    • October 2022
    • September 2022
    • August 2022
    • July 2022
    • June 2022
    • May 2022
    • April 2022
    • March 2022
    • February 2022
    • January 2022
    • December 2021
    • November 2021
    • October 2021
    • September 2021
    • August 2021
    • July 2021
    • June 2021
    • May 2021
    • April 2021
    • March 2021
    • February 2021
    • January 2021
    • December 2020
    • November 2020
    • October 2020
    • September 2020
    • August 2020
    • July 2020
    • June 2020
    • May 2020
    • April 2020
    • January 2020
    • December 2019
    • November 2019
    • October 2019
    • September 2019
    • August 2019
    • July 2019
    • June 2019
    • May 2019
    • April 2019
    • March 2019
    • February 2019
    • January 2019
    • December 2018
    • November 2018
    • October 2018
    • September 2018
    • August 2018
    • July 2018
    • June 2018
    • May 2018
    • April 2018
    • March 2018
    • February 2018
    • January 2018
    • December 2017
    • November 2017
    • October 2017
    • September 2017
    • August 2017
    • July 2017
    • June 2017
    • May 2017
    • April 2017
    • March 2017
    • February 2017
    • January 2017
    Categories
    • News
    Meta
    • Log in
    • Entries feed
    • Comments feed
    • WordPress.org
    Tiatra LLC.

    Tiatra, LLC, based in the Washington, DC metropolitan area, proudly serves federal government agencies, organizations that work with the government and other commercial businesses and organizations. Tiatra specializes in a broad range of information technology (IT) development and management services incorporating solid engineering, attention to client needs, and meeting or exceeding any security parameters required. Our small yet innovative company is structured with a full complement of the necessary technical experts, working with hands-on management, to provide a high level of service and competitive pricing for your systems and engineering requirements.

    Find us on:

    FacebookTwitterLinkedin

    Submitclear

    Tiatra, LLC
    Copyright 2016. All rights reserved.