Wil je aan de slag met Microsoft Fabric, dan is het handig om een begrip te hebben bij termen als Lakehouse, Warehouse, Datamart en Datawarehouse. Microsoft introduceert continu nieuwe oplossingen. Nog voordat je kunt doorgronden wat de nieuwste oplossingen inhouden, komen er alweer nieuwe bij. Fijn, maar soms ook lastig bij te houden. Wat betekenen ze nou precies en wat kun je ermee? We zetten de termen voor je op een rij en leggen je uit wat ze inhouden.
Om te begrijpen waar dit over gaat, heb je een klein beetje achtergrond nodig. Business Intelligence werkt vaak met een soort verzamelbak waar alle data uit de diverse oplossingen samengebracht wordt. Van oudsher was dat vaak een Data Warehouse. Maar onder andere door de komst van ongestructureerde data of Big Data, zijn daar nieuwe manieren bijgekomen. Het Datalake deed z’n intrede. En inmiddels is er een huis aan de rand van het Datalake gebouwd. Het Lakehouse. Verschillende dataopslag- en beheermodellen kwamen om de hoek komen kijken. Ze bieden elk hun eigen aanpak voor de complexe eisen van moderne data-analyse.
Datawarehouse (DWH)
Functionaliteit van het Data warehouse
Integratie van Gegevens
Het combineert data uit verschillende bronnen (bijv. operationele databases, externe bronnen) in één consistente opslagplaats.Complexe queries, eenvoudiger analyseren en rapporteren
Het is geoptimaliseerd voor het uitvoeren van complexe queries, wat helpt bij het genereren van rapporten en het uitvoeren van diepgaande analyses.
Trends vanuit historische data
Datawarehouses slaan vaak historische data op, wat essentieel is voor trendanalyses en besluitvorming over lange termijn.
Toepassing bij verschillende bedrijfsgroottes
Datawarehouses worden vaak gebruikt door middelgrote en grote ondernemingen voor BI, rapportage en het ondersteunen van besluitvorming op strategisch niveau.
Praktijkvoorbeeld van een Datawarehouse
Stel dat je controller bent. Je wilt continu een compleet beeld van je liquiditeit hebben. Een Datawarehouse stelt je in staat om op ieder moment, zonder diepgaande kennis van de databases en rapportagesoftware zicht te houden op de liquiditeit over meerdere werkmaatschappijen of bedrijven in diverse landen, regio’s of bijvoorbeeld periode’s.
Het inzicht staat dus constant voor je klaar, waarbij je dagelijks zicht kunt houden op de situatie. Of dat nu de liquiditeit is die je wilt volgen of een andere KPI die voor jouw organisatie van belang is.
Datamart
Een datamart is een subset van een datawarehouse, gericht op een specifiek bedrijfsgebied of functie, zoals verkoop, marketing of financiën. Op deze manier werkt iedere afdeling met zijn eigen model en blijft de performance hiervan voor iedereen gewaarborgd.
Functionaliteit van de Datamart
Gespecialiseerde Analyse
Het biedt gerichte data-analyse en rapportagemogelijkheden voor specifieke afdelingen binnen een organisatie. Op basis van je rechten krijg je de mogelijkheid om data vanuit meerdere afdelingen te bekijken.
Kostenbesparing
Door alleen relevante data op te slaan, kunnen de kosten voor opslag en verwerking worden verlaagd. Doordat er selectief data wordt opgeslagen, is er ook minder rekenkracht nodig. Dat komt zowel de kosten als de performance ten goede.Toepassing bij verschillende afdelingen
Datamarts worden vaak gebruikt door specifieke afdelingen binnen een organisatie die gespecialiseerde analyses en rapporten nodig hebben.Praktijkvoorbeeld van een Datamart
De Datamart is in staat om direct data uit bronsystemen op te halen. Als je als controller inzicht in die data wilt creëren heb je veel kennis van de databases nodig. De data komt als ruwe data binnen. Je moet die dus zelf nog transformeren naar iets bruikbaars. In het Datawarehouse zijn de stappen hiervoor al genomen.
In het voorbeeld van de controller die zicht op zijn liquiditeit wil houden, is het dus zo dat hij dat met de Datamart ook op dagelijkse basis kan doen. De dwarsdoorsnedes zijn alsnog te maken, maar de performance van een Datamart is voor grotere organisaties niet toereikend.
Data Lake
Functionaliteit van het Data Lake
Flexibel
Het kan data opslaan in verschillende formaten (bijv. JSON, XML, CSV, afbeeldingen) zonder de noodzaak van voorafgaande verwerking of structuren.Big Data Analyse
Ideaal voor het verwerken van grote hoeveelheden data voor machine learning, data-analyse en real-time analytics.Kostenefficiëntie
Data Lakes zijn vaak goedkoper dan een Datawarehouse, vooral wanneer ze worden gebruikt voor het opslaan van grote hoeveelheden ongestructureerde data.Gebruik
Data Lakes worden vaak gebruikt door data scientists en analisten voor exploratieve data-analyse (EDA), machine learning en big data projecten.Praktijkvoorbeeld van een Datalake
Los van het voorbeeld van de controller is het Datalake uitermate geschikt om grote hoeveelheden data samen te laten komen. Denk hierbij aan machinedata, webdata of bijvoorbeeld weerdata. Om die uiteindelijk te koppelen aan andere relevante gegevens, heb je een van de andere oplossingen nodig. De controller in dit voorbeeld kan dus niet direct vanuit het Datalake een rapport opbouwen van zijn liquiditeit.
Lakehouse
Functionaliteit van het Lakehouse
Unified Storage
Het slaat zowel gestructureerde als ongestructureerde data op, net als een Data Lake, maar met de mogelijkheid om data te organiseren en te optimaliseren voor analyse, vergelijkbaar met een Datawarehouse.Efficiëntie
Biedt de flexibiliteit en kostenefficiëntie van een Data Lake, terwijl het ook de robuuste analytische mogelijkheden van een Datawarehouse biedt.Real-time Analytics
Ondersteunt real-time data-analyse en Machine Learning. In combinatie met bijvoorbeeld een Datawarehouse, creëer je een toekomstgerichte oplossing die bijvoorbeeld productiebedrijven helpt data-driven beslissingen te nemen.Gebruik
Lakehouses worden steeds populairder in organisaties die zowel de flexibiliteit van Data Lakes als de analytische kracht van Datawarehouses nodig hebben. Ze zijn ideaal voor het implementeren van Data Science.Praktijkvoorbeeld van een Lakehouse
Als de controller de opdracht krijgt de liquiditeit op te halen uit het Lakehouse, is daar best veel kennis van queries voor nodig. Je moet de data eigenlijk zelf opzoeken in de data. Je hebt eigenlijk een Datamart nodig om je data zodanig te prepareren dat het dagelijks bruikbaar is.
Als je die stap overslaat, zou je een query kunnen ontwikkelen die je draait op het moment dat je de data nodig hebt. Het maken van dwarsdoorsnedes is hiermee niet eenvoudig. Je analyseert platte data en kijkt naar een momentopname. Door de tijd heen rapporteren is af te raden met een Lakehouse.
Alle oplossingen in relatie tot Microsoft Fabric
Conclusie
Verandering is een constante in onze wereld. Hoe het landschap er over een jaar uitziet is daarom nu nog niet helemaal bekend. Maar het is duidelijk welke richting er is ingeslagen. Welke oplossing je nu zou moeten kiezen, hangt af van wat je nu nodig hebt, maar ook over een paar jaar nodig denkt te hebben. Je kunt nu al voorsorteren op futureproof oplossingen.
Elk bedrijf is uniek; met alle specifieke uitdagingen die ze moeten overwinnen, middelen die ze moeten gebruiken en doelen die ze willen bereiken. Daarom is het belangrijk om de beschikbare opties zorgvuldig te evalueren om erachter te komen welke oplossing het beste bij het bedrijf past. Het wordt aanbevolen om bij het maken van een keuze rekening te houden met je budget, behoefte aan gegevensopslagvolume en frequentie van benodigde toegang.
In dit proces kan Peacock als partner optreden om je te begeleiden. Met onze expertise helpen we je om de juiste oplossing te vinden die past bij jouw behoeften en doelstellingen. We staan klaar om je te ondersteunen bij het maken van weloverwogen beslissingen en het benutten van de volledige potentie van je data.