Hensikten er at den som skal bruke dataene ikke trenger å forholde seg til mange ulike datakilder, ulike plasseringer av data, ulike sikkerhetsmekanismer i hvert enkelt system og ulike datafangstteknologier. En av fordelene med Data Lake er at man ikke trenger å ha en klart definert datamodell på forhånd. Data legges inn i Data Lake’en , så kopler man seg opp og begynner å analysere, rapportere eller gjør det man har som formål. Slik er dataene tilgjengelig for alle i bedriften, gitt at man har rettigheter.
Det finnes et godt utvalg av databasetyper og filsystemer som er velegnet til å lage en Data Lake. Eksempeler er Vertica, Google BigQuery og Snowflake på databasesiden og Amazon S3, Google Cloud Storage og Azure Data Lake på skysiden. Noen av disse kan man bare kjøre som en skytjeneste, mens andre kan brukes i ens eget datarom/senter eller i en kombinasjon.
Passer din database for Data Lake?
De egenskapene som gjerne skiller databaser som egner seg til å betjene en Data Lake fra de klassiske relasjonsdatabasene er:
- Et utvalg av ‘lagringsklasser’ der man kan skille på viktige og mindre viktige data slik at databasen kan velge billige lagringsformer for de minst viktige tingene, eller for eksempel at data som krever rask tilgang selv om de leses sjelden automatisk blir lagret på de hurtigste mediene
- Ingen problemer med klassisk database-låser og samtidighet. Man kan skrive store volum til databasen selv om man samtidig leser eller omorganiserer ting
- Elastisitet i oppsettet, slik at kraften flyttes dit den trengs og skalering opp/ned går automatisk
- Like god støtte for bilder, lyd, klassiske forretningsdata og tidsserier
Guide: Få mest mulig ut av dine data med en skybasert dataplattform
Data Lake vs. datavarehus
Om man sammenlikner datavarehus med Data Lake er det både likheter (datafangst til et sentralt lager for all informasjon) og forskjeller. I datavarehuset samler man data som har et tydelig bruksområde, mens med Data Lake laster man opp rådata, både strukturerte og ustrukturerte data.
La oss se litt mer på forskjellene:
- Når man lager en Data Lake tar man ikke stilling til hvordan den senere skal brukes. Dermed er fokuset på å få tak i mest mulig av informasjon som potensielt kan komme til nytte senere.
- Når man ikke kjenner bruksmønsteret som kommer i fremtiden er det heller ingen poeng å forsøke å modellere dataene mot et bestemt formål – data lagres som de er.
- Noen tar allikevel en pragmatisk tilnærming her, og gjør basis dataprepp (uniformerer datoformater, pakker ut bitmap/statusflagg, kopler kjente kilder…) fordi det forenkler bruken for alle typer tilgang senere.
- Fordi man ikke gjør klassisk datavask og datamodelltransformasjon eller aggregering og lignende, vil innlasting av data gå mye fortere.
- Der datavarehusene oftest blir ajourført i batch (hver time, hver dag…) blir Data Lake’ene oftest løpende oppdatert – altså sanntid og hendelsesbasert.
En konsekvens av dette er at kompetansekravet for å få forretningsmessig riktige analyser og rapporter ut av en Data Lake er mye høyere enn fra et datavarehus. Hele forståelsen av datastrukturer, sammenkoplingsregler, semantikk, feil og avvik må hensyntas av den som analyserer, hver gang nye analyser skal på plass. Her er vi ved akilleshælen til praktisk bruk av Data Lakes.
I praksis bygger man gjerne et avledet datavarehus eller flere emneorienterte Data Marts med Data Lake’n som kilde slik at man kan forenkle bruken av data for de som skal analysere.
Man kan si at en Data Lake passer for en dyktig analytiker som trenger alle detaljer og som kjenner reglene for bruk av dataene, mens et datavarehus i større grad kan støtte alle typer forretningsbrukere.
Guide: Få mest mulig ut av dine data med en skybasert dataplattform
Lær hvordan du kan forene data, dataprosessering, innsikt og brukere med èn enkelt dataplattform for å oppnå dyp innsikt.