Uansett hvor mye data du har i din data lake, vil det være til liten nytte hvis du mangler gode arkitektoniske funksjoner for å styre dataene på en effektiv måte, følge med på dem og holde dem sikre.
Vi tar en kikk på hva data lake arkitektur er før vi tar for oss fire beste praksiser for en slik arkitektur.
Hva er data lake arkitektur?
En data lake er et lager med informasjon i sitt råformat, som betyr at dataen er i det formatet det eksisterte i da det ble samlet inn og lagt til lagringsområdet. Dataene i en data lake kan ha forskjellige former, og det er ikke ordnet på noen spesiell måte. En av fordelene med data lake er at man ikke trenger å ha en klart definert datamodell på forhånd. Data legges inn i data lake’en , så kobler man seg opp og begynner å analysere, rapportere eller gjør det man har som formål. Slik er dataene tilgjengelig for alle i bedriften, gitt at man har rettigheter.
Vil du lese mer om hva en data lake faktisk er? Sjekk ut vår artikkel om data lake her.
Arkitekturen til en data lake refererer til funksjonene som er inkludert for å gjøre det lettere å jobbe med dataene. Selv om data lakes er ustrukturerte, er det fortsatt viktig å sikre at de tilbyr funksjonaliteten og designfunksjonene organisasjonen din trenger for å enkelt kunne samhandle med dataene de huser.
4 beste praksiser for data lake arkitektur
Å bygge de riktige funksjonene i data lake arkitekturen din fra starten er avgjørende for å sikre at du kan jobbe med dataene på de måtene dere har behov for.
1. Etablere styring
Datastyring handler om prosesser, standarder og beregninger som organisasjoner bruker for å sikre at data kan oppfylle sitt tiltenkte formål. Datastyring hjelper også til å muliggjøre effektiv datakvalitet og datasikkerhet. Uten effektiv datastyring mangler du en systematisk og forutsigbar tilnærming til håndtering av data.
Å ha datastyring som en del av data lake arkitekturen krever etablering av riktige prosesser, standarder og beregninger fra starten av. For eksempel for å standardisere filstørrelser, er det vanligvis lurt å sette en filstørrelsesgrense for data i data laken. Filer som er for store kan gjøre dataene dine vanskelige å jobbe med.
På samme måte bør datateamet ditt lage en prosess for å identifisere problemer med datakvalitet i data laken. Ideelt sett vil denne prosessen automatiseres så mye som mulig ved å skanne data laken for tegn på problemer med datakvaliteten, for eksempel ufullstendige eller uleselige data.
2. Lag en datakatalog
En datakatalog er en kilde til informasjon om dataene som finnes i din data lake. Hensikten er å gjøre det enkelt for interessenter i og utenfor din organisasjon å forstå sammenhengen med dataene slik at de raskt kan jobbe med dem.
Hvilken type informasjon som inngår i en datakatalog kan variere, men de inkluderer vanligvis elementer som:
- Hvilke kontakter som er nødvendig for å jobbe med dataene
- Metadata om hvor dataene stammer fra og hvor lenge det har blitt lagret
- En beskrivelse av hvilke applikasjoner som bruker dataene
Hvis du tar med en datakatalog i data lake arkitekturen din fra starten av, er det enkelt å utvide katalogen og holde den oppdatert etter hvert som data laken utvides. For å gjøre dette må du først bestemme hvilken type informasjon du vil ta med i datakatalogen din, basert på deres behov. Deretter distribuerer du verktøy som automatisk legger til oppføringer i datakatalogen ved å skanne hvert nye dataelement når det legges til laken.
3. Aktiver søk
Mens datakataloger gir et verktøy for å hjelpe interessenter med å finne dataene de trenger i en data lake og bestemme hvordan de skal jobbe med det, er det også avgjørende å kunne gjøre søk i data laken. En effektiv søkefunksjonalitet for data laken bør gi muligheten til å finne dataressurser basert på funksjoner som størrelse, opprinnelsesdato og innhold.
Fordi data lakes vanligvis er veldig store, er det ofte ikke mulig å forsøke å analysere hele data laken for hvert søk. Bygg i stedet en indeks over dataelementer for å gjøre det enklere å søke, og bygg på indeksen med jevne mellomrom for å holde den oppdatert.
4. Sørg for god sikkerhet
Datasikkerhet er ikke alltid nødvendig for å jobbe med data inne i en data lake, men det er avgjørende for å overholde kravene til personvern og sikre at sensitiv informasjon forblir privat.
To gode fremgangsmåter for å inkludere datasikkerhet i data lake arkitekturen er:
- Sørge for stenge tilgangskontroller som hindrer uautoriserte parter i å få tilgang til eller endre data laken. Tilgangskontroller kan implementeres på lokale servere hvis dataene dine lagres lokalt, eller via en skyleverandørens IAM-rammeverk for skybaserte data laker.
- Kryptering kan også bygges inn i en data lake arkitektur for å forhindre uautorisert tilgang til data. Husk imidlertid at kryptering ikke er en magisk kule. Selv om data er kryptert mens de er lagret, blir de ofte dekryptert og ikke lenger beskyttet når de brukes av applikasjoner.
To eksempler på vellykkede data lake arkitekturer innen helse og teknologi
Data lake arkitektur for biofarmaka
AstraZeneca er et biofarmasøytisk selskap som har som mål å innovere, utvikle og produsere innovative medisiner for et globalt medisinsk samfunn. Ved hjelp av en skybasert data lake kan AstraZeneca lagre og administrere 20 000 terabyte data. Selskapet er i stand til å støtte flere interne grupper ved hjelp av en enkelt data lake. Det fordi de utviklet en mangesidig strategi for arkitektur og styring av data laken.
Data lake arkitektur for teknologibransjen
Johnson Controls produserer høyteknologiske bygningsstyrings- og klimakontrolløsninger for kunder over hele verden. Selskapet er avhengig av data for å oppnå et enhetlig syn på sine kunder. Ved hjelp av en skybasert data lake arkitektur flytter selskapet mer og mer av datadriften til skyen for å gjøre data tilgjengelig på en sikker måte for alle enheter i organisasjonen.
Guide: Få mest mulig ut av dine data med en skybasert dataplattform
Lær hvordan du kan forene data, dataprosessering, innsikt og brukere med én enkelt dataplattform for å oppnå dyp innsikt.