ETL står for «extract, transform, load». ETL-prosessen spiller en nøkkelrolle i strategier for dataintegrasjoner. Begrepet og verktøyet oppsto som et behov i forbindelse med implementasjon og vedlikehold av datavarehusløsninger.
ETL gjør det mulig for virksomheter å samle inn data fra flere kilder og konsolidere dem til et enkelt, sentralisert sted. ETL gjør det også mulig for forskjellige typer data å jobbe sammen. En typisk ETL-prosess samler og forbedrer forskjellige typer data, og leverer deretter dataene til et datalager slik som Azure eller BigQuery.
ETL gjør det også mulig å migrere data mellom en rekke kilder, destinasjoner og analyseverktøy. Som et resultat spiller ETL-prosessen en viktig rolle i å produsere forretningsinformasjon og utføre bredere datastyringsstrategier.
Slik fungerer ETL
ETL-prosessen inneholder tre steg. Dette er datautvinning, datatransformasjon og datainnlasting (extract, transform and load).
Steg 1: Utvinning
Svært få virksomheter velger å stole på èn enkelt datatype eller et enkelt system. De fleste administrerer data fra en rekke kilder og bruker en rekke dataanalyseverktøy i sin prosess for business intelligence. For å lage en kompleks datastrategi som dette, må dataene kunne flyte fritt mellom systemer og apper.
Før data kan flyttes til en ny destinasjon, må de først hentes ut fra kilden. I det første steget i ETL-prosessen blir strukturerte og ustrukturerte data importert og konsolidert i et enkelt lager. Rådata kan hentes fra et bredt spekter av kilder, inkludert:
- Eksisterende databaser og eldre systemer
- Sky-, hybrid- og lokale miljøer
- Salgs- og markedsføringsapplikasjoner
- Mobile enheter og apper
- CRM-systemer
- Datalagringsplattformer
- Datalager
- Analytics-verktøy
Selv om dette er noe som kan gjøres manuelt, kan håndkodet datautvinning være både tidskrevende og det fører med seg en risiko for feil. ETL-verktøy automatiserer utvinningsprosessen og skaper en mer effektiv og pålitelig arbeidsflyt.
Steg 2: Transformasjon
I løpet av denne fasen av ETL-prosessen tillegger man dataene en sett med regler som brukes for å sikre datakvalitet og tilgjengelighet. Du kan også legge til regler som gjør det enklere for virksomheten å oppfylle rapporteringskravene. Prosessen for datatransformasjon består av flere delprosesser:
- Rensing – uriktige data og manglende verdier i dataene løses
- Standardisering – formateringsregelen legges til på datasettet
- Deduplisering – overflødige data ekskluderes eller fjernes
- Verifisering – ubrukelige data blir fjernet og avvik flagges
- Sortering – data er organisert etter type
- Andre oppgaver – eventuelle tilleggs / valgfrie regler kan brukes for å forbedre datakvaliteten
Transformasjon anses å være den viktigste delen av ETL-prosessen. Datatransformasjon forbedrer dataintegriteten og bidrar til å sikre at data ankommer sin nye destinasjon fullt kompatibel og klar til bruk.
Hva bør man tenke på når man implementerer et datavarehus i skyen?
Last ned rapporten som identifiserer nøkkelspørsmål som man trenger å stille seg før en implementering.
Steg 3: Innlastning
Det siste trinnet i ETL-prosessen er å laste inn de nylig transformerte dataene til et nytt mål. Data kan lastes inn samtidig (full innlastning) eller med planlagte intervaller (trinnvis innlastning).
Full lasting – I et ETL-fulllastningsscenario går alt som kommer fra transformasjonen inn i nye, unike poster i datalageret. Selv om det kan være ganger der dette er nyttig for forskningsformål, produserer denne teknikken datasett som vokser eksponentielt og det kan derfor raskt bli vanskelig å vedlikeholde.
Inkrementell innlastning – En mindre omfattende, men mer håndterbar tilnærming, er inkrementell lastning. Inkrementell lastning sammenligner innkommende data med det som allerede er tilgjengelig, og produserer bare ekstra poster hvis det blir funnet ny og unik informasjon. Denne arkitekturen gjør det mulig for mindre, rimeligere datalagre å opprettholde og administrere forretningsinformasjon.
ETL og business intelligence
Strategier for data er mer komplekse enn de noen gang har vært, og selskaper har tilgang til mer data fra flere kilder enn noen gang før. ETL gjør det mulig å transformere store mengder data til handlekraftig forretningsinformasjon.
Et eksempel er mengden data som er tilgjengelig for et produksjonsselskap. I tillegg til data som genereres av sensorer i anlegget og maskinene på en samlebånd, samler også selskapet inn markedsførings-, salgs-, logistikk- og økonomiske data. Alle disse dataene må hentes ut, transformeres og lastes inn i en ny destinasjon for analyse. I dette scenariet hjelper ETL med å skape verdifull forretningsinformasjon ved å:
Skape et enkelt point-of-view: Administrering av flere datasett krever tid og koordinering, og kan resultere i ineffektivitet og forsinkelser. ETL kombinerer databaser og forskjellige former for data i en enkelt enhetlig fremvisning. Dette gjør det enklere å analysere, visualisere og skape en mening om store datasett.
Gi historisk sammenheng: ETL gjør det mulig for virksomheter å kombinere eldre data med data samlet inn fra nye plattformer og applikasjoner. Dette gir en langsiktig fremvisning av data, slik at eldre datasett kan sees sammen med nyere informasjon.
Forbedrer effektivitet og produktivitet: ETL-software automatiserer prosessen med håndkodet datamigrering. Som et resultat kan utviklere og deres team bruke mer tid på innovasjon og mindre tid på å håndtere den møysommelige oppgaven med å skrive kode for å flytte og formatere data
Bygg din ETL-strategi
ETL kan oppnås på to måter. I noen tilfeller kan virksomheter gi sine utviklere i oppgave å bygge sin egen ETL. Denne prosessen kan imidlertid være tidskrevende, utsatt for forsinkelser og blir ofte svært kostbar.
De fleste selskaper er i dag avhengige av et ETL-verktøy som en del av prosessen med dataintegrering. ETL-verktøy er kjent for hastighet, pålitelighet og kostnadseffektivitet, samt kompatibilitet med bredere datastyringsstrategier. ETL-verktøy inkluderer også et bredt spekter av funksjoner for datakvalitet og datastyring.
Når du vurderer et ETL-verktøy, bør du ta en vurdering av antall og hvilke forskjellige kontakter du trenger, samt dets brukervennlighet. Du må også avgjøre om et åpent kildekodeverktøy er riktig for virksomheten din, siden disse vanligvis gir mer fleksibilitet.