- Hva kommer vi til å selge for i fjerde kvartal?
- Hvor lang tid bør vi sette av til et prosjekt?
- Hvilke av våre kunder kommer til å forlate oss?
Alle disse spørsmålene er svært vanskelig å besvare, men kan gi svært viktig innsikt til virksomheter.
Fremtidig utvikling påvirkes av så mange faktorer at det nærmest er umulig for mennesker å holde styr på det. Derfor har mange brukt en salig blanding av krystallkuler og magefølelse for å finne svar på hvordan fremtiden vil se ut – ofte uten særlig til hell.
Heldigvis finnes det en rekke metoder og teknologier som kan erstatte krystallkulen og magefølelsen med datadrevne beslutninger; nemlig Predictive Analytics (prediktiv analyse).
Prediktiv analyse er en prosess hvor man utnytter (ofte komplekse) mønstre i historiske data til å forutsi fremtiden ved hjelp av avanserte metoder, også kjent som maskinlæring. Den store fordelen med maskinlæring er at, der hvor vi mennesker normalt blir overveldet av mengden data vi må analysere, blir maskinlæringsmodeller bare enda smartere. Selv om dette høres ut som magi, kan man ikke bare samle masse data, trekke i et magisk håndtak og få prediksjoner om fremtiden. Det krever en del hensyn for å kunne utnytte maskinlæringsmodellene sitt full potensiale.
Nedenfor gjennomgår vi de viktigste hensynene man må ta når man skal i gang med prediktiv analyse.
Sett riktig mål for prosjektet
Det første man må gjøre når man setter i gang et prosjekt med prediktiv analyse er å være konkret rundt hva det er man ønsker å prediktere.
Selv om det nesten kan høres trivielt ut, er dårlige målsettinger ofte det som forhindrer at modellen å blir forankret godt nok i forretningen. En av grunnene til at dette er så vanskelig, er at vi mennesker er veldig gode til å tolke og forstå nyanser, men det er ikke en maskin. Hvis en CFO spør hvilke viktige kunder som vil falle fra på kort sikt, har vi en umiddelbar forståelse av hva hun eller han mener. En algoritme vil da være på bar bakke, for hva er en “viktig kunde”? Og hvor lang tid er “kort tid”?
En mer “maskinvennelig” formulering vil være “hvilke kunder med en gjennomsnittlig månedlig omsetning på mer enn 100.000 kroner vil forlate oss innen tre måneder?”. På den måten har man definert både hvem man er interessert i (kunder med omsetning over 100.000 i måneden) og hva man ønsker å forutse (hvorvidt de forlater virksomheten innen tre måneder).
Vil du lære mer om hvordan du kan fremstille data på en god måte til hele virksomheten? Vi holder jevnlig kurs om blant annet datavisualisering.
Gode hypoteser
Når man først har definert et tydelig mål med prosjektet er det tid for å vurdere hypoteser; med andre ord må man finne ut hva som potensielt kan bidra til å predikere målet.
For eksempel dersom du ønsker å forutsi neste måneds omsetning, kan en mulig hypotese være at nåværende måneds omsetning, størrelsen på ordrene eller tiden på året vil påvirke neste måneds omsetning. Igjen er det viktig å uttrykke disse hypotesene i features, som en Data Scientists ville kalt dem. Slik at maskinlæringsmodellen kan forstå at “nåværende ordre i NOK” er en god feature og at “den generelle stemningen i salgsavdelingen” ikke er en god feature.
For å finne de beste hypotesene og features er det også viktig å involvere domeneeksperter fra selskapet. Det er de som har de beste ideene til hva som påvirker hva, og de har derfor viktige innspill som kan brukes i modellen. Dessuten øker man tilliten til modellen ved å involvere store deler av virksomheten, noe som igjen fører til bedre forankring og verdiskapning.
Les mer: Hva er Blockchain?
Velg riktig data
Etter å ha konkretisert hypotesene og hvordan de skal defineres og uttrykkes med data, er man klar for å samle inn dataene. Det har vært mye snakk om at data er den nye oljen, og likt som med oljen, så kan data først brukes når man trekker ut og behandler det.
Her er det viktig å involvere organisasjonens datakontrollere, slik at du kan få en oversikt over hvilke data som kan brukes til å teste ut hypotesene og hvordan du får tak i disse dataene.
I noen tilfeller kan man oppleve at de dataene som trengs for å teste hypotesene ikke er direkte tilgjengelige. Da finnes det to forskjellige løsninger man kan bruke: eksterne data eller omtrentlige data.
Eksterne data kan kan lastes ned direkte fra allment tilgjengelige databaser. Det er da viktig å vurdere hvordan og hvor viktige de eksterne dataene er for å kunne forutsi for eksempel kundefrafall.
Omtrentlige data er når data ikke tester hypotesen direkte, men ligger nært opptil sannheten. For eksempel kan det være hvis du bruker antall tweets med ordet “Pepsi” for å vurdere omtalen av Pepsi. Selv om man potensielt går glipp av mange dimensjoner med omtrentlige data, kan det ofte være verdifullt for analysen.
Les mer: Årets Business Intelligence trender 2021
En god modell
Nå som hele forberedelsen er på plass er det på tide å lage modellen. Dette inkluderer mange spennende tekniske hensyn hvor de fleste hensynene kan ivaretas av en Data Scientist. Det er imidlertid et viktig spørsmål man må involvere forretningsinteressentene i; nemlig hvordan forholdet mellom presisjon og transparens skal være?
Man kan grovt sett dele maskinlæringsmodeller opp i to: komplekse black box-modeller, som leverer ganske nøyaktige prediksjoner, som er nesten umulig å forstå og krever store mengder med data. På den andre siden står enklere, mer åpne modeller som enkelt kan tolkes og ikke tar for seg like store mengder med data, men som ikke alltid er like nøyaktige.
Selv om det kan være fristende å gå “all in” på “deep neural networks” og andre hyped-modeller, opplever mange at det faktisk er like så viktig hvorfor modellen predikerer noe, som hva den faktisk predikterer. Spesielt i finans- og helsevesenet kan Black Box-modeller totalt undergrave tilliten til prediksjonene, og derfor brukes den gode gamle metoden “magefølelsen” i stedet.
God forankring i virksomheten
Selv etter at den endelige modellen er definert og de første resultatene er kommet inn, kan man fortsatt mangle noe av det viktigste med denne strategien, nemlig hvordan man forankrer modellen riktig i virksomheten.
Mye av det grunnleggende arbeidet for et godt fundament har allerede blitt gjennomgått ovenfor; spesielt involvering av interessenter i hypotesearbeidet og transparente modeller. Det finnes imidlertid to nøkkelelementer som kan bidra til å forankre denne strategien.
Les mer: Hva er Data Literacy?
Den første elementet er måling av performance (ytelse) i testfasen. Performance målinger kan kaste lys på hvor nøyaktig modellen er i sine prediksjoner, når den treffer riktig og når den bommer. På den måten kan sluttbrukere får mer realistiske forventninger til modellen og vet når man skal være ekstra oppmerksomme.
Det andre elementet er kontinuerlig effektmåling. Etter at modellen er satt i drift er det viktig å “benchmarke” resultatene mot arbeidsflyten som virksomheten hadde før modellen. Her kan du med fordel velge ut klare KPIer, slik som frafallsrate, slik at man har noe håndfast å sammenligne med. Dette viser fordelene modellen gir til virksomheten, noe som igjen gjør at de ansatte er villige til å bruke den.
Oppsummering
Ved å gjennomføre de gjennomgått punktene er du allerede godt på vei med prediktiv analyse i din virksomhet. Selv om det kan virke vanskelig å uhåndterlig til tider, er det viktig å huske at AI er en iterativ prosess. For hvert trinn på veien lærer du noe nytt som kan brukes til å gjøre hypotesene enda tydeligere, modellen bedre og virksomheten smartere i fremtiden!
Analyseselskapet BARC har lansert årets studie, BI Trend Monitor 2021. Dette er verdens største undersøkelse av BI-trender, og fokuserer på hoveddriverne innen BI og data management.