Begrepet NLP står for Natural Language Processing og tar for seg metoder for analyse av tekst. Eksempler på tekster som kan være nyttig å analysere er eposter, kundeanmeldelser, kontrakter, eller transcripts fra videoer eller radiointervjuer.
Også vi mennesker gjør en tolkning og analyse av tekstens innhold når vi leser. Vi ser etter setningsstrukturen for å finne ut hvem som omtales, hva saken gjelder, hva som er argument eller konsekvens, om det omtales personer, steder eller kjente hendelser.
NLP blir nyttig når dette skal automatiseres fordi tekstmengden som skal analyseres blir for stor for oss, eller der man trenger nitidig repeterbar nøyaktighet. Mengden tekst, antall henvendelser til kundesentre, antall websider med nyheter eller diskusjoner har økt betydelig og derfor trenger flere virksomheter løsninger for å behandle denne typen informasjon på en effektiv måte.
Den klassiske oppfattelsen av data er tabeller med rekker og kolonner, som mange kjenner fra Excel og databaser. Dette er strukturerte data, i den forstand at det er forhåndsbestemt at “beløp-kolonnen” er et desimaltall og skal inneholde beløp i norske kroner tilsvarende saldo på konto for eksempel. Strukturerte data er klare til analyse og visualisering, selv om det også kan være tvetydigheter og dårlig datakvalitet i dette underlaget.
Eksempler på strukturerte data er:
- Salgstraksjoner
- Lagerbeholdning
- Kundedata
- Spørreskjemaer
Et hav av data
Informasjonstilgjengeligheten og datavolumet som er relevant for hver enkelt organisasjon har vokst mye og denne utviklingen forventes å fortsette. I følge IDC vil det i 2025 genereres 163 zettabyte data årlig (1 zettabyte tilsvarer 1 billion gigabytes) på verdensbasis. Den største delen av denne veksten skjer i form av ustrukturerte data.
Eksempler på ustrukturerte data er:
- Eposter
- Bilder
- Video
- Facebook-samtaler
- Lydfiler
Tekst er også data!
All tekst, enten den er skrevet som tekst eller tolket frem fra videoer eller lydfiler, vil ha en viss form for struktur. Websider vil ha formelle felt på hva som er tittel, hva som er teksten, undertekster på bilder beskriver oftest bildet, og så videre. Også uformelle innlegg på sosiale medier må være formulert såpass at leserne får med seg meningsinnholdet og hva innlegget refererer til.
Det er derfor Natural Language Processing (NLP) gjennom ulike teknikker kan analysere teksten, identifisere strukturen og levere fra seg de strukturelementer den finner på en måte som er enklere å benytte i videre analyser.
Her er et eksempel fra en nettside:
Teknikker og prosess som benyttes i NLP er blant annet:
- Forhåndsprosessering som “normaliserer” teksten. Her fjernes unødig tegnsetting, spesialtegn og markup (f.eks. html). Sammensatte ord kan deles opp, ord med lav meningskvalitet fjernes, og så videre.
- Grammatikalsk dekomponering – identifisering av setningsstruktur, subjekt, objekt, verb, tid/form, entall og flertallsformer.
- Alternativet til grammatikk er AI, der språktrening skjer på massive volum av læringsdokumenter.
- Entitetsekstraksjon, altså at man leter etter kjente språkkonstruksjoner eller objekter slik som personer, steder, datoer eller epostadresser.
- Aksjonsanalyse der man leter etter hva som blir sagt og hva som blir gjort – altså alt rundt verb.
- Scopeanalyse, altså analyse av tekstens oppdeling, slik at man kan knytte personer eller steder man finner til handlinger, utsagn eller meninger man finner. En setning er ett scope, et avsnitt er et annet og mindre strengt scope, og dokumentet med alle sine setninger og avsnitt er et enda videre scope. Ideen er at ting som opptrer i samme setning har større assosiasjon enn ting som bare omtales i samme dokument.
- Sentimentanalyse, som leter etter stemninger i teksten. Er man sint? Eller glad, positiv eller farlig? I tillegg til å bestemme “stemningen” i en tekst (eller deltekst/scope) sikter denne teknikken på å rangere langs en skala. Hvor glad? Hvor farlig?
- Dis-ambiguering, eller entydighetsanalyse. Hvis en tekst sier “Jeg elsker Paris, og særlig Hilton” må dette knyttes til byen og hotellet, ikke til unge Paris Hilton.
Det vanskelige med grammatikk er at det er helt språkavhengig, og det er derfor NLP-løsninger kan fungere godt på for eksempel en engelsk tekst, men være helt håpløs på en tysk eller fransk tekst. Bare tenk på all kompleksiteten i det norske språket, med dialekter, rare begrep vi bruker i dagligtale, slang og ironi. Vi kan kanskje finne på å si at “Dette liker jeg kjempelite”.
Et alternativ til grammatikk er som nevnt AI. Google benytter dette bredt i sin oversettelsesteknologi, Google Translate. Fordelen er at man kan støtte mange språk, men ulempen er nokså slarkete treffsikkerhet.
Vil du lære mer om hvordan du kan benytte maskinlæring i dine business intelligence og analytics prosjekter?
Hvordan skaper man verdi ut fra ustrukturerte data ved hjelp av NLP?
Verdien er allerede synlig på mange områder i mange typer anvendelse. Her er noen eksempler:
- Innkomne eposter til kundesentre analyseres for å klassifisere de sinteste, viktigste og dyreste sakene, og å kategorisere dem slik at de kan videresendes til rett avdeling, eller enda bedre – automatbehandles, -godkjennes eller -besvares.
- Chatboter kan være uhyre frustrerende dersom de er “for dumme” og ikke forstår ulike måter å formulere samme ting på. Om man legger inn NLP i tillegg kan kvaliteten løftes voldsomt og nytteverdien bli god.
- Markedsovervåkning eller markedsanalyse benytter NLP for å kartlegge hvordan en merkevare, et produkt eller et område omtales, både med tanke på stemning, men også hvem som deltar i omtalene, når og hvor omtalen skjer. Dermed er det lettere å legge en god strategi ved lanseringer eller andre branding-aktiviteter.
- Overvåkningsmyndigheter kan lytte på hundretusenvis av samtaler, både lyd og på nettet, uten å ha ansatte tilstede annet enn å ta tak i de samtalene som er verdt nærmere inspeksjon fordi de omtaler personer, steder eller hendelser på måter som treffer et mønster man er interessert i.
- Man kan tilby tilgang til dokumenter og innsikt ved skrive eller si hva man er ute etter, som alternativ til å måtte navigere, filtrere og sortere med tastatur og mus. Dette er veldig nyttig innen Business Intelligence. Se eksempel under.