fbpx
TELLMANN Østensjøveien 36 N-0667 Oslo
(+47) 22 700 820
Kunstig intelligens – kommunikasjon mellom menneske og maskin

Kunstig intelligens – kommunikasjon mellom menneske og maskin

Postet  av   den 18.05.2022 

Av Stig Løvstad og Bjørn Høydahl, Tellmann Executive Advisors

Vår tredje blogg under tema-paraplyen Kunstig Intelligens ser nærmere på hvordan maskiner nå i stor grad kan forholde seg til «dagligtale» i kommunikasjon med oss mennesker.

Hvis du gikk glipp av våre 2 tidligere blogger, sjekk de ut her: Kunstig Intelligens – Hva skjer AI? og Kunstig intelligens i oppdrettsnæringen.

Hva er så NLP (Natural Language Processing), eller språkbehandling på godt norsk?
I mangel av en norsk definisjon på Wikipedia, benytter vi Bouvet sin definisjon:
«Et underfelt av lingvistikk, datavitenskap og maskinlæring som har som mål å forstå, analysere, manipulere og potensielt generere menneskelig språk. Mer konkret består feltet av et sett med algoritmer eller oppskrifter som gjenkjenner mønstre, strukturer og gjør logiske operasjoner på tekst. Disse algoritmene gjør det mulig for datamaskinen å bruke dem i modeller og for eksempel lese tekst, høre tale, tolke den, måle stemningen og bestemme hvilke deler av teksten som er viktige». NLP begrepet oppsto mot slutten av 2. verdenskrig, da med håp om å utvikle maskiner som kunne oversette språk automatisk for bruk i etterretningen. Snart 70 år senere er vi kommet ganske langt på området, og Google startet sin offentlige Translate-tjeneste tilbake i 2006. Under kan vi se Gartners Hype cycle for Kunstig Intelligens for 2021. Her ser de inn i krystallkulen, og predikerer utviklingen/modenheten av forskjellige underliggende teknologier. Vi ser at NLP er over «hype-toppen», men fortsatt 5-10 år før det antas å være «mainstream». «Chatbots» er et bruksområde for NLP som vi kommer tilbake til, og ser av figuren at har en høyere modenhetsgrad, med et anslag på 2 år før teknologien er «hyllevare».

https://www.gartner.com/en/newsroom/press-releases/2021-09-07-gartner-identifies-four-trends-driving-near-term-artificial-intelligence-innovation

Ser vi dog på tabellen fra 2015 (Emerging Technologies) under finner vi «Natural Language questions answering» på ca. samme nivå i grafen, og med samme tidshorisont. Dette kan indikere at reell kommersiell adopsjon går saktere enn analytikernes anslag.

Gartner Hype Cycle for Emerging Technologies, 2015

Innenfor feltet maskinell språkforståelse er det flere undergrupper, og beslektede teknologier, herunder:

Tale til tekst – Tale tolkes, og gjøres om til tekst (data kan videre presenteres som tekst til bruker, eller benyttes videre av maskiner i andre NLP-prosesser). Et eksempel her er personlige assistenter som Google Home eller Apples Siri.

Tekst til tale – Tekst blir omgjort til tale, og maskiner kan dermed «snakke»/lese opp tekst. Eksempelvis Microsoft Azure sin «tekst til tale»-tjeneste, eller Google Cloud tekst-til-tale.

NLU – (Natural Language Understanding) – Et underområde til NLP, som knytter seg til «forståelse» av innholdet i en tekst.

Sentiment analyse – Et underpunkt til NLU, der maskinen evner å vurdere om tekst/tale er positivt eller negativt ladet. Teknologien gjør det mulig å «forstå» hvilke følelser som ligger bak budskapet (sinne, tristhet, glede, frustrasjon, etc.)

NLG – (Natural Language Generation) – En teknologi som skaper strukturert tekst ut av ustrukturert tekst. For eksempel kreere et sammendrag av et større dokument.

Forskning/akademia – hva kan vi forvente å se fremover?

Det finnes nå gode fundamentale modeller for Natural Language Processing (NLP), slik som Open AI sin GPT-3. Andrew Ng argumenterer i sin datasentriske AI-artikkel i april for at disse modellene nå er tilstrekkelig godt utviklet til å takle massevis av spesifikke forretningsutfordringer på avgrensede områder. Fokus må derfor nå endres fra modellutvikling til å implementere modellene i praksis.

Ng argumenterer godt for at vi ikke trenger Big Data (store datavolumer) for å kunne ta i bruk KI, basert på dagens NLP-modeller, men isteden må forsikre oss om at vi har gode data fra bedriften som modellene kan fôres med. Det er bedriften selv som må finne og gjøre noe med sine inkonsistente data og dataskjevheter til det grunnlaget som mates inn i KI-modellen. Her finnes det verktøy som kan identifisere de mest sannsynlige områdene i datasettene man må fokusere på.

Eksempelvis om en innringer sitter nær en motorvei der mikrofonen i telefonen stadig fanger opp lyden av forbipasserende biler vil chatboten kunne ha problemer med å forstå hva innringeren sier, dersom den ikke er trent opp på lydfiler med slikt støy. Det er da en enkel sak å hente inn eksempler på slike filer for å forbedre chatboten. Noen systemer vil i tillegg bruke opptakene på samtaler som feilet (ofte pga. bakgrunnsstøy) til å forbedre seg selv. Andre systemer kan bruke syntetiske data (der det for dette eksemplet ville lastes inn vanlige språkfiler og ulike støyfiler) som systemet så kombinerer for å forbedre KI-modellens opplæring.

Teknologisk er alle brikkene på plass, men bedriften må forstå at det er den selv som sitter med nøkkelen til å få den til å virke – gode data!

I Norge stiller vi dog med et handicap ift. språk som har milliarder av brukere. Nasjonalbiblioteket har norske språkressurser på plass i språkbanken som hjelper med talegjenkjenning, talesyntese, taleidentifikasjon og taleassistenter, men utfordringen er alle de ulike dialektene i Norge. I 2021 var det satt av ressurser til å kartlegge kun 4 nye dialekter, inkl. de nyordene disse tilfører datagrunnlaget.

Således er kontekstbasert tekstforståelse – NLU – Natural Language Understanding enklere å få til (dvs. en chatbot vi tekster med istedenfor ringer til og snakker naturlig med). Heldigvis er det ikke en “samtale” vi skal få maskinen til å føre, men gjennomføring av en konkret forretningsprosess der parameterne er kjente. Dette er noe enhver bedrift kan få til allerede nå. Norsk dependenstrebank inneholder et tekstkorpus på 600.000 ord på bokmål og nynorsk som man kan legge bedriftens egen forretningsspesifikke terminologi oppå.

Eksempler på kommersielle løsninger/konsepter

Chatbot

Chatbot-er har vi etter hvert blitt vant til å kommunisere med som 1. linje support på mange nettsider. Ikke alle oppleves like intelligente, og tidlig utviklede versjoner har sannsynligvis ingen form for KI, men er derimot programmert med koblinger mellom eksakte spørsmålsfraser og forhåndsdefinerte svar. Senere års løsninger har i større grad innebygget KI-læringsmodeller, som «lærer og forstår» kommunikasjonen bedre over tid. De beste chatbot-ene har dog fortsatt multiple-choice-knapper for å lede samtalen inn på riktig tema, og unngå for mye «jeg forstår ikke hva du mener» …

Boost.ai, et norsk KI-selskap fra Stavanger, har i mange år levert en løsning myntet på robotisering gjennom NLP og NLU gjennom såkalte virtuelle agenter. En chatbot er en slik virtuell agent. Disse har i dag løsninger innen bank, finans, forsikring, netthandel og telekom. I et av deres case-studier har de oppnådd en avlastningsgrad på kundesenteret på hel 42% som følge av chatboten.

Conversational BI (snakke med BI-løsningen)

Det estiske selskapet Hala.ai har spesialisert seg på løsninger der brukeren kan kommunisere med sin rapporteringsløsning gjennom vanlig tale (NLP/NLU). Tjenesten deres er tett koblet til IBM Watson Assistant, og muliggjør en rekke funksjoner som for eksempel: Stille spørsmål om spesifikke data/tall, be om å få utarbeidet rapporter eller grafer presentert i forskjellige formater, be om analyse av spesifikke datagrunnlag for forståelse av bakenforliggende metadata – gjenkjenning av mønstre – utheve avvik fra norm, etc. Selv om de fremhever koblingen mot BI-systemer, tilbyr Hala.ai kobling mot et hvert forretningssystem med tilgang til moderne API-er.

Taleassistenter

Etter hvert er vi blitt vant til å kommunisere med våre «digitale hjelpere» som Siri, Google Home, Cortana eller Alexa. Dette er alle tjenester som benytter Conversational AI/NLP/NLU. Disse tjenestene lærer/blir bedre primært gjennom at vi som brukere tillater at våre data benyttes til videre trening av algoritmene. Amazon Alexa for Business er eksempelvis en tjeneste som kan kobles mot en rekke forretningsapplikasjoner, og fungerer stort sett på samme måte som den «private assistenten».

NLP og NLG i det offentlige

I Regjeringens KI-strategi (side 18) kan en lese at Regjeringen allerede benytter NLP for å gjennomgå og kategorisere store mengder data, samt NLG for å lage oppsummeringer/sammendrag av større datasett. Det er et stort potensial for denne type teknologianvendelse i alle industrier og virksomheter, og en rekke generiske og spesialiserte løsninger er allerede på markedet.

Eksempler på mulige anvendelser i forskjellige industrier

Håndverkere

For noen år tilbake hadde Tellmann et oppdrag for en større Elektrikerkjede. Der kom det klart frem et behov for mer intelligente løsninger for montører som opererer mobilt, i skiftende miljøer. Montøren kunne hatt stor nytte av å kommunisere muntlig med selskapets IT-løsninger for: bestilling av nødvendig utstyr, registrering av timer med kommentarer, påkrevet dokumentasjon av oppdrag, osv. Dette ville da kunne gjøres uten skjemapunching på mobilen, samtidig som montøren arbeider hos kunden, eller sitter i bilen mellom oppdrag. Flere programvarehus jobber nå med slike løsninger, og vi vil se dem operative i løpet av kort tid.

Advokatselskaper

Definisjonen Legal Tech har eksistert lenge, og brukes nå primært i KI-sammenhenger. Internasjonalt finnes det en rekke store løsninger som er spesialisert mot advokatnæringen, og særlig når det kommer til NLP/NLG. Analysering av et stort antall saker for å finne relevans/presedens tar tid hvis det skal gjøres manuelt, men arbeidet kan snevres betraktelig inn ved å benytte spesialiserte NLP/NLG systemer. Et eksempel på dette er det franske oppstartselskapet Doctrine som på kort tid har fått bredt fotfeste for sin løsning. Det finnes etter hvert også flere norske løsninger på markedet, men de fleste er fortsatt å regne som oppstartselskaper. Ta gjerne en titt på denne artikkelen som beskriver «Advokatroboten IDA» (IDA er forkortelse for «intelligent document assembly») som er utviklet og leveres av det norske selskapet LIGL (etablert i 2014).

Vi vil senere komme med en bransjeblogg som går dypere inn i Legal Tech, og se på hvordan advokatnæringen står overfor et paradigmeskifte der den tradisjonelle forretningsmodellen vil utfordres kraftig som følge av KI.

Hva kan/vil fremtiden bringe?

NLP og alle dets underklasser er i en eksponentiell utvikling, og vi kommer til å se mange nye spennende løsninger de kommende årene.

NLP vil gjøre det mulig å utnytte annen teknologi på helt nye måter, ved å fange, analysere og agere på input fra tale, som videre trigger andre autonome prosesser.

«Tankelesende» systemer

Hvis vi ser noen år lengre inn i fremtiden vil vi se at NLP-løsninger ikke lenger bare kan få input fra  tale eller tekst, men også fra menneskers tankevirksomhet. Vi tenker da på løsninger som kobler seg direkte på hjernen BCI (brain–computer interface) eller BMI (brain-machine interface). Dette er IT-løsninger som fôres med hjernesignaler, analyserer dem, og oversetter til kommandoer som en datamaskin kan forstå (på samme måte som dagens NLP løsninger analyserer tale). Dette kan for mange virke «Sci-Fi», men det er flere store selskaper som jobber med akkurat slike løsninger.

Et av de mest kjente er Elon Musk sitt Neuralink, som i en tid har testet teknologien på dyr, og i løpet av året vil starte testing på mennesker. Elon Musk har i mange år vært skeptisk til at AI-maskinene kan bli “self aware” og “go rouge”. Som en slags løsning på dette dannet han Neuralink under slagordet “If you can’t beat AI, join it”. Utdrag fra selskapets blogg:

«Neuralink is developing a fully-implanted, wireless, high-channel count, brain-machine interface (BMI) with the goal of enabling people with paralysis to directly use their neural activity to operate computers and mobile devices with speed and ease».


Vil du forstå mer av teknologien kan du her lese en vitenskapelig artikkel fra 2019 som tar for seg Kombinasjon av NLP og BCI.

Tror du vi ender opp som slaver av Elon Musks multi-teknologi-nettverk, der din Neuralink-hjerne via Starlink satellittene koples direkte til “edge computing”-enheter, styrer din Tesla, lar deg “phone home” med Model-pi fra din lugar på Starship på vei til Mars, eller er det andre mer trolige veier for NLP og tilstøtende teknologier? Legg igjen en kommentar i bloggen på hva du tenker.

Gi en tilbakemelding