Hvordan generativ kunstig intelligens, og ChatGPT spesielt, har tatt verden med storm
Del 1 – hva er det?
Vi har i en rekke blogger i 2022 belyst tingenes tilstand på AI-fronten. Det har skjedd mye innen kunstig intelligens det siste året. Herunder at omsetningen i industrien er forventet å overgå 400Mrd NOK. Dette vil jeg oppsummere og belyse nærmere i kommende blogger. Spesielt en teknologi har dog fanget oppmerksomheten til de store selskapene, pressen og offentligheten.
Microsoft har allerede investert hundretalls milliarder i AI, men tok et strategisk valg om å satse nye 100mrd. NOK på selskapet OpenAI, som står bak chatboten ChatGPT. Fredag 3. mars skrev Aftenpostens Per Kristian Bjørkeng en lengre artikkel om Sam Altman, toppsjef og medgrunnlegger av OpenAI. Altmans visjon er å utvikle en generell kunstig intelligens som vil være i stand til å erstatte mennesket på mange områder. At Altman var eneste eksterne foredragsholder under Microsoft sin lansering av den nye AI-baserte Bing søkemotoren, sier det meste.
Hva er generativ kunstig intelligens?
Søker du etter «generativ AI» på engelskspråklig Wikipedia får du opp «Synthetic media». Dette er et av anvendelsesområdene til teknologien, men ikke en definisjon av teknologien i seg selv. På norsk Wikipedia får du ikke noe relevant resultat for «generativ kunstig intelligens». Med andre ord er det ikke etablert en definisjon av hva denne teknologien er.
Blar du deg gjennom ulike treff mot mer eller mindre (aner)kjente kilder, kan vi konkludere med at de fleste mener det handler om matematiske (KI-)algoritmer. Som er i stand til å generere tekst, lyd, bilder, m.m. Disse er basert på tradisjonell maskinlæring med nevrale nett og store mengder læringsdata. GPT3.5 (modellen som ChatGPT i dag er basert på) bruker over 700GB VRAM for å behandle dine spørsmål. Statistikker for historisk utvikling av GPT-modeller tilsier at neste generasjon av disse vil kreve 10x ressursbruken av dagens modeller.
Det en GPT (general pre-trained transformer) modell ikke innehar er en kognitiv arkitektur* (ref. Yann LeCun / MIT Technology Review). Med andre ord kan ikke GPT-modellen «forstå» det den lærer. Den beregner rett og slett statistisk sannsynlighet for hva det neste elementet er i rekkefølgen ift. å svare ut spørsmålet som ble stilt. I og med at Internett er kilden til kunnskap for OpenAI sin GPT-modell så er også kvaliteten av treningsdata deretter. Svarene som ChatGPT (og lignende modeller) gir kan da, i enkelte tilfeller, ende opp å være fri fantasi. Samtidig har OpenAI jobbet hardt med forsterkende læring for i det minste å unngå det som skjedde når Microsoft i 2016 lanserte sin Tay chatbot. Dagens ChatGPT har dog fortsatt enkelte rasistiske trekk som ligger fundamentalt innebygd i datagrunnlaget. Selv den nylig annonserte GPT4.0 modellen har ikke endret på dette.
*For spesielt interesserte, her er lenken til Yann LeCuns forskningsartikkel «A Path Torwards Antonomous Machine Intelligence».
Hvilke modeller og økosystemer finnes?
Pressen skriver mest om ChatGPT og samfunnsdiskusjonen handler mye om hvordan den kan hjelpe elever jukse med skriveoppgaver. Mye av diskusjonene minner om Internettets første dager, der en bedriftsleder svarte en selger med at «Internett, det er bare porno. Det skal vi ikke ha her».
Realiteten er at store aktører investerer billioner av kroner til å kommersialisere denne og andre KI-teknologier. Hundrevis av selskaper har ila. noen få måneder lisensiert OpenAI sitt API. Tusenvis av selskaper betaler for å bruke GPT3.5-Turbo og ChatGPT spesifikt som en del av sine forretningsprosesser. Disse og mange nye vil nå kaste seg på GPT4.0. I Norge gjelder dette mange selskaper og Finansavisen har belyst både Consigli innenfor eiendomsbransjen og Lighthouse8 innen markedsføring. Ayfie annonserte i siste børsmelding at de vil integrere ChatGPT for tekstanalyse i sine søkeprodukter. I Aftenposten kunne vi lese om at norske Curipod har gått viralt globalt blant tidspressede lærere for å lage utkast til undervisningsopplegg. I USA har selskapet Humanloop basert sin forretningside på å hjelpe bedrifter bygge spesifikke applikasjoner på toppen av GPT3.
Ser vi på OpenAi sine produkter så har de, foruten selve GPT-modellene: ChatGPT for tekstgenerering. Dall-E2 for billedgenerering. Samt Whisper for å konvertere lyd til tekst.
Stability AI har et open source product som heter Stable Diffusion for å konvertere tekst til bilder. Disse er saksøkt av Getty Images da de brukte ulinsensierte bilder når verktøyet ble «trent».
GitHub har brukt teknologien i lengre tid for å hjelpe utviklere med å lage kode. Disse er også blitt saksøkt, av utviklere, for å «stjele» deres kode som ble brukt som treningsgrunnlag for teknologien.
Google har utviklet Bard som konkurrent til ChatGPT. Introduksjonen av denne i markedet var mislykket da den ga mye feilinformasjon som svar. Det igjen resulterte i et 9% fall i aksjekursen til morselskapet Alphabet. Noe som viser viktigheten som investorer tillegger KI i sine selskapsanalyser.
Baidu i Kina har tatt utfordringen fra OpenAI og utviklet en egen ChatGPT variant kalt Ernie Bot. Klok av andres skade har Baidu flyttet på den offentlige lanseringen. Men rykter om vedvarende problemer har også her sendt markedskursen til selskapet ned.
Hva trengs for å gjøre modellene «gode nok» til kommersielt bruk?
Datagrunnlaget som de generiske GPT-modellene er trent på for dårlig. Som vi har belyst i tidligere blogger så gir dårlig input også dårlig output. Stoler du på alt du leser på Internett? Naturligvis ikke, men uten spesifikke instrukser kan ikke GPT-modellene vite hva som er gode og dårlige kilder. Selv gode kilder kan ha faktafeil. Da blir det hele en statistisk analyse av hvor mange, og eventuelt alvorlige feil, kan vi tolerere og fortsatt tjene penger på å bruke teknologien. For øyeblikket tyder empiriske data på at selv for de enkleste problemene kommer ikke nøyaktigheten opp i mer enn 90%. Aksepterer dine kunder å oppleve feil hver 10. gang de møter teknologien i interaksjon med din virksomhet?
Heldigvis finnes det avbøtende tiltak og det er det alle kommersielle leverandører nå holder på med. Forsterkende læring (reinforcement learning from human feedback) er et grunnleggende maskinlæringsparadigme. Dette går ut på å sette mennesker inn i treningen av modellene. Når det først finnes et tilstrekkelig stort antall menneskelige input viser forskning at KI-algoritmer selv kan utvikle nye treningsdata. Menneskelig input da helst i form av å iterativt velge mellom ulike svar som modellen gir. Disse kan så brukes for å forbedre nøyaktigheten til GPT-modellene. Vær obs på at fundamentalt så er ikke problemet med «håndtering av negativer» i GPT-modeller løst. Det vil si bruk av begrepet «ikke». Det er ikke nok fysisk minne i noen maskin til å kunne dekke alle mulige negativer i instruksen til modellen. Da vil modellens natur gjøre at den noen ganger gir svar du ikke vil ha.
Dessverre har ikke utviklerne av modellene tenkt så mye på interoperabilitet. Der det store fokuset innen forretningsapplikasjoner nå er på integrasjoner og ikke minst integrasjonsplattformer (og såkalte IPaaS tjenester) for å muliggjøre deling av informasjon på tvers av virksomhetens forretningssystemer, så er dette p.t. ikke mulig for disse GPT-modellene. OpenAI sitt API gir kun tilgang til GPT-3.5-modellen. Alt tyder også på at dette ikke blir løst med GPT-4.0.
En annen tilnærming til å bruke generiske «large language» modeller (LLM) er isteden å bruke hva det norske selskapet Iris.ai kaller for (spesifikke og domenerelaterte) Smart Language Models. Anita Schøll Abildgaard fra Iris.ai ga en kort presentasjon av dette på NORA konferansen i februar. Der det for øvrig var fokus på både LLM og ChatGPT.
Avslutningsvis
Av lesbarhetsårsaker har vi delt dette temaet inn i 2 deler. Del 2 vil se på bruksområder, gevinster, risikovurderinger, GPT-4, hva Microsoft har annonsert, og de juridiske fallgruvene du må være klar over.
I februarutgaven av =Oslo, med overskrift Menneskelige maskiner, var det mulig å lese artikkelen «Spøkelseshistorien i maskinen» av Even Skyrud. Denne tar for seg utviklingen av kunstig intelligens frem til lanseringen av ChatGPT, godt krydret med Evens egne anekdoter. Anbefalt lesing, og så bidrar du i tillegg til et godt formål!
P.S. Ikke et ord i denne bloggen er generert av ChatGPT eller noen annen GPT-modell. Ut over den som sitter i undretegnedes eget hode.
Erfaren leder og rådgiver innen innovasjon, IT strategi, digitalisering, annskaffelser, og outsourcing. Fokus på målbilde, omstilling og gevinstrealisering.