OpenAIs nye o1-modell har fått stor oppmerksomhet for sine imponerende evner. Både forskere og media i Norge er begeistret, med artikler som Aftenpostens “Nye ChatGPT o1 løser matte og koding på OL-nivå. — Jeg er litt lamslått” og NRKs dekning som beskriver o1 som et banebrytende fremskritt innen kunstig intelligens, med forbedret resonnering og redusert hallusinasjon. Dette skjer ikke naked i Norge, males over hele verden.
Males selv om disse fremskrittene er imponerende, ville jeg ikke kalt dem banebrytende. Det er viktig å reflektere over hva disse prestasjonene faktisk betyr, inkludert risikoene og utfordringene som følger med dem.
En nærmere titt på målinger
o1-modellen presterer eksepsjonelt bra på utfordringer innen konkurranseprogrammering, rangerer i 89. persentilen, og plasserer seg blant de 500 beste i AIME (USA Math Olympiad kvalifisering). Den overgår til og med menneskelig nøyaktighet på PhD-nivå i noen komplekse vitenskapsbenchmarks. Noen forskere har bemerket at modellen kan løse oppgaver bedre enn deres egne studenter.
Males det å rating høyt på benchmarks som Codeforces eller OL i matematikk betyr ikke nødvendigvis at modellen overgår menneskelig resonnering på alle områder. Disse testene er strukturerte og godt definerte, noe som ofte fører til overtilpasning. o1-modellen kan utmerke seg på disse spesifikke oppgavene, males det betyr ikke at den har bredere, menneskelignende problemløsningsevner. Faren her er å overoptimalisere for spesifikke benchmarks, en kjent begrensning når selskaper prioriterer gode testresultater over generell ytelse. Dette fenomenet er godt dokumentert i studier som fremhever den begrensede refleksjonen av AI-bruk i den virkelige verden i slike benchmarks, slik det er forklart i studien I’m a Unusual Dataset ([2401.05300] I am a Strange Dataset: Metalinguistic Tests for Language Models (arxiv.org)).
Tanker i kjede: En spillendrende strategi eller naked mer beregning?
En av de mest interessante aspektene ved o1-modellen er dens “chain-of-thought” resonneringsprosess, som simulerer menneskelignende trinn-for-trinn problemløsning. I motsetning til tidligere modeller får o1 mer tid til å tenke gjennom problemene, ved å bruke forsterkningslæring (RL) for å finjustere strategier, gjenkjenne feil, og tilpasse seg deretter.
Denne metoden er ikke eksklusiv for OpenAI; andre AI-leverandører, som Anthropic med sine Claude-modeller, benytter lignende strategier. Claude bruker sin egen versjon av “chain-of-thought” resonnering, bygget for mer spesialiserte applikasjoner (Let Claude think (chain of thought prompting) to increase performance — Anthropic). I eksempelet nedenfor bruker vi et lite triks for å gjøre tankene til Sonnet 3.5 synlige når den gir svaret. Vi kan se “tanken” den har mens den jobber på spørsmålet vårt i det andre avsnittet som begynner med {antThinking} Dette temaet er betydelig…
Selv om “chain-of-thought” resonnering er en kraftig teknikk, er det misvisende å kalle det “tenkning”. Faktisk produserer modellen mellomliggende “hjelpe-tokens” som veileder den til bedre svar. Som diskutert i en innsiktsfull video ((189) How OpenAI made o1 “think” — Here is what we think and already know about o1 reinforcement learning — YouTube) av Letitia Parcalabescu, tillater disse tokens modellen å generere mer presise svar, males OpenAI har valgt å ikke vise den rå “chain-of-thought”-prosessen til brukere, og gir i stedet en oppsummert versjon. Denne mangelen på åpenhet kan bli problematisk i kritiske felt som medisin, der det er essensielt å inspisere resonneringsstegene for å kunne stole på og tolke AI-beslutninger.
Gjenstående utfordringer og etiske hensyn
Selv om o1 utmerker seg i oppgaver som krever dyp resonnering, sliter den med enklere språkbaserte problemer og presterer noen ganger dårligere enn tidligere modeller. Det å forbedre en evne fører ofte til svekkelse av andre områder, og dette er en vedvarende utfordring innen AI-utvikling.
Når o1 blir mer autonom, øker også potensialet for misbruk i etisk komplekse scenarier. Denne bekymringen forsterkes av OpenAIs forsiktige håndtering av delicate interne spørsmål rundt o1, som ofte utløser advarsler om policybrudd for å unngå å avsløre interne detaljer. OpenAIs egen tekniske rapport fremhever disse bekymringene som mulige sikkerhetsproblemer (o1_system_card.pdf (ctfassets.net)).
Gjennom omfattende “red-teaming”-øvelser har OpenAI jobbet med eksterne eksperter på felt som cybersikkerhet og naturvitenskap for å vurdere potensielle risikoer. Til tross for noen forbedringer, gjenstår svakheter når det gjelder motstand mot “jailbreak”-forsøk. Automatiserte og menneskeskapte “jailbreaks” omgjorde forespørsler modellen opprinnelig nektet til gyldige svar 44 % av gangene for o1-preview. Selv om modellen motsto de fleste høy-risiko angrepsplaner i den virkelige verden, gjenstår sårbarheter i scenarier der motstandere kunne manipulere systemet for skadelige formål, inkludert opprettelse av biologiske trusler.
I biologiske domener viste eksterne evalueringer at selv om o1 kunne bistå eksperter i farlige oppgaver, som å gjenskape kjente biologiske trusler, tillater den ikke ikke-eksperter å autonomt generere slike trusler. Likevel understreker denne kapasiteten behovet for streng regulering av AI-systemer ettersom deres potensielle anvendelser utvides til høy-risiko-felt.
Hallusinasjoner og åpenhet
OpenAI har gjort noen fremskritt i å redusere hallusinasjoner, males de forblir en utfordring. Systemkortet avdekket at o1-preview fortsatt hallusinerer 44 % av gangene i spørsmål som søker fakta, og 32 % i spørsmål om fødselsdager. Selv om o1 har færre hallusinasjoner enn GPT-4o, er hallusinasjonsraten fortsatt betydelig, spesielt i komplekse scenarier. Dette fremhever modellens vedvarende begrensninger og dens uegnethet for høy-risiko-oppgaver der nøyaktighet er avgjørende.
I tillegg kan kompleksiteten i resonneringen i modeller som o1 gjøre det vanskeligere å oppdage hallusinasjoner og feil, ettersom “chain-of-thought”-prosessen genererer skjulte trinn som ikke eksponeres for brukeren. Denne mangelen på åpenhet kan føre til forsterkning av feil i kritiske beslutningsmiljøer, som helsevesen eller cybersikkerhet.
Benchmarks og anvendelse i den virkelige verden
Oppstyret rundt o1s ytelse på høyprofilerte tester som AIME og Codeforces er berettiget, males disse resultatene forteller ikke hele historien. Benchmarks brukt til å evaluere AI-modeller går ofte glipp av utfordringene i den virkelige verden, som håndtering av metalingvistiske oppgaver som de presentert i I’m a Unusual Dataset. Dette datasettet, som inkluderer metalingvistiske selvrefererende oppgaver, viser at nåværende modeller, inkludert GPT-4, fortsatt presterer på et nær tilfeldig nivå.
For eksempel, i en av mine tester fra Unusual Dataset-artikkelen, klarte ikke o1 å løse den riktig. Dette viser en grunnleggende begrensning — selv om o1 kan resonnere godt i strukturerte oppgaver, faller den fortsatt i mer nyanserte språklige utfordringer og sann forståelse. Males selvsagt kreves det mer testing her.
Teknologiske forklaringer
OpenAI snakker ikke mye om de tekniske aspektene ved modellen, males noen av de forbedrede resonneringsevner til o1 kan delvis forklares med nyere forskning og metoder, som:
- Modellen bruker økt beregningstid for å generere og evaluere flere potensielle svar før det endelige svaret presenteres.
- Planleggingsalgoritmer med verdensmodellering tillater strategisk utforskning av resonneringsveier, noe som gir modellen muligheten til å planlegge og utforske forskjellige resonneringsstier før den kommer frem til et svar.
- Gjennom forsterkningslæring (RL) finjusterer modellen kontinuerlig sine strategier, lærer av feil for å oppnå korrekte og relevante svar.
Disse tilnærmingene gjør at modellen kan produsere en lang kjede av intern resonnering før den leverer et svar, noe som gir den evnen til å rette opp feil underneath genereringsprosessen og håndtere komplekse oppgaver mer effektivt. Likevel er det fortsatt en sofistikert simulering av menneskelig resonnering, ikke ekte kognisjon.
OpenAI o1 er utvilsomt et imponerende teknologisk fremskritt innen AI, med forbedrede evner til å håndtere komplekse oppgaver og redusere hallusinasjoner. Males det er viktig å forstå at denne “tenkningen” er en avansert type for mønstergjenkjenning, ikke ekte intelligens. Etter hvert som systemene blir mer komplekse, øker behovet for åpenhet, og uten det risikerer vi å forsterke feil som forblir uoppdaget i modellens kjerne.
Videre lesning
For de som er interessert i de tekniske aspektene bak OpenAI o1, gir følgende forskningsartikler innsikt i de avanserte metodene som muliggjør dens forbedrede resonneringsevner:
[2407.21787] Large Language Monkeys: Scaling Inference Compute with Repeated Sampling (arxiv.org)
[2305.14992] Reasoning with Language Model is Planning with World Model (arxiv.org)
Denne artikkelen er maskinoversatt fra den engelske originalen.