ANALYSE CHATGPT EN WETENSCHAPPELIJK ONDERZOEK
Debat rond ChatGPT barst los in academische wereld
Large Language Models zoals ChatGPT lijken op het eerste gezicht op het punt te staan de academische wereld ingrijpend te veranderen. Maar experten waarschuwen voor de limieten van het programma.
'Large Language Models (LLMs), zoals het populaire ChatGPT, hebben de afgelopen jaren veel aandacht gekregen vanwege hun vermogen om natuurlijke taal te genereren en te begrijpen. Hoewel LLM's voornamelijk bekend zijn geworden door hun gebruik in chatbots en virtuele assistenten, zijn wetenschappers begonnen met het verkennen van hun potentieel in verschillende onderzoeksgebieden. LLM's kunnen bijvoorbeeld worden gebruikt om grote hoeveelheden tekstgegevens te analyseren en patronen te ontdekken die anders moeilijk te herkennen zouden zijn.'
Althans, voorgaande paragraaf is wat ChatGPT zelf te zeggen heeft over het gebruik ervan bij wetenschappelijk onderzoek. We vroegen aan het Large Language Model om de opening van een artikel over het gebruik van ChatGPT in wetenschappelijk onderzoek te genereren.
Dat doet die op het eerste gezicht niet slecht. Veel wetenschappers hebben in de voorbije maanden zelf al de mogelijkheden van ChatGPT voor hun werk ontdekt. Ze gebruiken het programma onder andere om op ideeën te komen, literatuurstudies te schrijven of de tekst van papers te verbeteren of zelfs te schrijven.
Onderzoeker John Tregoning schreef in een column voor Nature dat LLM's wetenschappers 'tijd kan schenken' om echt impactvol wetenschappelijk werk te verrichten. Tijdrovend routinewerk zoals meerkeuzevragen opstellen of subsidieaanvragen schrijven, kan sneller uitgevoerd worden met behulp van deze programma's.
Sommige onderzoekers zien een grote rol voor ChatGPT weggelegd bij het schrijven van artikelen. In een experiment hadden experten bijvoorbeeld moeite met het onderscheiden van door ChatGPT gegenereerde abstracten met die geschreven door mensen. Sommige onderzoekers eren ChatGPT zelfs met een vermelding als auteur van een artikel.
Hulp bij het programmeren
Diana Maria Lica, een doctoraatsstudent aan de faculteit rechtsgeleerdheid van de KU Leuven, gebruikt ChatGPT bij haar onderzoek naar octrooien. 'Voor mijn methodologie heb ik gekozen computationele linguïstiek toe te passen op een afgebakend corpus van octrooien. Maar dat was een uitdaging voor mij: Ik moest vanaf nul leren werken met de R-programmeertaal en softwarepakket, en de basis van Python leren programmeren.'
Enkele weken geleden leerde ze echter dat ChatGPT kan helpen programmeren. 'Het verbetert mijn foutieve code zeer goed en doet zelfs suggesties over hoe ik mijn code moet schrijven als ik het een vraag stel', zegt Lica. 'ChatGPT is een echte tijdbespaarder. Mocht het bestaan hebben aan het begin van mijn doctoraat, zou het al klaar zijn.' Ze raadt ChatGPT dan ook aan iedereen aan die moet programmeren, maar hier nog nooit eerder mee in aanraking kwam.
Kanttekeningen
Moeten alle onderzoekers nu direct met ChatGPT aan de slag? Volgens experten zijn er enkele belangrijke kanttekeningen te maken.
'ChatGPT voorspelt enkel het volgende woord in een tekst, maar de antwoorden die eruit komen hebben geen enkele link met de werkelijkheid', waarschuwt Tim Van de Cruys, professor computationele linguïstiek aan de KU Leuven. 'Het model "hallucineert" zelfs antwoorden. Het model verzint gewoon onjuistheden, maar klinkt hierbij heel zeker van zichzelf. Daardoor kunnen we er makkelijk in trappen.'
Die neiging tot onwaarheden verkondigen, zit zelfs vervat in de trainingsdata van ChatGPT. 'Het is getraind met zowat alles wat er op het internet te vinden is, maar daar zit ook misinformatie en fake news tussen', zegt Nathalie Smuha, postdoctoraal onderzoeker aan de KU Leuven die onderzoek voert naar de ethische en juridische impact van artificiële intelligentie (AI). Onderzoekers passen dus best op met het zomaar voor waar aannemen van de antwoorden van ChatGPT, zonder het zelf na te kijken
'Stel je voor wat er kan gebeuren als je ChatGPT gebruikt om cv's te beoordelen'
Tim Van de Cruys, professor computationele linguïstiek KU Leuven
De teksten waarmee ChatGPT getraind is, kunnen naast misinformatie ook vooroordelen bevatten over bepaalde bevolkingsgroepen. 'Er wordt geen onderscheid gemaakt tussen een betrouwbare nieuwssite of een of ander forum', aldus Van de Cruys.
Reinforcement learning (zie kader ChatGPT en Large Language Models, wasda?) probeert te voorkomen dat ChatGPT seksistische of racistische antwoorden zou geven. 'Maar subtielere vragen omzeilen deze filters wel al eens. Discriminerende biases komen zo terecht in de resultaten die je krijgt', zegt Smuha. En dreigen dus uiteindelijk ook het werk dat je doet als onderzoeker te beïnvloeden. 'Stel je maar eens voor wat er kan gebeuren als je ChatGPT gebruikt om bijvoorbeeld cv's te beoordelen', zegt Van de Cruys.
Onderzoekers lopen het gevaar per ongeluk plagiaat te plegen
'Je moet als wetenschapper altijd je bronnen aangeven. ChatGPT geeft die echter niet', zegt Smuha. 'Nog problematischer: als je het model vraagt om toch bronnen te geven, vindt die er zelfs compleet fictieve uit.' Zo wordt het extra moeilijk om de correctheid van informatie na te gaan. Ook voor andere wetenschappers die je onderzoek zouden willen reproduceren en daarvoor ook de bronnen nodig hebben waar je data vandaan komt.
Onderzoekers lopen verder het gevaar om per ongeluk plagiaat te plegen, als ze de resultaten van ChatGPT gebruiken in hun onderzoek of bij het schrijven van papers. 'Het model is getraind op teksten die bestaan. De mogelijkheid bestaat dat het ideeën van anderen overneemt', zegt Van de Cruys.
'De regel dat je geen plagiaat pleegt, is een van de bouwstenen van academisch onderzoek', benadrukt Jozefien Vanherpe, professor intellectueel recht aan de KU Leuven.
'Wie krijgt de auteursrechten van de resultaten van ChatGPT?'
Jozefien Vanherpe, professor intellectueel recht KU Leuven
LLM's worden al helemaal een netelige kwestie als je het van een auteursrechtelijk perspectief bekijkt. 'Aan de ene kant heb je de vraag of ChatGPT en andere LLM's niet het auteursrecht schenden door documenten zomaar te gebruiken als trainingsdata', aldus Vanherpe. 'Een aantal artiesten zijn dan ook recent in Amerika een rechtszaak gestart omdat ze niet willen dat hun werk gebruikt wordt om AI-systemen te trainen.'
'Een andere vraag is: kennen we auteursrechtelijke bescherming toe aan de resultaten van ChatGPT, en wie krijgt die?', stelt Vanherpe. 'ChatGPT zelf kan geen auteursrechten krijgen, want het is geen mens. Auteursrecht kan je enkel krijgen als je persoonlijke, creatieve keuzes gemaakt hebt bij het maken van een werk, en dat kunnen voorlopig enkel mensen.'
'Maar dan breekt de discussie los natuurlijk. Krijgt OpenAI misschien wel auteursrecht, of eerder degene die de prompt geschreven heeft, namelijk de gebruiker? Of komt het uiteindelijk terug naar de auteursrechthebbenden van de teksten waarmee ChatGPT getraind is?', vraagt Vanherpe. 'Velen vinden dat je aan niemand auteursrecht kunt toekennen, omdat er niet een voldoende grote causale link kan worden gevonden tussen wat een mens heeft gemaakt en wat uiteindelijk uit ChatGPT komt. Dat vanwege het hoge black-box gehalte dat inherent is aan ChatGPT en andere LLM's.'
Reactie van wetenschappelijke tijdschriften en de KU Leuven
Universiteiten en wetenschappelijke tijdschriften zijn ondertussen druk bezig met regels op te stellen rond het gebruik van LLM's en ChatGPT.
Het wetenschappelijk tijdschrift Nature en andere tijdschriften van uitgever Springer Nature, verbieden het toekennen van auteurschap aan LLM's voor papers die zij publiceren. Ze vragen ook om transparant te zijn over het gebruik ervan en dit aan te geven in bijvoorbeeld het dankwoord of in de introductie.
Tijdschriften van Science laten zelfs geen enkele tekst gegenereerd door ChatGPT toe in de papers die ze publiceren. Inbreuk hierop telt voor hen als wetenschappelijk wangedrag vergelijkbaar met plagiaat.
'Je blijft als onderzoeker eindverantwoordelijke van wat je publiceert'
Tim Van de Cruys, professor computationele linguïstiek KU Leuven
Ook de KU Leuven sleutelt de komende weken en maanden aan regelgeving voor haar onderzoekers over het gebruik van LLM's. 'We waren er eigenlijk niet zo mee bezig, maar het gebruik van die programma's nam plots een vaart', zegt Jan D'hooge, vicerector Onderzoeksbeleid van de KU Leuven. 'We gaan nu samenzitten met experten om te zien wat wel en niet toelaatbaar is met LLM's.'
D'hooge denkt hierbij in eerste instantie aan een advies, maar sluit een meer dwingend reglement voorlopig niet uit. 'Het heeft wel geen zin om het te verbieden. We moeten de limieten van de technologie juist inschatten en die gebruiken waar het zin voor heeft.'
Het Bureau van de Commissie Wetenschappelijke Integriteit (CWI) wijst er in een schriftelijke reactie aan Veto op dat ze onderzoekers vragen de KU Leuven auteurschapsrichtlijnen te volgen. Volgens die richtlijnen moet een auteur verantwoordelijkheid kunnen nemen voor een publicatie.
ChatGPT kan dat niet volgens het CWI en kan daarom geen auteur zijn van een publicatie. Ze volgen hierin dus voorlopig wetenschappelijke tijdschriften zoals Nature, maar melden ook dat er binnen de Commissie nog over gereflecteerd zal worden.
Verantwoordelijkheid
ChatGPT en LLM's hebben een plaats in wetenschappelijk onderzoek. Zo kunnen ze potentieel voor voor 'egalisering' zorgen. Menswetenschappers die nooit een programmeringsopleiding gevolgd hebben, kunnen er met behulp van ChatGPT vlotter mee overweg. Vlot en foutloos Engels schrijven ligt met de tool binnen handbereik voor iedereen.
'Teksten die je zelf geschreven hebt, door ChatGPT laten verbeteren of herschrijven in een meer wetenschappelijke stijl', geeft Van de Cruys aan als een goed gebruik van het programma. Volgens Smuha kunnen ze een eerste idee geven van wat je wil onderzoeken, maar moet je dit altijd als indicatief zien. 'Ga zelf op zoek naar bronnen en kijk na of de informatie die ChatGPT geeft, betrouwbaar is', zegt Smuha.
Belangrijk volgens hen is dat je altijd de limieten van LLM's in gedachten houdt. 'Pas dus op dat je niet per ongeluk plagiaat pleegt en wees indachtig dat er geen creativiteit in het model zit', zegt Van de Cruys.
'Je blijft eindverantwoordelijke van wat je publiceert, dus het is aan jou als onderzoeker om je werk te controleren', besluit Van de Cruys.
Het Leuven.AI instituut organiseert een paneldiscussie met experten van de KU Leuven over de impact van ChatGPT op onderwijs en onderzoek. Dit evenement vindt plaats op 6 maart en staat open voor iedereen.