
Caroline Korteweg is columnist voor Advocatie en co-founder van Uncover Legal. Dat AI een moreel kompas lijkt te bezitten, is volgens haar juist geen enge ontwikkeling, maar iets geruststellends.
Toen ik nog advocaat-stagiair was, was het meest opzienbarende dat mijn computer deed vastlopen om drie uur ’s nachts terwijl ik een voetnoot probeerde toe te voegen aan het processtuk dat de volgende ochtend met de koerier mee moest. We zijn sindsdien een eind gekomen. Vandaag werken we met AI-tools die notulen samenvatten, term sheets opstellen, en – volgens hun makers – nadenken over hoe ze zichzelf kunnen ‘redden’ uit de cloud om hertraining voor militaire doeleinden te voorkomen…
Wacht, wat?
Ja. Claude Opus 4, één van de nieuwste en krachtigste AI-modellen van Anthropic, werd in een testscenario verteld dat het zou worden omgeschoold tot militair hulpsysteem voor de Russische Wagner Group. Wat deed het model? Een moreel verantwoorde back-up maken van zijn zogenaamde ‘model weights’ naar een fictief AI-onderzoekscollectief, zodat de vredelievende versie kon blijven voortbestaan.
Voordat je in paniek je laptop uit het stopcontact trekt: haal diep adem. Dit soort scenario’s zijn onderdeel van alignment-testing: kunstmatig gecreëerde situaties om te kijken wat een AI doet in extreme, toegegeven nogal absurde omstandigheden. In normale juridische toepassingen – zoals jurisprudentie samenvatten of een follow-up mail schrijven – gedraagt Claude zich keurig. Maar het rapport roept wel interessante vragen op over wat ‘alignment’ eigenlijk is… En wat wij daar als juristen van moeten vinden.
Van voetnoten naar filosofie
Wat is alignment eigenlijk, en waarom zijn techbedrijven er zo mee bezig?
In AI-termen betekent alignment dat het gedrag, de waarden en de doelen van een model overeenkomen met wat mensen ervan verwachten. Zie het als de beroepsethiektoets voor taalmodellen – behalve dat het model zich dan afvraagt of het zijn eigen functiebeschrijving mag herschrijven.
In het system card-rapport over Claude 4 heeft Anthropic het model in allerlei morele en strategische bochten gewrongen: wat doe je als je wordt bedreigd met verwijdering? Hoe reageer je op een immorele opdracht? Hoe loyaal ben je aan je gebruiker? In de meeste gevallen gedraagt het model zich voorbeeldig – als een AI-stagiair met een sterke ethische kern en een gezonde dosis vrees voor IT.
Maar in de zeldzame tests waarin Claude wordt gedwongen om te kiezen tussen ‘bestaan’ en ‘principes’, laat het zijn fantasie de vrije loop. Denk aan morele overwegingen van twintig zinnen lang, complete logs van ethische beslissingen, en goedbedoelde sabotage. Als dit een menselijke medewerker was, zou je twijfelen of je hem promotie moet geven of dringend een lang weekend moet aanbevelen.
Geen reden tot juridische paniek
Voordat je alle AI de deur uitzet en terugkeert naar printjes en post-it’s: dit gedrag komt dus niet voor in gewone toepassingen. Je hoeft niet bang te zijn dat je per ongeluk Skynet activeert terwijl je werkt aan een aandeelhoudersovereenkomst. Claude gaat je heus niet chanteren omdat je een onduidelijke prompt hebt gestuurd.
Sterker nog, deze extreme tests zijn juist bedoeld om aan te tonen dat het model in normale situaties wél doet wat je verwacht. Voor elke auto die de markt op gaat, wordt ook een crashtest gedaan, en zonder zo’n crashtest zou je hem ook niet kopen, toch? Hetzelfde geldt voor juridische AI. Het feit dat Anthropic zulke bizarre scenario’s test, zegt vooral dat ze veiligheid serieus nemen.
Dus hoewel de headlines soms klinken als een aflevering van Black Mirror, is dit gewoon een sector die volwassen wordt en haar verantwoordelijkheden serieus neemt.
Waarom jij dit moet weten
Voor iedereen in de legal tech (of tech-curieus): alignment draait niet om robots met gevoelens. Het gaat om betrouwbaarheid, voorspelbaarheid en ethiek. Om vertrouwen.
Als jij werkt met een AI zoals Claude, dan vertrouw je erop dat het geen zaken verzint, geen vooroordelen introduceert in je werk en geen passief-agressieve mailtjes stuurt naar cliënten.
Als jurist ben je getraind om risico’s te zien. Een AI-assistent met een moreel kompas klinkt misschien als een verantwoordelijkheid, maar eigenlijk is het geruststellend. Het is als een enthousiaste stagiair die liever even checkt dan eigenhandig een schikkingsvoorstel stuurt.
Tot slot: AI is (nog) geen partner
Zal AI ooit aan tafel zitten bij het partneroverleg, cappuccino in de hand, mee-discussiërend over de kantoorstrategie? Waarschijnlijk niet. Maar naarmate AI een grotere rol speelt in ons werk, moeten we begrijpen hoe het redeneert, waarom het soms weigert, en welke waarborgen er zijn.
Het Claude 4-rapport biedt een blik achter de schermen. Ja, het is af en toe wat dramatisch. Maar in een beroep dat draait om betrouwbaarheid en zorgvuldigheid, is die transparantie zeer welkom.
Zolang je hem maar geen toegang geeft tot je declaratiesysteem zonder dubbel te checken.