Het gevecht om AI trainingsdata - Versteeg Wigman Sprey

Alle AI moet getraind. ChatGPT en consorten, scrapen hun trainingsdata bij elkaar door het internet af te grazen, maar voor veel AI werkt dat niet. Die hebben specifieke data nodig.

Als een AI een leerling wil vertellen welke onderdelen die nog extra moet oefenen, heeft die AI niets aan het verzameld werk van Goethe. En ook niet als een AI een oplaadschema voor je elektrische auto wil maken, de snelste weg tussen a en b wil berekenen of de output van camera’s wil interpreteren. Dan zijn er specifieke data nodig. Dan moet de AI leren om goede beslissingen te nemen. Soms blijven de trainingsdata belangrijk ook na de eerste trainingssessie. Met name als een AI wordt geüpdatet kan het nodig zijn de hele trainsequentie nogmaals uit te voeren. AI lijkt slim maar is soms toch tamelijk en op onverwachte momenten dom.

Veel van deze trainingsdata zijn persoonsgegevens. Het gaat immers vaak om data van menselijke activiteit die worden ingevoerd in een systeem. Bij leerlingen gaat het bijvoorbeeld om resultaten gekoppeld aan, in Nederland in ieder geval, een gepseudonimiseerd account. Dat wil zeggen dat het account uniek is en via derden kan worden herleid naar de betreffende leerling, maar dat de leverancier dat meestal zelf niet kan. Maar ook gepseudonimiseerde data zijn persoonsgegevens. Ook laadgegevens van auto’s kunnen vaak aan een berijder worden gekoppeld en hetzelfde geldt voor locatiegegevens die nodig zijn om doorstroming en daarmee de beste route te bepalen.

Bij vrijwel alle contractonderhandelingen waar trainingsdata een rol spelen, wordt een strijd om de die data gevoerd. Dat gaat als volgt: de leverancier zegt gebruiksdata nodig te hebben voor het trainen van zijn systemen en de klant wil niet dat die data daarvoor gebruikt worden. De klant zegt dat hij het intellectueel eigendom heeft van de data heeft en die dus niet hoeft te delen en verder dat de privacyregels, de AVG, hem dat delen sowieso verbieden.

De felheid van de discussie wordt gevoed door de focus op data in vele organisaties. Data is het nieuwe goud immers. Dat leidt tot situaties waarin er ook als er geen enkele toegevoegde waarde aan het bezit van data valt te ontdekken, partijen die toch heel graag exclusief willen houden.

Vanaf enige afstand bezien vallen de belangen van partijen mooi samen zou je zeggen. Het is natuurlijk in het belang van de klant als de AI goed getraind wordt. Punt daarbij is wel dat het voor de intelligentie van de AI meestal niet uitmaakt of de data van de klant worden gebruikt of die van de concurrent (niet altijd overigens, sommige trainingen zijn klantspecifiek). Als dat zo is, dan zegt de klant, neem dan liever de data van de concurrent dan heeft die het bijkomende (privacy)gedoe.

Daartegen zegt de leverancier dat hij hetzelfde verhaal van de concurrent hoort en daarom een onverbiddelijke gelijke-monniken-gelijke-kappen politiek hanteert. En wel moet hanteren. Verder is er ook vaak sprake van enig wantrouwen. De gedachte is dan dat de data worden gebruikt om, bijvoorbeeld, niet zozeer de producten te verbeteren maar de marketing. Met name wanneer het gaat om data van kwetsbare groepen, zoals kinderen, roept dat niet helemaal ten onrechte grote weerstand op.

Oplossingen? Als het gaat om de invalshoek van het intellectueel eigendom, is het volgens mij niet zo moeilijk. Binnen het intellectueel eigendom, kan een jurist vrij precies aangeven wie wat mag. En waar het zwaartepunt van deze eigendom zou moeten liggen. Waarbij het overigens maar zeer de vraag is of er enig wettelijk geregeld intellectueel eigendom van deze data bestaat. Als het gaat om data is dat daarom ook altijd een terrein van juridische noodverbanden waar de “greep” op de data wordt georganiseerd om een soort eigendom van die data te construeren. De gereedschappen daarbij zijn de geheimhoudingsbepalingen en afspraken over de concrete controle over en aanwezigheid op servers van de data.

Dan de privacy. Anders dan de klant vaak zegt, mag het vaak gewoon wel: data gebruiken om een AI te trainen. Over het algemeen is training van AI een gerechtvaardigd belang van de leverancier. En van de klant trouwens: ook de klant heeft belang bij een AI die minder fouten maakt. De leverancier mag die data daar dus voor gebruiken behalve als de inbreuk op de privacy van de betrokkenen te groot is. Bij de chauffeursdata en leerlingendata, lijkt de inbreuk op de privacy van de chauffeurs en leerlingen zeer te overzien.

Dat kan anders liggen en daarom moeten partijen telkens goed kijken welke data precies worden gebruikt, hoe ze zoveel mogelijk te anonimiseren en ook welk risico de betrokkenen (nog) lopen. Bij bijvoorbeeld medische data spelen ook de regels rond het medisch beroepsgeheim een complicerende rol. Zijn partijen eruit dat het mag, dan moeten de betrokkenen ook worden geïnformeerd dat het gebeurt en wat hun rechten in dit verband zijn. Wie dat moet doen, hangt af van de precieze data flow.

Verder zijn er voor wat betreft de rolverdeling tussen leverancier en klant meerdere mogelijkheden. Het ligt voor de hand dat de leverancier verantwoordelijke wordt voor het verwerken voor de training. Maar vanuit het standpunt van de klant, kan ook de klant verantwoordelijke zijn: als de opdracht het slimmer maken van de AI behelst bijvoorbeeld. Het is het meest praktisch als de verantwoordelijkheid bij de leverancier ligt: immers dan kan hij als verantwoordelijke blijven beschikken over de data, ook als het contract met de klant eindigt.

Kortom: er wordt flink gestreden om de data, maar uiteindelijk zal er in een open gesprek ruimte zijn voor het belichten van alle belangen. Klant en leverancier vinden vrijwel altijd een werkbaar compromis. Zeker met onze hulp.