AI DAGELIJKS

AI trainingsdata: mag een model jouw werk gebruiken?

21 juni 2026 | Boris Kusters

Inhoud

AI trainingsdata: mag een model jouw werk gebruiken?

Vorige week maakte The Atlantic vier datasets doorzoekbaar waarmee AI-bedrijven muziekmodellen trainen. Twee ervan zijn gigantisch: een set van 12 miljoen tracks en een van 9 miljoen. Journalist Alex Reisner zette ze online zodat iedereen kan opzoeken of zijn nummer erin zit. Klinkt als een verhaal voor muzikanten, maar de vraag eronder raakt elke ondernemer die content maakt.

Want de echte vraag is: mag een AI-model jouw werk gebruiken om zichzelf te trainen, zonder dat je het weet of er iets voor terugkrijgt? Dat geldt voor muziek, maar net zo goed voor je blogteksten, je productfoto's en de webteksten waar je uren in stopte.

In dit stuk leg ik uit wat er precies blootgelegd is, waarom dat ook jouw content raakt, en wat je er als MKB'er nuchter mee kunt doen.

Wat The Atlantic blootlegde

Atlantic-journalist Alex Reisner spoorde vier datasets op die gebruikt worden om AI-muziekmodellen te trainen, en maakte ze volledig doorzoekbaar. Twee zijn enorm: een set van 12 miljoen tracks en een van 9 miljoen. De andere twee zijn kleiner, maar met ruim 100.000 nummers per stuk nog steeds fors.

Reisner deed eerder hetzelfde met boeken. Toen bleek dat tienduizenden titels zonder toestemming in trainingsdata zaten. Nu kun je opzoeken of een specifiek nummer in een van deze muzieksets zit. Voor bedrijven als Suno en Udio, die AI-muziek genereren, is dat ongemakkelijk: het laat zien waar hun modellen op leunen.

De kern is niet de muziek zelf, het is het patroon. Een AI-model wordt beter naarmate het meer materiaal ziet, en dat materiaal komt ergens vandaan. Vaak van makers aan wie nooit iets gevraagd is.

Waarom dit ook jouw teksten en foto's raakt

Je denkt misschien: ik maak geen muziek, dus dit gaat niet over mij. Maar dezelfde logica geldt voor tekst en beeld. De grote taalmodellen achter ChatGPT en soortgelijke tools van OpenAI zijn getraind op miljarden webpagina's. Daar zat vrijwel zeker ook publieke content van Nederlandse ondernemers tussen: blogartikelen, productbeschrijvingen, veelgestelde vragen, foto's.

Dat heeft twee kanten. Aan de ene kant: jouw werk heeft mogelijk bijgedragen aan een model dat je nu zelf gebruikt, of waar een concurrent geld mee verdient. Aan de andere kant: als jij AI gebruikt om content te maken, leun je op datasets waarvan de herkomst niet altijd schoon is. Dat is geen reden tot paniek, wel tot bewustzijn.

Wat de wet erover zegt

In Nederland valt jouw originele werk onder de Auteurswet. Een tekst of foto die jij maakt, is automatisch beschermd; iemand anders mag die niet zomaar kopiëren. Tegelijk kent de wet een uitzondering voor tekst- en datamining, waar AI-bedrijven zich op beroepen. Je kunt je daartegen verzetten met een duidelijk voorbehoud, bijvoorbeeld in je voorwaarden of via technische signalen op je site.

De EU AI Act voegt daar iets aan toe. Aanbieders van grote AI-modellen moeten een samenvatting publiceren van de data waarop ze trainen. Dat is geen volledige lijst, maar het maakt de herkomst van trainingsdata voor het eerst een juridische verplichting in plaats van een bedrijfsgeheim.

En de AVG? Die gaat over persoonsgegevens, niet over auteursrecht. Maar zodra trainingsdata namen, klantgegevens of herleidbare informatie bevat, raakt het ook de AVG. Voor het MKB in Nederland is dat de praktische grens: gebruik je AI op klantdata, dan gelden gewoon de privacyregels.

Wat je hier als ondernemer mee doet

Eerst het geruststellende deel: je hoeft niet te stoppen met AI. De tools blijven enorm waardevol voor een klein team. Maar je kunt een paar dingen regelen die later schelen.

Bescherm je eigen content. Wil je niet dat AI-crawlers je hele site leegtrekken? Dan kun je dat aangeven via je robots.txt en in je algemene voorwaarden een datamining-voorbehoud opnemen. Het houdt niet alles tegen, maar het legt je positie juridisch vast.

Wees voorzichtig met wat je zelf genereert. AI-muziek of AI-beeld dat sterk op bestaand werk lijkt, kan een claim opleveren. Gebruik het voor inspiratie en eigen invulling, niet om bestaand materiaal na te bootsen. En zet nooit klantgegevens in een publieke AI-tool zonder te weten waar die data heen gaat.

Wat dit betekent voor jou

Mijn take: de database van The Atlantic is geen schandaal op zichzelf, het is een spiegel. Hij laat zien dat de grondstof van AI gewoon het werk van mensen is, vaak zonder dat daar iets voor gevraagd is. Voor jou als ondernemer betekent dat twee dingen tegelijk: bescherm wat je zelf maakt, en blijf nuchter over de tools die je gebruikt.

De makers die nu boos zijn, hebben een punt. En tegelijk: AI gaat niet weg. De winst zit in de combinatie, je eigen werk beschermen waar het kan, en de tools inzetten waar ze je tijd besparen. Wie dat scherp houdt, loopt niet vast op de juridische vragen die de komende jaren alleen maar groter worden.

Werkt deze AI-ontwikkeling door in jouw bedrijf? een korte sparring boeken.

Veelgestelde vragen

Mag AI mijn werk gebruiken om te trainen zonder mijn toestemming?

In de EU geldt een uitzondering voor tekst- en datamining waar AI-bedrijven zich op beroepen. Maak je een duidelijk voorbehoud, bijvoorbeeld in je voorwaarden of via robots.txt, dan mag dat in principe niet meer voor jouw content. Zonder voorbehoud is de situatie juridisch grijzer.

Hoe weet ik of mijn content in een AI-dataset zit?

Volledig zeker weten kan vaak niet. The Atlantic maakte enkele muzieksets doorzoekbaar, maar voor de meeste tekst- en beelddata bestaat geen publieke zoekfunctie. Ga er praktisch van uit dat publieke webcontent ergens in trainingsdata terecht is gekomen.

Wat zegt de EU AI Act over trainingsdata?

De EU AI Act verplicht aanbieders van grote AI-modellen om een samenvatting te publiceren van de data waarop ze trainen. Dat is geen complete lijst, maar het maakt de herkomst van trainingsdata voor het eerst een wettelijke verplichting.

Kan ik mijn website afschermen voor AI-crawlers?

Deels. Via je robots.txt kun je bekende AI-crawlers blokkeren en in je voorwaarden een datamining-voorbehoud opnemen. Het houdt niet elke partij tegen, maar het legt je positie wel juridisch vast.

Is content maken met AI juridisch risicovol voor mijn MKB?

Het risico zit vooral in output die te dicht op bestaand werk leunt en in het delen van klantgegevens met publieke tools. Gebruik AI voor eigen invulling, niet om bestaand materiaal na te bootsen, en houd persoonsgegevens uit publieke chatbots.