5 juni 2026

AI op je data loslaten werkt. Maar niet zo.

Deel dit bericht

Ijsberg met daarboven de blogtitel 'AI op je data loslaten werkt. Maar niet zo.' en het Bitmetric-logo, als metafoor voor het verborgen datafundament onder een AI-oplossing.

Er zijn op dit moment waarschijnlijk een handvol mensen in jouw organisatie die serieus nadenken over een AI-agent die vragen over jullie data beantwoordt. “Gewoon Claude vragen laten stellen aan ons warehouse.” Het klinkt aantrekkelijk. Analisten minder ad-hoc werk, iedereen kan zelf antwoorden vinden, en je data team kan eindelijk doen waarvoor ze zijn aangenomen.

Het kan ook echt werken. Anthropic publiceerde onlangs een artikel over hoe ze dit intern hebben opgebouwd: 95% van alle interne analytics-vragen geautomatiseerd, met een juistheid van circa 95%. Interessant genoeg komt een gecontroleerd experiment bij een medische kliniek tot vrijwel dezelfde conclusies. Maar wat er onderweg misging, is minstens zo leerzaam.

Het kernprobleem bij analytics agents is niet het schrijven van queries. Het probleem is het correct koppelen van een vraag aan de juiste tabel, de juiste definitie, en het juiste filter.

“Hoeveel actieve gebruikers hadden we vorige maand?” klinkt eenvoudig. Maar een agent moet weten welke tabel je bedoelt, wat “actief” in jouw context betekent, welk tijdvenster je hanteert, en of je bepaalde gebruikersgroepen uitsluit. Als daar onduidelijkheid in zit, geeft de agent een antwoord dat technisch klopt maar inhoudelijk fout is. En niemand merkt het, want het ziet er gewoon uit.

Concreet voorbeeld: een veld slot_status met de waarden Open en Filled. De agent wordt gevraagd naar beschikbare slots, zoekt naar slot_status = 'Available', een waarde die niet bestaat, en retourneert netjes nul resultaten. Geen foutmelding. Geen signaal dat er iets mis was. Een ervaren analist had waarschijnlijk eerst gecontroleerd welke waarden er daadwerkelijk voorkomen.

Laat een LLM je datacatalogus automatisch genereren op basis van je tabellen en query-logs. Veel tooling-leveranciers bouwen dit op dit moment actief in hun oplossingen in.

Anthropic heeft het geprobeerd. Het werkte niet. Automatisch gegenereerde definities zien er compleet uit, maar coderen precies de ambiguïteit die je probeert te elimineren. Het verschil zit hem in de details. Een automatisch gegenereerde beschrijving zegt:

The status of the order.

Een bruikbare beschrijving zegt:

De lifecycle-status van de order. Gebruik dit veld voor omzet-analyses. Gebruik dit veld niet om te bepalen of voorraad is gereserveerd, gebruik daarvoor allocation_status.

De eerste beschrijving noemt het veld. De tweede leert de agent hoe het domein werkt. Gebruik AI om documentatie te draften, maar laat een mens de definitie vaststellen.

Anthropic gaf de agent toegang tot duizenden historische SQL-bestanden. De juistheid verbeterde nauwelijks. In 80% van de gevallen waar de agent het fout had, zat het goede antwoord gewoon in die queries. Hij kon het alleen niet vinden. Het knelpunt was niet toegang tot data, maar structuur.

In het experiment bij de medische kliniek werd het model nooit gewisseld. De juistheid steeg van 0% naar 92% puur door betere context. Het model is zelden het knelpunt.

In alle drie de gevallen bleek hetzelfde probleem: de agent had niet méér informatie nodig, maar betere informatie en structuur.

Niet vijftig tabellen die allemaal iets met “omzet” doen, maar één plek waarvan iedereen weet dat dat de bron is. Duidelijk eigenaarschap, gedocumenteerde definities, heldere keuzes over wat erin zit en wat niet. Dit is geen nieuwe les: het is precies wat je ook nodig hebt voor betrouwbare dashboards. Een AI-agent maakt het alleen zichtbaarder als het niet klopt.

Een semantic layer helpt. In Power BI zit die expliciet in het semantic model. In andere platformen bestaat hetzelfde principe onder andere namen, bijvoorbeeld via gecureerde datasets, businesslogica en centrale definities. Dat lost de onduidelijkheid op metric-niveau op. Maar een agent heeft meer nodig: hij moet weten welke databronnen hij moet raadplegen, wat de valkuilen zijn, en hoe hij een vage vraag moet verduidelijken. Die context zit niet in je semantic model.

Anthropic bouwt die context in handmatig opgestelde instructiedocumenten die ze “skills” noemen. ChatGPT heeft hetzelfde concept onder de naam “GPTs”, in Gemini heten ze “gems”. Zonder die laag haalde hun agent slechts 21% juiste antwoorden. Met goed opgezette skills: boven de 95%.

De kennis die daarin moet staan, is vakkennis die je niet zomaar opschrijft. Het zit in het hoofd van de mensen die al jaren met die data werken: waarom een bepaalde tabel er is, welke filters altijd gelden, welke uitzonderingen ooit zijn ingebouwd na een pijnlijke fout. Die mensen zijn niet de data engineers, maar de analisten en domeinexperts. En zij zijn ook de enigen die kunnen beoordelen of een antwoord inhoudelijk klopt; domeinkennis is het echte onderscheid.

Anthropic zag de juistheid dalen van 95% naar 65% binnen één maand nadat ze stopten met onderhoud van de agent. De reden is tweeledig. Tabellen worden hernoemd, definities verschuiven, nieuwe bronnen komen erbij en de context waarop een analytics agent vertrouwt verandert voortdurend: de instructiedocumenten worden dan langzaam onjuist. Maar het gaat ook de andere kant op: je lost een bug op in je datamodel, je voegt een betere filter toe, en dan staat de workaround die je eerder had gedocumenteerd er nog steeds in. De agent past die dan onnodig toe, of doet iets wat nu juist fout is.

Anthropic ziet hetzelfde patroon dat je bij elk dataproject ziet: de bouw krijgt aandacht en budget, het beheer daarna niet. Bij een dashboard merk je het als iemand klaagt dat de cijfers niet kloppen. Bij een AI-agent merkt niemand het, want die blijft gewoon antwoorden geven.

Een handvol goed gedocumenteerde datasets, een paar tientallen testcases en een eenvoudige instructielaag leveren al het grootste deel van de winst op. Maar beantwoord eerst drie vragen eerlijk: is je datamodel goed genoeg gedocumenteerd om een agent er zonder begeleiding in te laten navigeren? Is er iemand die de instructiedocumenten bijhoudt als er iets verandert? En heb je domeinexperts die bereid zijn hun kennis op te schrijven, en die kunnen beoordelen of de antwoorden kloppen?

Als het antwoord op een van die vragen “eigenlijk niet” is, is dat geen reden om te stoppen. Het is wel een reden om daar eerst aan te werken.

Benieuwd of jouw datafundament klaar is voor AI analytics? We denken graag met je mee.

Barry Harmsen, oprichter van Bitmetric en auteur van QlikView for Developers
AI Data Governance Data Management Power BI Qlik

Hoe kunnen we je ondersteunen?

Barry beschikt over meer dan 20 jaar ervaring als architect, developer, trainer en auteur op het gebied van Data & Analytics. Hij is bereid om je te helpen met al je vragen.