
Bij Bitmetric bouwen wij oplossingen waarmee je eenvoudig (en leuk!) inzicht krijgt in alle aspecten van jouw business. Klinkt goed, maar dat neem je natuurlijk niet zomaar aan, dat wil je ook écht eens zien.
“Kun je wat laten zien?” is dan ook een vraag die wij vaak krijgen van potentiële opdrachtgevers. Enerzijds een prachtige kans om al het moois dat wij gebouwd hebben te showen! Anderzijds zijn onze klantprojecten vertrouwelijk, en dat nemen wij zéér serieus. Het tonen van oplossingen van bestaande klanten is voor ons dus absoluut geen optie. Wat dat betreft hebben fotografen en webdesigners het maar makkelijk…
OK, wat kun je dan wel laten zien?
Nou, toch best wel wat! Op de site van Qlik is een uitgebreide reeks QlikView en Qlik Sense demo’s te vinden voor een grote hoeveelheid bedrijfstakken en -functies. Deze demo’s geven een prima indruk van de functionaliteit en kracht van Qlik, maar hebben echter niet de ‘signatuur’ die ons werk kenmerkt. Vandaar dat wij sinds enige tijd een eigen serie demonstraties hebben gebouwd, op basis van Open Data en over zaken die wij zelf ook interessant vinden. Eén van deze demonstraties is de RDW Demo.
De RDW Demo
In Nederland regelt de Rijksdienst Wegverkeer (RDW) onder andere kentekenregistraties van voertuigen. Een gedeelte van de verzamelde gegevens stelt de RDW beschikbaar als Open Data. Wanneer auto’s je interesse hebben dan bevat deze dataset een schat aan informatie. Van kenteken, merk, type en registratiedatum tot vermogen, CO2 uitstoot en terugroepacties.
Op basis van de RDW Open Data set hebben wij een demo gebouwd, met de volgende doelstellingen:
- De mogelijkheden en flexibiliteit van QlikView demonstreren;
- De mogelijkheden van NPrinting en NPrinting On-Demand tonen;
- De mogelijkheden van custom integraties demonstreren.
De complete oplossing wordt verderop beschreven, maar eerst een plaatje, we willen tenslotte ook wel wat zien:
Bovenstaande afbeelding toont het overzicht voor een enkel kenteken. Naast modelinformatie wordt hier ook aanverwante informatie getoond, bijvoorbeeld registratiedatum, keuringsinformatie, eventuele defecten, etc. Tevens worden voertuigen getoond die ongeveer gelijkwaardig zijn qua vermogen, gewicht, wielbasis en leeftijd. Daarnaast wordt (dynamisch) een juiste afbeelding van het voertuig gezocht. Middels NPrinting On-Demand kan alle informatie in een overzichtelijk PDF rapport worden gedownload.
Analyses
Naast individuele kentekens kunnen natuurlijk ook analyses over de gehele dataset worden uitgevoerd. Hierbij kan op ieder facet worden gefilterd en gesegmenteerd.
Bijvoorbeeld: “Hoeveel volledig electrische voertuigen zijn er geregistreerd?” (Antwoord: 10.524) En: “Zit electrisch rijden in de lift?” (oordeel zelf)
Of: “Hoeveel Porsches rijden er in Nederland rond?” (Antwoord: 34.868) En: “Wat zijn de 10 meest populaire versies?”
Ook Triviant-waardige vragen als “Is een Ferrari zeldzamer dan een Lada?” zijn te beantwoorden. (Antwoord: Nee, er zijn twee keer zoveel Ferrari’s als Lada’s in Nederland) Of, “Wat zijn op basis van vermogen, gewicht en afmetingen de méést gemiddelde auto’s van Nederland?”
Kortom, voor iedereen zit er wel iets interessants tussen, en met QlikView zijn deze inzichten ook voor iedereen gemakkelijk en snel naar voren te halen.
Twitter integratie
Omdat wij de willekeurige ‘weetjes’ die naar voren kwamen best grappig vonden en de QlikView applicatie (helaas) niet publiekelijk toegankelijk is, is er ook een Twitter integratie gebouwd.
Hiervoor hebben wij een nieuw Twitter account geopend: RDWeetjes. Met behulp van NPrinting worden dagelijks automatisch 200 actuele weetjes gegenereerd. Uit deze collectie worden vervolgens iedere dag willekeurig circa 12 stuks automatisch geplaatst op onze Twitter feed. Hieronder zie je de laatste 3 tweets.
De Twitter feed is sinds maart 2016 actief en het aantal volgers, reacties en retweets stijgt gestaag. Regelmatig krijgen wij verzoekjes van mede-petrolheads die op zoek zijn naar statistieken over hun favoriete merk of type. Ook enkele journalisten en onderzoekers hebbens ons inmiddels gevonden. Niet verkeerd als een ‘demo’ dit soort respons oproept!
Onder de motorkap
Hoe ziet deze oplossing er ‘onder de motorkap’ uit? Hieronder zie je een schematische weergave.
Het begint met de Open Data van de RDW. Deze is eenmalig compleet opgehaald via de beschikbare API en opgeslagen in een database. Daarna worden dagelijks alleen de wijzigingen opgehaald. Hiervan wordt een volledige historie bijgehouden (voor de kenners, slowly changing dimensions type 2). Sommige informatie, zoals aantal overschrijvingen, wordt niet door de RDW meegeleverd, maar kan op basis van de historie (vanaf eind 2016) toch worden achterhaald. Ook kunnen voertuigen die gesloopt of geëxporteerd zijn worden geïdentificeerd.
Wij wilden graag van ieder voertuig een afbeelding hebben. Handmatig deze afbeeldingen toevoegen is geen optie; er zijn letterlijk honderdduizenden combinaties van merk, type en bouwjaar. Wij hebben natuurlijk wel wat beters te doen (mooie dingen maken!). Daarom is gekozen om de afbeeldingen automatisch op te zoeken met behulp van de Bing Search API. Tot 5.000 verzoeken is deze API gratis te gebruiken. De afbeeldingen worden daarom ‘just in time’ opgehaald en lokaal in de cache opgeslagen. Hiervoor hebben wij een webservice gebouwd in Python.
De front-end visualisaties zijn gebouwd in QlikView (en binnenkort ook Qlik Sense). Hiermee is het mogelijk om snel (want in-memory) en flexibel de data te visualiseren en analyseren. In het geheugen neemt de totale dataset zo’n 4 ~ 5GB in beslag. De QlikView applicatie is via een web browser te benaderen, maar helaas slechts voor een beperkte groep mensen. (wellicht zetten wij hier in de toekomst nog een andere front-end op, het is toch wel een leuke toepassing)
De statische rapportages worden gegenereerd door NPrinting. Hiermee is het in de QlikView applicatie ook mogelijk om via de NPrinting On-Demand extensie en webservice rapportages op de vragen op basis van de huidige selecties. Bijvoorbeeld het eerder genoemde voertuigrapport.
NPrinting wordt ook gebruikt om dagelijks een lijst van circa 200 willekeurige weetjes en afbeeldingen uit de QlikView front-end op te halen. Uit deze verzameling worden dagelijks circa 12 weetjes door middel van een Python script naar Twitter gepubliceerd.
Datakwaliteit
Slechts weinig databronnen zijn perfect. Daarom zijn wij ook zo te spreken over Qlik; met relatief gemak krijg je inzicht in de lacunes van je brondata. Onze visie op datakwaliteit volgt in een latere blog post, maar een paar van de opmerkelijkste bevindingen uit de RDW dataset willen wij je niet onthouden:
Vreemd vermogen
Een Ford Mondeo met 7.500 kW vermogen (dat is ruim 10.000 pk!), een ware wolf in schaapskleren of een niet-optimale datakwaliteit? Wij gokken op dat laatste, ook voor de andere auto’s in deze top 5.

Uitstekende wegligging
Oldtimers zijn leuk! Daarnaast zijn ze, indien 40 jaar of ouder, ook vrij van wegenbelasting. Dat is voor de eigenaar van deze Willys Jeep (en de andere voertuigen in de top 12) maar goed ook, want deze auto’s wegen volgens de registratie ruim 32.000 kg!

Tijdmachines
Wij dachten dat alleen Deloreans door de tijd kunnen reizen, maar deze Cadillac Fleetwood kan dit blijkbaar ook. In 1905 voor het eerst geregistreerd, ruim 20 jaar voordat Cadillac begon met de productie van dit model!

En wat te denken van een tijdreis-Saab 99 uit 1942?

Over het algemeen is de datakwaliteit van de RDW Open Data set overigens prima op orde. Een ‘hat tip’ naar de RDW voor het beschikbaar stellen van al deze interessante data!
Eens verder praten?
Zoals aan het begin gezegd heeft deze blog post meerdere doelgroepen. Mocht je om wat voor reden dan ook, van “Wat kunnen jullie met mijn data?” tot “Hoeveel Golf 1 GTI’s rijden er nog rond?”, eens verder willen praten: Wij horen wij graag van je!