Waarom AI niet neutraal is: bias #2

Hoe kunnen trainingsdata leiden tot discriminatie?

In de werving en selectie van personeel levert de combinatie van algoritmes en data mining, vijf mechanismen¹ op die disproportioneel bepaalde groepen in de samenleving kunnen benadelen. Het gebruik van data mining en algoritmes kan dus (onbedoeld) leiden tot discriminatie bij de werving en selectie van personeel. In meerdere artikelen worden deze vijf mechanismen apart behandeld, geïllustreerd met voorbeelden uit de praktijk. Vandaag de tweede in deze serie: trainingsdata. Het gaat daarbij voornamelijk over de kwaliteit van de informatie die je aan een algoritme geeft. Van de vijf mechanismen is dit misschien wel hét belangrijkste aspect om bewust van te zijn.

In data mining wordt geleerd van voorbeelden. Wat een algoritme leert, hangt af van de ‘trainingsdata’ waaraan het is blootgesteld. Deze gegevens trainen het algoritme om zich op een bepaalde manier te gedragen. De kwaliteit en waarde (en neutraliteit) van de ingevoerde data is hierbij dus essentieel. Dit valt onder te verdelen in twee categorieën: ‘labelling examples’ en ‘data collection’.

Garbage in, garbage out

Er is een oud gezegde in de computerwetenschappen: ‘garbage in, garbage out’. Het draait er bij ‘labelling examples’ om hoe er voorheen keuzes zijn gemaakt - indien er eerder foutieve of onbetrouwbare data is gebruikt voor bepaalde beslissingen, zal het algoritme de vooroordelen van deze voorbeelden reproduceren. Data mining beschouwt de trainingsdata tenslotte als waarheid / feiten; het algoritme zal bij onjuiste data resultaten opleveren die onbetrouwbaar, en in het slechtste geval discriminerend, zijn.

Onder- en oververtegenwoordiging

Wanneer data mining conclusies trekt uit de gegevens van een slecht samengestelde steekproef, dan kan elke beslissing systematisch nadelig zijn voor degenen die onder- of oververtegenwoordigd waren in die steekproef. De gegevens van bepaalde bevolkingsgroepen zijn dan niet accuraat of representatief. Zo kunnen bepaalde groepen of mensen worden ondervertegenwoordigd, of zelfs over het hoofd gezien.

Ondervertegenwoordiging is iets waar veel onderzoekers zich zorgen over maken. Het systematische uitsluiten van mensen die leven op de rand van de ‘big data’ samenleving, zorgt ervoor dat hun leven minder ‘datafied’ is dan dat van de rest van de samenleving – er worden simpelweg systematisch minder gegevens over deze groepen verzameld. Dit heeft oorzaken als armoede, geografische ligging en levensstijl. Het gevolg is dat deze groepen systematisch zijn ondervertegenwoordigd. Dit probleem van ondervertegenwoordiging doet zich ook in grote mate voor bij historisch achtergestelde groepen, omdat zij minder betrokken zijn bij de formele economie en ongelijke toegang hebben (gehad) tot technologie, onderwijs of andere faciliteiten. Deze tekortkomingen hebben dus zowel invloed op de kwaliteit van de data als op onder/oververtegenwoordiging van groepen mensen in datasets. Bij het analyseren van zulke slecht samengestelde datasets liggen foutieve conclusies en discriminatie op de loer.

Voorbeelden uit de praktijk

Het onderwerp ‘trainingsdata’ biedt ontzettend veel voorbeelden wat betreft (onbedoelde) discriminatie. Van de vijf mechanismen genoemd door wetenschappers Barocas en Selbst is dit dan ook veruit het belangrijkste aspect om bewust van te zijn. Een paar voorbeelden:

Labelling examples: Het St. George’s ziekenhuis in het Verenigd Koninkrijk had een computerprogramma ontwikkeld om aanmeldingen voor hun medische school te sorteren op basis van eerdere beslissingen over toelatingen. Die eerdere beslissingen bleken echter systematisch aanmeldingen afgekeurd te hebben van vrouwen en etnische minderheden, terwijl zij op papier even geschikt waren. Door te leren van de bestaande data leerde het computerprogramma zichzelf dezelfde ‘regels’ aan - door het toelatingsproces te automatiseren werden de oude vooroordelen dus systematisch herhaald, wat de carrièrevooruitzichten voor vrouwen en etnische minderheden systematisch negatief beïnvloedde. De rest werd ondertussen (onbewust) voorgetrokken.
Data collection: Amazon haalde recentelijk het nieuws met hun selectie-algoritme dat bleek te discrimineren op basis van geslacht. Amazon was geïnteresseerd in het aannemen van werknemers die dezelfde kwaliteiten bezaten als hun meest succesvolle werknemers van de afgelopen 10 jaar – zij gebruikten daarvoor hun eigen bedrijfsgegevens van tien voorgaande jaren. Maar omdat in die periode de meeste sollicitaties van mannen kwamen, werden met het gebruik van het selectie-algoritme ook voornamelijk mannen aangenomen. Een helder voorbeeld van een ondervertegenwoordiging van vrouwen in de dataset. Op basis van deze ondervertegenwoordiging leerde het algoritme zichzelf dat het mannelijk geslacht vele malen succesvoller was. Het besloot daarom mannen de voorkeur te geven. Amazon haalde vervolgens de stekker uit het discriminerende systeem.

Een tweede actueel voorbeeld waarbij datacollectie tot verkeerde, of oneerlijke, resultaten leidt. Er zijn bijvoorbeeld meerdere websites die potentiële werknemers aanbevelen aan werkgevers, zoals LinkedIn doet via zijn Talent Match-functie. Daarin doet LinkedIn aanbevelingen aan bedrijven, gebaseerd op hun interesses uit zakelijk perspectief. LinkedIn baseert zich daarbij onder andere op zoekopdrachten van die bedrijven, maar daarbij hebben de bedrijven wellicht (onbedoeld) preferenties getoond voor bepaalde eigenschappen. Als LinkedIn kandidaten aandraagt op basis van die informatie, biedt Talent Match aanbevelingen die de voorkeuren weerspiegelen die de bedrijven, wellicht onbewust, vertonen. Zonder dat je het als kandidaat doorhebt, word jij dus misschien minder getoond aan werkgevers dan anderen. Waarmee jouw kansen op (nieuw) werk zijn verkleind.

Het is dan ook aan de mens de taak om secuur om te gaan met ‘big data’ en deze op de juiste manier in te zetten met behulp van algoritmes - en hiervan bewust te zijn. Wat je erin stopt, komt eruit.