Waarom AI niet neutraal is: bias #3

Hoe 'feature selection' kan resulteren in discriminatie

In de werving en selectie van personeel levert de combinatie van algoritmes en data mining, vijf mechanismen¹ op die disproportioneel bepaalde groepen in de samenleving kunnen benadelen. Het gebruik van data mining en algoritmes kan dus (onbedoeld) leiden tot discriminatie bij de werving en selectie van personeel. In meerdere artikelen worden deze vijf mechanismen apart behandeld, geïllustreerd met voorbeelden uit de praktijk. Vandaag de derde in deze serie, waarbij wederom de menselijke rol aan bod komt: feature selection. Oftewel de kenmerken die een organisatie selecteert om het algoritme te laten uitzoeken.

Als je algoritmes wil gebruiken om iets automatisch te voorspellen, moet je de wereld vereenvoudigen om het in programmeertaal te kunnen vastleggen. Want data moeten een patroonmatig beeld kunnen tonen, wat erg lastig is bij het gebruik van complexe data. Vereenvoudiging van de data is bijvoorbeeld: wil je een slimme kandidaat - neem iemand met een universitair diploma. Je kunt een algoritme tenslotte niet ieders IQ laten achterhalen. Organisaties maken dus keuzes over welke indicatoren ze opnemen in hun algoritmische analyses. Dit keuzeproces wordt ‘feature selection’ genoemd. Denk hierbij ook aan het eerdere artikel uit deze reeks waar het het vinden van een ‘goede werknemer’ werd besproken. Nadat is bepaald wat de eigenschappen van zo’n ‘goede werknemer’ zijn, moet worden gekozen hoe deze eigenschappen gevonden kunnen worden in een dataset.

Uitgebreide analyse te duur

Bij ‘feature selection´ kiezen bedrijven vaak voor kenmerken die redelijk voor het grijpen liggen. Informatie die veel gedetailleerder is – en daarmee kwalitatief beter – is moeilijker te verkrijgen én meestal erg duur. Zelfs pogingen tot minimale verbeteringen in de nauwkeurigheid van het zoekproces kunnen aanzienlijke kosten met zich meebrengen. Stel dat een organisatie wil laten voorspellen welke sollicitanten goede werknemers zullen zijn. Het is niet realistisch, en bovendien heel erg kostbaar, voor een AI-systeem om elke kandidaat afzonderlijk volledig te analyseren ten opzichte van elke mogelijke indicator en op die manier bijvoorbeeld een IQ te ontrafelen. Een organisatie zal daarom focussen op slechts enkele specifieke kenmerken bij elke kandidaat. En dat brengt risico’s met zich mee.

...een organisatie zal zich daarom focussen op slechts enkele specifieke kenmerken van alle kandidaten...

Een praktijkvoorbeeld

Hoe werkt dit in de praktijk? Door slechts een paar indicatoren te selecteren kan een bias ontstaan en kunnen bepaalde groepen onbedoeld buitengesloten worden. Neem het volgende voorbeeld: werkgevers zien opleidingsniveau vaak als een belangrijke eigenschap voor een ‘goede werknemer’. Veel Amerikaanse werkgevers nemen dan ook academische kwalificaties mee in hun overwegingen tijdens het aannemen van personeel. Zij willen uitstekend opgeleide mensen en hechten daarom veel waarde aan de reputatie van de universiteit waar de kandidaat aan heeft gestudeerd -- ook al vertellen zulke reputaties weinig over de kandidaat zelf en zijn/haar werk-gerelateerde vaardigheden en competenties. Toegelaten worden tot zulke universiteiten vereist vaak een flinke portemonnee. Het is daardoor voor sommige etnische groepen relatief zeldzaam om te studeren aan die dure universiteiten. Wanneer werkgevers enkel studenten overwegen van zulke hoog aangeschreven universiteiten, discrimineren zij dus indirect.
Bedrijven hebben dus gegronde redenen om naar meer eigenschappen te kijken dan alleen academische kwalificaties, maar omdat deze informatie gratis beschikbaar is, nemen zij daar toch genoegen mee. Dat hiermee alle overige kandidaten, en hele groepen mensen, buitengesloten worden is een rationele keus: er wordt geld bespaard, en ze weten dat de overwogen kandidaten uitstekende capaciteiten en kennis hebben ontwikkeld. Overige vaardigheden zullen vervolgens mooi meegenomen zijn.

Rationele discriminatie

Deze zogenoemde rationele discriminatie is slechts een onderdeel van een groter fenomeen: een waarin vooral etniciteit expliciet in overwegingen mee wordt genomen. Zonder een negatief vooroordeel te hebben over bepaalde groepen, nemen keuzemakers groepslidmaatschap (zoals etniciteit) soms bewust mee in hun overwegingen. Dit doen ze omdat dat relevante informatie lijkt te geven die anders moeilijk of onmogelijk is te verkrijgen.
Op deze manier kan discriminatie enkel het resultaat zijn van een tekort aan informatie, en is geen sprake van discriminatie op basis van daadwerkelijke vooroordelen. Professor Lior Strahilevitz² geeft aan dat wanneer werkgevers bijvoorbeeld beperkt toegang hebben tot criminele registers, ze etniciteit kunnen overwegen bij het beoordelen van de kans dat een kandidaat een strafblad heeft. Dat doen ze omdat er statistische verschillen zijn tussen etnische groepen in het aantal criminele veroordelingen. Met andere woorden, werkgevers vallen terug op direct verkrijgbare en onnauwkeurige data wanneer zij geen toegang hebben tot meer specifieke, of verifieerbare informatie.

Kortom, organisaties kunnen discriminerende situaties creëren door het selecteren van de indicatoren die een algoritme gebruikt om te voorspellen wie de beste kandidaat is. Omdat algoritmes een vereenvoudigde wereld vereisen, kunnen biases ontstaan. Die ontstaan door gebrek aan betere alternatieven; het vinden en toepassen van meer gedetailleerde data is extreem duur, of er is sprake van een gebrek aan verifieerbare informatie. Hierdoor ontstaat een situatie waarin het een bewuste keuze wordt om sommige groepen uit te sluiten, zonder dat de werkgever vooroordelen heeft over die groepen. Werkgevers gaan, bij gebrek aan beter, enkel en alleen af op de statistieken.

Waarom AI niet neutraal is: bias #3

Hoe 'feature selection' kan resulteren in discriminatie

Uitgebreide analyse te duur

Een praktijkvoorbeeld

Rationele discriminatie

Thema's

Onderwerpen