Waarom AI niet neutraal is: bias #4 proxies

Hoe proxies kunnen resulteren in discriminatie

In de werving en selectie van personeel levert de combinatie van algoritmes en data mining, vijf mechanismen¹ op die disproportioneel bepaalde groepen in de samenleving kunnen benadelen. Het gebruik van data mining en algoritmes kan (onbedoeld) leiden tot discriminatie bij de werving en selectie van personeel. Waar we het vorige week hebben gehad over ‘feature selection’ gaan we dit keer aan de slag met het mechanisme dat het meest te maken heeft met de zelfstandige beslissingsprocessen van algoritmes. Bij voorgaande mechanismen hadden we het vaak nog over menselijk toedoen, hier is dat veel minder het geval. We gaan het hebben over het vierde mechanisme: ‘proxies’.

Wat zijn proxies? Proxies zijn cijfers die correlaties aanduiden tussen bepaalde concepten, waardoor ze dienen als een soort voorspellers. Blond haar dient bijvoorbeeld als een proxy voor een blank huidtype. Aan de hand van zulke correlaties worden mensen door algoritmes ingedeeld in groepen. Criteria die mensen sorteren op baangeschiktheid, kunnen diezelfde mensen sorteren op bijvoorbeeld groepslidmaatschap. Dit heeft alles te maken met de intelligentie van AI. Doel van het gebruik van algoritmes is om patronen te herkennen. Algoritmes pogen dan ook tot het leggen van zo veel mogelijk links tussen verschillende concepten. Dit blijkt echter soms te leiden tot biases in het keuzeproces, die zelfs van discriminerend karakter kunnen zijn.

Patronen en conclusies

Het probleem komt voort uit wat onderzoekers ‘redundant encodings’ (overtollige coderingen) noemen. Er is sprake van redundant encodings wanneer relevante informatie voor een bepaalde keuze onverwacht zo gecodeerd is dat deze ook lidmaatschap van bepaalde groepen kan aanduiden. Dit komt voor wanneer een bepaald kenmerk, of bepaalde waarden voor dat kenmerk, in een dataset sterk gecorreleerd zijn met het lidmaatschap van een bepaalde groep. Ter illustratie: een dataset die geen expliciete gegevens over seksuele geaardheid van mensen bevat, kan nog steeds informatie geven over de seksuele geaardheid van die mensen, onthulde een onderzoek.²Bij analyse van vriendschappen op Facebook bleken die vriendschappen te verklappen wie homoseksueel was en wie niet, zonder dat de onderzochte personen informatie hadden ingevuld over hun geaardheid. Algoritmes blijken dus in staat om patronen te herkennen, en conclusies te trekken, zonder dat de dataset daar expliciete informatie over hoeft te bevatten. Dat het algoritme zulke patronen ontdekt, kan er vervolgens in resulteren dat het algoritme - geheel onbedoeld - de nieuw verzamelde informatie meeneemt in het keuzeproces.

Discriminatie zonder vooroordelen

Het proxy-probleem zorgt ervoor dat data-mining in staat is om patronen te onthullen waaruit blijkt dat bepaalde groepen gemiddeld slechtere prestaties, vaardigheden of capaciteiten vertonen. Wanneer zulke prestaties/vaardigheden/capaciteiten relevant zijn voor de te maken keuze, zullen dergelijke keuzes noodzakelijkerwijs leiden tot systematisch minder gunstige beslissingen voor leden van die groepen. Het heeft hier weinig te maken met vooroordelen. Beslissers hebben niet de intentie mensen ongelijk te behandelen. Zij baseren hun keuzes op basis van één enkele prioriteit: winst maken. Om zulke redenen kun je een bedrijf niet scheef aankijken; zonder winst geen goed-lopend bedrijf. Toch kan die reden wel de oorzaak zijn van het creëren van ongelijkheid, of het reproduceren van ongelijkheid zoals we die al kennen in onze samenleving; denk aan verschillen tussen leeftijden, etniciteit en geslacht.

Een voorbeeld uit de praktijk

Een goed voorbeeld werd aangehaald door Kathy O’Neil in haar boek ‘Weapons of Math Destruction’: een algoritme dat door een Engels bedrijf in het recruitment proces werd gebruikt, was geprogrammeerd om gebruik te maken van de criteria die het bedrijf in het verleden ook had gebruikt om personeel aan te nemen. De toepassing van deze criteria had in het verleden geresulteerd in de afwijzing van kandidaten wier bekwaamheid in het Engels slecht was; vaak mensen met een buitenlandse achtergrond. Dit resulteerde erin dat het algoritme ‘leerde’ dat ‘Engelse’ namen over het algemeen geassocieerd werden met goede kwalificaties, terwijl ‘buitenlandse’ namen dat niet werden. ‘Buitenlandse’ namen dienden hiermee als proxy voor slechte bekwaamheid in de Engelse taal. Het algoritme wees zulke namen daarom af. Discriminatie op basis van naam komt vaker in het nieuws, en blijkt dus niet te voorkomen door het gebruik van, op voorhand neutrale, algoritmes.

‘The black box’ als grootste zorg

Wat kunnen we eraan doen? Het proxy-probleem blijkt er een die moeilijk is op te lossen. Barocase en Selbst gaven aan dat computerwetenschappers niet weten hoe om te gaan met de ‘redundant encodings’ in datasets. Want door eenvoudigweg deze variabelen uit de datamining-oefening te verwijderen, worden ook vaak de criteria verwijderd die aantoonbare en gerechtvaardigde relevantie hebben.
Maar verwijder je ze niet? Dan zullen de algoritmes blijven doordenken en keer op keer nieuwe patronen blijven ontdekken. Op die manier zullen telkens meer verbanden worden gelegd tussen eigenschappen en lidmaatschap van bepaalde groepen. Hoe de algoritmes zulke links leggen is voor het menselijk oog vaak nog moeilijk te volgen. Daarbij wordt dan ook regelmatig gesproken van ‘the black box’. Deze ‘black box’ lijkt momenteel de grootste zorg omtrent de algoritmisering van de samenleving. Op het evenement ‘Nederland Digitaal’ van 21 maart jongstleden, sprak men over de grote afhankelijkheid van algoritmische systemen, veroorzaakt door deze ‘black box’. Organisaties graven naar zo veel mogelijk kennis om hun bedrijven zo winstgevend mogelijk te maken. Tegelijkertijd weten werkgevers in veel gevallen niet meer hoe zo’n algoritme aan zijn kennis komt (en: data is niet hetzelfde als kennis!). Des te meer we dus willen weten, des te minder we nog kunnen volgen hoe kennis tot stand komt. We worden daarmee steeds afhankelijker van het systeem. Dat maakt het des te lastiger biases te voorkomen.

Cookie Control