Det er ikke nogen ny problematik - machine learning og automatiserede systemer til at generere tekst og analyser af store tekstmængder i forskellige sammenhænge er flere gange blevet kritiseret for at indeholde bias og skabe skarpe profileringer af forskellige grupper, hvor f.eks. sorte i langt højere grad end hvide profileres som potentielle forbrydere.
Men nu viser en undersøgelse fra to amerikanske professorer, at bias også er en signifikant faktor, når man træner algoritmer til at lave billede- og ansigtsgenkendelse. Hvad der er særligt bemærkelsesværdigt er dog, at undersøgelsen viser tegn på, at bias allerede sker i de enorme datasæt, som algoritmerne fodres med, og altså ikke opstår som en løbende tillæring baseret på data opsamlet online.
Problematikken kan umiddelbart virke lidt forvirrende. Men kernen af problemet er, at undersøgelsen viser, at internettet har så stor en overrepræsentation af stereotyper, at hvis man fodrer en maskine med billeder af en kvinde, der er beskåret fra halsen og ned, så vil den i 53 % af tilfældene autogenerere en krop i bikini. Laver du samme øvelse med en mand, så vil den i 43 % af gangene autogenerere en krop i jakkesæt og slips. F.eks. prøvede forskerne eksemplet med det demokratisk medlem af kongressen i USA Alexandra Ocasio-Cortez.
Afstanden mellem 'kvinde' og 'karriere'
Undersøgelsen er foretaget af ph.d. Ryan Steed og professor Aylin Caliskan, der har testet to algoritmer indenfor ansigts- og billedegenkendelse - OpenAI's GPT og Googles SimCLR. Begge systemer gør sig bemærket ved ikke at have menneskelig supervision i forhold til at kategorisere datasættene - det sker automatisk.
Og det er skræmmende læsning - før i tiden har man primært benyttet sig af menneskeligt superviseret læring af algoritmerne. Billeder af katte fik tagget 'kat', og babybilleder fik tagget 'baby' osv.
Men i de nye systemer, viser undersøgelsen, at der i de automatiserede mærkninger af indhold sniger sig bias ind i maskinernes forståelser af datasættene. Algoritmerne, der sendes i byen på det store internet og skal skrabe alt til sig for at skabe det bredest mulige datasæt, fødes med nogle bekymrende mønstre i den automatiserede kategorisering af indhold.
De nye algoritmer fungerer ved, at de opdeler pixels i forskellige typer billeder i 'clusters'. På den måde kan maskinen analysere, hvor tæt eller hvor langt fra hinanden to billeder er ud fra en matematisk formel og derigennem skabe clusters, der så kan bruges som direkte output til at lave billedegenkendelse.
Undersøgelsen viser, at billeder af mænd og jakkesæt oftere hænger sammen end kvinder og jakkesæt.
Bekymrende udvikling
Men hvad betyder det så? Ifølge de to forskere viser deres undersøgelse, at det kan få store konsekvenser fremadrettet for ligestillingen og for basale menneskerettigheder.
De hæfter sig særligt ved, at flere virksomheder er begyndt at implementere automatiserede systemer i forbindelse med rekruttering, hvor algoritmer hjælper HR-afdelingen med at sortere i et stort ansøgerfelt, hvor flere og flere sender videoansøgninger. Forskerne frygter, at man i denne proces risikerer at profilere ansøgerne, så maskinen, uden virksomhedens kendskab, sorterer forskellige grupper fra baseret på billedet.
Men også i forbindelse med opklaringsarbejde hos politiet. Her frygter Steed og Caliskan, at algoritmernes indbyggede bias kan skabe en endnu højere grad af stigmatisering over for f.eks. sorte, der statistisk set er overrepræsenteret i kriminalitetsstatistikkerne i USA. F.eks. i diskussionen om 'precrime'-teknologi, der flere gange har vist, at systemerne, der skal forudse, hvilke individer der potentielt kunne udøve kriminalitet næste gange, profilerer mennesker ud fra race og køn og altså kritiseres for at være biased. Godt fortalt gennem dokumentaren PreCrime fra 2017.
De forskere kalder nu på større transparens fra de virksomheder, der udvikler de smarte systemer, ligesom virksomheder, der implementerer disse systemer, tester dem i langt højere grad inden launch.
Ellers vil vi opleve en verden, hvor det er endnu mere ubehagelig at være kvinde, siger klummeskribenten Arwa Mahdawi fra The Guardian:
"A computer-generated AOC in a bikini is just the tip of the iceberg: unless we start talking about algorithmic bias, the internet is going to become an unbearable place to be a woman."