Intelligence Artificielle : la diversité au secours des algorithmes.

Dr. Valérie Morignat. CEO et fondatrice de la société Intelligent Story, (San Francisco). Maître de Conférences en Cinéma et Arts Numériques en disponibilité de l’Université Montpellier III. Experte certifiée par le MIT en Stratégie de l’IA et Machine Learning. Co-fondatrice de la revue AI & Ethics (Springer).

L’Intelligence Artificielle serait la technologie du salut par excellence, soulageant l’humanité de ses maux par la vertu des algorithmes. Pourtant, si elle inonde le monde d’une lumière nouvelle, l’IA en projette également les ombres. Sous couvert d’objectivité et de neutralité mathématiques, les prédictions algorithmiques sont parfois biaisées et renforcent les inégalités. En dépit d’incontestables avancées, l’IA hérite de nos humains défauts. Discrimination raciale, misogynie, exclusion, élitisme socioéconomique, hégémonie culturelle, les travers humains s’infiltrent dans les prédictions algorithmiques.
De toute évidence, aucun homologue artificiel ne saurait à lui seul guérir le monde. Une approche éthique du design des algorithmes, centrée sur la représentation des diversités et l’intégration des valeurs humaines, peut en revanche faire de l’IA l’alliée d’un présent éclairé et d’un futur juste. En 2020, l’éthique est devenue le système nerveux de l’Intelligence Artificielle.

L’IA : une intelligence mathématique appliquée aux problèmes du monde réel.

Mais qu’appelle-t-on exactement “Intelligence Artificielle” ? A l’origine, l’IA est un défi — celui d’émuler l’intelligence humaine dans les machines. Aujourd’hui, elle désigne un ensemble de technologies et de méthodes qui facilitent la découverte et l’analyse des informations, automatisent les processus, améliorent les interactions et la prise de décision basée sur les données. L’apprentissage automatique (Machine Learning), l’apprentissage profond (Deep Learning), les réseaux de neurones artificiels (Neural Nets), la vision par ordinateur (Computer Vision) et le traitement du langage naturel (Natural Language Processing) relèvent tous de l’IA. Ils permettent aux machines d’apprendre à partir de vastes volumes de données et de détecter des patterns parmi la complexité du monde. L’IA est en somme une intelligence mathématique appliquée à la résolution de problèmes. La nature, l’origine, la quantité, la qualité, et la variété des données qui servent à entraîner les algorithmes, jouent donc un rôle décisif dans la performance et l’évolution de l’IA.

Dans certains secteurs spécialisés comme celui de la Santé, l’IA réalise déjà des performances surhumaines. En janvier 2020, Google Health a démontré l’efficacité supérieure de son modèle algorithmique dans le diagnostic du cancer du sein, surpassant l’expertise des meilleurs radiologues. Dans le même registre, en juin 2019, la collaboration de chercheurs du MIT et du Massachusetts General Hospital a donné jour à un modèle capable de prédire le risque de développement d’un cancer du sein sur un horizon de cinq ans. L’algorithme démontre par ailleurs une précision diagnostique égale pour les patientes blanches et les patientes noires. Selon Allison Kurian, Professeure agrégée de médecine et de recherche à la Stanford University School of Medicine, tel n’était pas le cas des outils précédemment utilisés. Entraîné sur la base de 90,000 mammographies provenant d’une grande diversité de patientes, le modèle MIT-MGH s’est démarqué par son équité diagnostique. Une avancée d’autant plus nécessaire que les femmes afro-américaines ont un risque accru de 42% de décéder d’un cancer du sein, principalement du fait de l’héritage de freins structurels et financiers dans l’accès à la prévention et aux traitements.

Parce que l’IA projette une aura de neutralité et d’objectivité, son ADN doit être passé au crible.

Parce que l’IA projette une aura de neutralité et d’objectivité, son ADN doit être passé au crible.
C’est le défi qu’a relevé Joy Buolamwini, doctorante au MIT et fondatrice de l’Algorithmic Justice League, en traquant les biais algorithmiques au sein des systèmes commerciaux d’analyse et de reconnaissance faciales.
Si les deux technologies puisent aux mêmes sources–celles de l’apprentissage profond (Deep Learning) et de la vision par ordinateur (Computer Vision)–, elles poursuivent des buts différents. L’analyse faciale ne vise pas à identifier une personne, mais à réaliser une prédiction quant à son état émotionnel, son état de santé, son âge, ou encore son éthnie. La reconnaissance faciale est identificatrice. Elle opère strictement par comparaison d’un visage avec un autre qui lui préexiste dans une base de données afin d’établir une correspondance identitaire. La probabilité d’identification est considérée comme établie à partir d’un seuil de ressemblance élevé entre les visages comparés (un seuil de 99% est considéré comme fiable).

Alors que ces systèmes sont déjà utilisés dans des secteurs comme la sécurité, la surveillance, l’industrie militaire, le recrutement, ou l’évaluation de la santé mentale, ils ne sont pas exemptes de biais et d’erreurs.
En 2018, Joy Buolamwini a testé des systèmes commerciaux d’analyse faciale et découvert d’importantes disparités éthniques et de genre. Selon Buolamwini, «les femmes à peau foncée sont le groupe le plus mal classé (avec des taux d’erreur allant jusqu’à 34,7%)» tandis que «le taux d’erreur maximal pour les hommes à peau claire est de 0,8%». L’écart de performance résulterait de la composition inégale des ensembles de données démographiques et phénotypiques utilisés pour entraîner les algorithmes. Ces résultats mettent en évidence deux faits conséquents : les groupes démographiques ne sont pas classés avec la même précision et le taux de précision varie d’un développeur à l’autre.

A moins de garantir un seuil de confiance d’au moins 99% dans leurs résultats, de tels systèmes ne devraient pas être utilisés dans des secteurs sensibles où les livertés civiles individuelles sont en jeu. En 2019, en soutien aux travaux de Buolamwini, une coalition de 26 chercheurs, incluant le Dr. Yoshua Bengio, récipiendaire du prestigieux Prix Turing, avait d’ailleurs alerté des conséquences éthiques entraînées par l’usage de la reconnaissance faciale par les forces de l’ordre.

En décembre 2019, une étude fédérale américaine dirigée par le National Institute of Standards and Technology, «a trouvé des preuves empiriques de l’existence d’un large éventail de précisions à travers les différences démographiques dans la majorité des algorithmes actuels de reconnaissance faciale qui ont été évalués» ( NIST). Un total de 18,27 millions d’images de 8,49 millions de personnes provenant de quatre ensembles de données américains ont été traitées par 189 algorithmes commerciaux provenant de 99 développeurs. Les ensembles de données comprenaient des photos d’identité nationales, des photographies de postulants à l’immigration et à l’obtention de visa, et des photographies de passages de frontières. L’étude a conclu que la plupart des algorithmes sur le marché font des erreurs de classification pour les membres de certains groupes jusqu’à 100 fois supérieures à d’autres.
«Les femmes afro-américaines ont été identifiées de manière erronée le plus souvent, tandis que les Asiatiques, les Afro-Américaines, les Amérindiennes et les insulaires du Pacifique ont toutes été identifiées incorrectement lors des recherches individuelles. Les enfants et les personnes âgées ont également été sujets à des erreurs d’identification nettement supérieures. Dans certains cas, les Asiatiques et les Afro-Américains ont été mal identifiés jusqu’à 100 fois plus que les hommes blancs. Les taux de précision les plus élevés étaient généralement observés chez les hommes blancs d’âge moyen » (source: The Verge). Le NIST pointe plusieurs causes dans ces disparités, depuis le manque de diversité démographique jusqu’à à la variation de la qualité des photographies dans les ensembles de données.

En matière de reconnaissance faciale, faux négatifs et faux positifs peuvent entraîner des conséquences délétères. Par l’effet d’un faux positif, un innocent pourrait être pris pour un criminel ou des imposteurs obtenir l’accès à des systèmes et des aires sécurisés. A contrario, un faux négatif pourrait entrâiner l’interdiction d'accès à un visiteur légitime.
En juin 2020, en réaction aux manifestations du mouvement Black Lives Matter aux Etats-Unis, plusieurs géants des technologies ont suspendu la recherche et la commercialisation de leurs systèmes de reconnaissance faciale, tout en insistant quant à la nécessité de mettre en place une gouvernance fédérale permettant d’en encadrer l’usage futur.

La prise de décision humaine demeure la pierre angulaire des performances de l’IA.

Le manque de diversité humaine dans les bases de données n’est pas le seul obstacle à l’équité de performance des algorithmes. L’origine des données et les conditions de leur annotation influe sur la qualité de leur entraînement et de leur apprentissage continu.
Créée en 2009 par des chercheurs des universités de Princeton et Stanford, ImagetNet est la base de données mondiale servant à l’entraînement des algorithmes de reconnaissance visuelle. Les 14 millions d’images de la base ont été annotées via la plateforme de crowdsourcing Mechanical Turk, par une main-d’oeuvre humaine sous-payée, à raison de 50 images par minute et par travailleur. ImageNet s’est faite épingler en septembre 2019 par l’experte en IA Kate Crawford et l’artiste Trevor Paglen. A partir d’ImageNet, Crawford et Paglen ont entraîné le modèle ImageNet Roulette afin de proposer aux internautes de soumettre leur selfie au jeu de la classification. Les selfies se sont vu associés à des étiquettes souvent fantaisistes telles que “bibliothécaire”, “mère supérieure”, “divorcé”, “ancien fumeur”, et parfois discriminantes ou offensantes telles que “loser”, “malfaiteur”, “sexy”, “allumeuse”, “nègre”, ou “bridé”.
ImageNet Roulette révèle la dangerosité de bases données annotées avec des catégories stéréotypées qui contaminent les algorithmes. Depuis, ImageNet a retiré 600,000 images de sa base de données et admis que 438 étiquettes étaient “dangereuses” et 1155 “sensibles et offensantes”.

Grâce à une meilleure gouvernance et à un design de système aligné sur les valeurs éthiques, les algorithmes finiront par devenir moins politiquement imprégnés. Certains préjugés sont toutefois plus pernicieux que d’autres. Dans le secteur de la justice, où les algorithmes évaluent le risque criminel et la récidive, un rapport de Pro Publica sur la justice prédictive a révélé des incohérences préjudiciables aux criminels modérés et avantageuses pour les criminels de haut vol. Bien que les lacunes des outils algorithmiques d’évaluation des risques dans le système judiciaire pénal aient été documentées, plusieurs juridictions américaines imposent toujours leur utilisation. Un rapport publié par le Partnership on AI souligne la nécessité de garantir «que des outils soient conçus et construits pour atténuer les biais au niveau du modèle et des couches de données, et que des protocoles appropriés soient en place pour promouvoir transparence et responsabilité» (source: PAI).
Les préoccupations du Partnership on AI concernent notamment la perception de tels outils comme «objectifs ou neutres». Malgré la cohérence et la reproductibilité de leurs résultats, les modèles peuvent en effet encore présenter des biais entraînés par la prise de décision humaine. «Les décisions concernant les données à utiliser, la gestion des données manquantes, les objectifs à optimiser et les seuils à fixer ont tous des implications importantes sur la précision, la validité, et les biais de ces outils» (source: PAI).
Dans un secteur comme la Justice où le jugement moral est primordial, le principe d’un biais induit par les données est contre-intuitif et mérite attention. Bien que l’IA évalue souvent mieux les risques et puisse accroître la sûreté et la sécurité, les données ne sont pas un matériau neutre. La prise de décision humaine demeure la pierre angulaire des performances de l’IA. Les évaluations éthiques ne doivent pas être sacrifiées sur l’autel de délais d’exécution rapides.

Le secteur des Ressources Humaines (RH) embrasse également l’IA. Du tri automatique des CV à l’évaluation psychométrique des candidats et des employés, une entreprise américaine sur deux rapporte avoir déployé au moins un système de RH basé sur l’IA. Une tendance qui devrait atteindre deux entreprises sur trois en 2020. L’analyse faciale sera utilisée pour les interviews vidéo, tandis que l’apprentissage automatique se chargera de l’approvisionnement et de la sélection des candidats. Le traitement du langage naturel sera lui au coeur des stratégies de rétention des employés, depuis la personnalisation des programmes de formation interne a la prédiction du risque de démission. Tandis que l’IA imprègne toutes les fonctions des RH, la prudence s’impose. Des algorithmes d’embauche formés sur des données non inclusives ont déja notoirement conduit à des discriminations involontaires. La mesure de la motivation des employés fondée sur l’analyse automatique des émotions peut également être biaisée et inexacte.
Alors que 69% des départements de RH déclarent tirer profit du déploiement des systèmes intelligents, les entreprises doivent s’assurer qu’elles utilisent des systèmes équitables et fiables en déployant des stratégies préventives garantissant la conformité légale et la gestion éthique des risques associés aux technologies de l’IA. Les professionnels des RH devraient être formés au déploiement juridique et éthique de l’IA. Les équipes développant ou intégrant un système tiers devraient être en mesure de vérifier la source, la qualité, et la diversité des ensembles de données d’entrainement et tester régulièrement l’équité du modèle avec l’aide de chercheurs indépendants.

La meilleure réponse aux biais algorithmiques consiste en l’implication de professionnels issus d’horizons pluridisciplinaires, formés à l’éthique appliquée, et représentatifs des intérêts divergents de populations diverses.

L’éthique doit être le systeme nerveux de l’IA.

En 2020, les principes éthiques de transparence, d’inclusivité, de fiabilité et d’équité sont encore en friche, alors qu’ils devraient être — au nom de l’intelligence — le fer de lance de l’évolution de l’IA.
Les législateurs doivent œuvrer à la transparence, l’équité et l’évaluation indépendante de l’IA. Les organisations doivent prendre des mesures proactives qui soutiennent la conception de modeles intelligents centrés sur l’inclusion et l’équité. Les experts en charge de la recherche, de l’éducation, de la stratégie, du développement, de la mise en œuvre et de l’évaluation des systèmes basés sur l’IA, doivent etre le reflet de la diversité humaine et imprimer au cœur de ces systèmes les valeurs les plus souhaitables au monde, pour tous. En 2020, l’éthique doit être le système nerveux de l’intelligence artificielle.

–––––––––

Cet article est une version modifiée de l’article publié le 7 janvier 2020 dans le magazine Outre-Mers 360, rubrique Expertise.

Dr. Valérie Morignat. CEO et fondatrice de la société de stratégie et formation en IA Intelligent Story a San Francisco. Maître de Conférences en disponibilité de l’Université Montpellier III. Experte certifiée par le MIT en Stratégie de l’IA et Machine Learning. Co-fondatrice de la revue AI & Ethics (Springer). Originaire de Nouvelle-Calédonie.

PhD | CEO of Intelligent Story | Professor | AI Strategy, Machine Learning, & Design Expert | Award-Winning Photographer | www.intelligentstory.com

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store