Biais en machine learning et développement responsable des produits en AI

La lecture récente de « AI 2041 » – un livre d’anticipation et de vulgarisation de l’intelligence artificielle écris à quatre mains par Kai-Fu Lee et Chen Qiufan, m’a interpellé sur les biais dans le machine learning, l’éthique des gestionnaires de produits et les solutions pour un développement responsable du AI. 

Le potentiel immense du machine learning et de ses dérivés est excitant. Mais en tant que gars qui développe des produits, je me demande comment s’assurer que leur impact sur la société reste positif. 

Qualité des données et impact en machine learning

Mon ami Philippe Bouzaglou m’a fait découvrir le machine learning il y a 10 ans pour ma compagnie (Seevibes). Twitter était une mine d’or de données non structurée que l’on filtré et qualifié en temps réel grâce à l’expertise en NLP de Philippe. Nous avions développé un des modèles de lookalike les plus performants pour Twitter (grosse fierté).

Au-delà du tooling et de la disponibilité de modèles, la qualité des données était le principal défi pour réussir des projets de machine learning. Un défi qui s’est confirmé ensuite en collaborant à des applications de machine learning dans l’industrie de la musique (LANDR), du transport (Bus.com) et des télécommunications (Fizz).

Je me concentrais sur la qualité des données pour avoir un modèle performant, mais sans me poser la question de l’impact sur les humains qui allaient ensuite utiliser le produit.

Conséquences des biais en intelligence artificielle

On veut faire un « meilleur monde » avec la tech, mais la plupart du temps on ne sauve pas de vie. Personne n’a vu son coeur repartir grâce à un spreadsheet plus performant. Par contre, le biais dans le machine learning impacte la vie de millions de personnes. 

Le simple fait de prendre une photo en soirée avec des amis noirs, et l’on constate rapidement que les algorithmes dans notre smartphone à 1000$ ne sont pas adaptés à tout le monde. On retrouvait ce biais dès les débuts de la photographie en couleurs.

Les problèmes de détection de couleur de peau sont récurrents, autant pour la détection et le suivi de mouvement pour un simple distributeur de savon et une webcam d’ordinateur. Le sujet pourrait presque faire sourire s’il n’avait pas des conséquences plus graves.

Dans le premier chapitre de « AI 2041 », l’histoire de « The Golden Elephant » imagine un futur où l’algorithme d’une assurance punit une jeune fille pour avoir côtoyé une personne de classe sociale inférieure. 

Ce futur est déjà là, car les personnes appartenant aux classes socio-économiques inférieures aux États-Unis sont soumises à des outils de prise de décision plus automatisés que les personnes appartenant aux classes supérieures. 

On voit des disparités raciales dans les outils d’évaluation des risques au détriment de la communauté noire. Le machine learning peut aussi engendrer du sexisme avec des algorithmes qui associent les femmes au shopping et les hommes au tir, qui un impact avéré dans le recrutement de postes en technologies.

Comment faire de l’intelligence artificielle responsable

Heureusement, il existe de bonnes pratiques pour mitiger les biais conscient et inconscient des produits de AI que l’on développe.

Les auteurs de « AI, COVID-19, and Inequality » recommandent de chercher à comprendre comment des biais peuvent être introduits à chaque étape de développement:

  1. Dans la définition du problème
  2. Dans les données utilisées
  3. Dans le choix et la configuration des algorithmes
  4. Dans l’évaluation et l’interprétation des résultats

Brookings a publié un rapport très fourni sur « Détection et atténuation des biais algorithmiques : Meilleures pratiques et politiques pour réduire les préjudices aux consommateurs ». Il propose des modèles de questions pour aider à évaluer l’impact des biais d’un projet de machine learning: 

  • Que fera la décision automatisée?
  • Comment les biais potentiels seront-ils détectés?
  • Quelles sont les motivations de l’opérateur?
  • Comment les autres parties prenantes sont-elles impliquées?
  • La diversité a-t-elle été prise en compte dans la conception et l’exécution

L’Union européenne a également défini des « Lignes directrices éthiques pour une IA digne de confiance » autour de sept principes de gouvernance:

  1. Contrôle et suivi humain
  2. Robustesse technique et sécurité
  3. Protection de la vie privée et gouvernance des données
  4. Transparence
  5. Diversité, non-discrimination et équité
  6. Bien-être environnemental et sociétal
  7. Imputabilité

Pour un machine learning équitable

Si on continu à avoir quatre gars blancs dans une pièce pour définir et tester les produits de AI, c’est évident que les problèmes de biais vont perdurer. La diversité des profils, autant dans l’origine, la culture et le parcours, est l’assurance de ne pas répéter les mêmes erreurs. 

Pour atténuer l’impact des biais dans le machine learning, nous devons faire un compromis entre la précision et l’équité, et prendre en compte le coût pour la société. Construire un monde meilleur pour les humains, c’est s’autorisé à être moins parfait pour être plus juste.


Ressources et liens

Publications

Livres

Podcasts

Vidéos


Français / Anglais

  • machine learning = apprentissage machine
  • artificial intelligence (AI) = intelligence artificielle (IA)

Faut-il tuer l’effet de réseau?

Comment construire une défense forte face à la concurrence?

Photo by Ferdinand Stöhr

Un effet de réseau (network effect) se produit lorsque la valeur d’un produit ou d’un service augmente en fonction du nombre d’utilisateurs l’utilisant. Même s’ils sont liés, il ne faut pas confondre avec la croissance virale (viral growth), qui augmente uniquement la vitesse d’adoption du produit.

Effet de réseau
De Graham Bell à Mark Zuckerberg

Il y a une trentaine d’années, la loi de Metcalfe théorise l’effet de réseau lié aux technologies de l’information autour de la mesure de noeuds de réseau qui peuvent être constitués d’agents ou d’objets.

Le nombre de liens potentiels dans un réseau avec n nœuds est n(n-1)/2, fonction équivalente à n²/2 pour n tendant vers l’infini.

Imaginez quand Alexander Graham Bell a inventé le téléphone. Il n’y avait pas grand intérêt la première année à posséder un appareil téléphonique avec seulement quelques personnes connectées. Mais du jour où vous saviez qu’il était possible de joindre n’importe qui avec un téléphone, vous ne pouviez plus vous en passer. Cet exemple est applicable trait pour trait au succès du Web.

Un effet de réseau traditionnel est celui de Visa. S’il n’y avait pas autant de marchands à travers la planète qui acceptent les cartes de crédit Visa, il n’y aurait pas autant de clients qui voudraient en posséder. L’inverse est tout aussi vrai. Un magasin va accepter une carte de crédit Visa pour attirer plus de clients, car il sait que ce mode de paiement est populaire.

De nos jours, Facebook représente l’application ultime du réseau de données. Avec ses 2 milliards d’utilisateurs à travers la planète, Facebook est devenu le lieu incontournable où se connecter et se parler. Facebook maîtrise tellement bien l’effet  de réseau, qu’il devient difficile de s’en défaire. À tel point que certains appellent à une régulation pour assurer la portabilité de ses amis Facebook.

Place de marché
L’effet de réseau magique

On fantasme souvent sur la création d’une place de marché à la eBay – qui fonctionne toute seule et où les acheteurs et les vendeurs viennent en masse. Mais faire venir le monde pour remplir la place de marché et créer l’effet de réseau n’est pas chose aisée.

L’enjeu du « Network effects » est la masse critique – il faut assez d’utilisateurs pour devenir incontournable. Mais pour devenir incontournable, il faut créer assez de valeur pour que les utilisateurs restent et la valeur vient souvent des autres utilisateurs présents.

Come for the tool, stay for the network

Chris Dixon

Pour Chris Dixon – associé général de la société de capital-risque Andreessen Horowitz, la meilleure stratégie pour amorcer un effet de réseaux est « venez pour l’outil, restez pour le réseau ». L’idée est d’attirer les utilisateurs avec un outil simple et indispensable, puis, au fil du temps, de les faire participer à un réseau. L’outil aide à atteindre la masse critique initiale. Le réseau crée une valeur à long terme pour les utilisateurs et une défense pour l’entreprise.

Effets de réseau de données
Le futur de l’effet de réseau

Dans un effet de réseau de données (Data network effects), la propriété d’un produit s’améliore avec le nombre de données dont il dispose et en raison de relations émergentes entre des segments de données. L’objectif est de créer un cercle vertueux (virtuous flywheel) où l’ajout d’utilisateurs crée plus de données, qui va créer un meilleur produit, qui a son tour va attirer plus d’utilisateurs. 

Waze est un des meilleurs exemples où la participation des utilisateurs au service de cartographie permet d’avoir des cartes riches et fraîchement mises à jour. C’est ce cercle vertueux que Google est allé chercher avec Waze en faisant son acquisition pour près de 1B$ en 2013

D’ailleurs, le moteur de recherche de Google fonctionne de la même manière. Les recherches que font les utilisateurs – et que seul Google a accès, servent à améliorer les résultats. Plus de gens cherchent sur Google et meilleurs sont les résultats.

Pour simplifié, on reste pour les utilisateurs dans un effet de réseau, alors que ce sont les données qui ont la valeur la plus importante dans un effet de réseau de données. Par contre, ces données doivent être uniques, fraîches et en assez grand nombre pour être transformées en véritable avantage compétitif pour les compagnies qui les exploitent.

Le développement de produits où les données jouent un rôle majeur, ainsi que l’accessibilité des techniques de « machine learning » facilitent la mise en place de d’effets de réseau de données pour se défendre face à la concurrence. 

No future

Grand penseur de l’effet de réseau en général et des effets de réseau de données en particulier, le fonds d’investissement Andreessen Horowitz disserte aujourd’hui sur les promesses vides des données défensives. Au-delà du titre polémique, les auteurs de a16z appellent les compagnies technologiques à ne pas construire leur avantage compétitif uniquement sur les effets de réseau et l’accumulation de données. 

NFX – autre fonds d’investissement qui se positionne sur des startups à fort effet de réseau, va dans le même sens avec une liste complémentaire de défenses dans lesquels les compagnies devraient également investir:

  • Économie d’échelle (scale): efficacité améliorée ou effet de levier dû à la taille et à la portée;
  • Marque (brand): une identité qui évoque la confiance, la reconnaissance et le leadership dans l’industrie;
  • Intégration (embedding): intégration qui engendre un inconvénient ou un coût qu’un utilisateur engage pour passer d’un produit à un autre concurrent.

Les entreprises technologiques doivent évidemment être dirigées par les données – pour prendre de meilleures décisions et construire leur avantages concurrentiels. Mais, si les données sont au coeur de votre produit et génèrent déjà un effet de réseau, il est important ne pas mettre tous vos oeufs dans le même panier et d’investir dans d’autres barrières à l’entrée pour garder vos concurrents à distance. 

Photo by Dexter Fernandes