19/06/2023

Carole Lailler

Fondatrice de Scribe-Conseil, Docteur en Sciences du Langage, Consultante en IA

blank
"Aide-toi, le Ciel t'aidera"
Carole Lailler
blank

✍️ Alex

👀 Mes articles

Hello le Wagmi Gang, 🥰

Carole est une Wagmi Doeuse singulière et passionnante.

Suite à un parcours professionnel aux multiples facettes, qui l’a conduite des établissements scolaires, aux start-up en passant par le milieu universitaire, Carole œuvre pour une meilleure vulgarisation des technologies de TALN (Traitement Automatique des Langues Naturelles) ; tout simplement.

Aujourd’hui, cette Docteure hors pair accompagne de nombreux projets d'IA conversationnels avec sa société Scribe-conseil.

Tu comprends encore difficilement les enjeux de l’IA ? Ou encore la modélisation du langage ? Tu as du mal à évaluer les défis d’aujourd’hui et de demain ?

Carole abordera différents prismes, offrant des clés de compréhension et de réflexion : données personnelles, fake news, emplois, écologie, éthique (...). Bref un riche panorama des questionnements divers liés à l’IA.

Encore un portrait sensationnel à dévorer sans modération ! 💛

Bonjour Carole, peux-tu nous raconter ton parcours ?

Avec plaisir !

Docteur en sciences du langage après avoir été une latiniste passionnée (traductrice de Tacite entre autres, j'ai toujours le sentiment de suivre un jeu de piste en faisant de la version, j'aimais moins le thème en revanche), j'ai un goût prononcé pour la morphosyntaxe, aka la grammaire et plus généralement pour la langue française.

Tombée dans la marmite du traitement automatique de la parole à la faveur d'une thèse dans un laboratoire d'informatique (le LIUM au Mans) pour travailler sur de vrais corpus de dialogues et non des exempliers construits pour les besoins de la cause, j'entretiens un rapport privilégié avec le conversationnel et les données. J'écoute, je lis, j'observe les usages de mes semblables, leur en vole certaines, en commente beaucoup d'autres, me laisse surprendre par les plus curieux.

Forte d'un parcours professionnel aux multiples facettes, qui m'a conduite des établissements scolaires (j'ai été prof de français tout ce qu'il y a de plus classique) aux start-up en passant par le milieu universitaire, j'essaie d'œuvrer pour une meilleure vulgarisation des technologies de TALN (Traitement Automatique des Langues Naturelles). J'accompagne aujourd'hui de nombreux projets d'IA dits conversationnels avec ma société Scribe-conseil : traitement et analyses de données surtout vocales et textuelles, gestion de systèmes de reconnaissance automatique de la parole et de chatbots, tâches de NLP dont la fameuse modélisation du langage (pour détecter le plagiat, re-trouver les modes langagières d'une communauté avant même de générer du contenu, nourrir des systèmes experts, etc.), sont autant de défis je me prends à relever avec grand plaisir. J'écris aussi, de plus en plus : édito, billets d'humeur et narrations diverses.

Comment es-tu arrivée à travailler sur des sujets liés à l'intelligence artificielle et à la modélisation du langage ?

Durant ma thèse qui portait sur la façon dont on pose des questions en français conversationnel eu égard aux réponses auxquelles on aimerait prétendre, je travaillais avec des chercheurs en informatique qui mettaient au point et évaluaient des outils de reconnaissance de la parole, de reconnaissance du locuteur (d'où le fait que je n'aime pas l'expression reconnaissance vocale qui dit tantôt l'un tantôt l'autre ; or, ce sont des systèmes différents, des apprentissages différents, des données différentes) et de traduction. Entre préparation des données, annotations en amont, évaluations en aval, je me suis prise au jeu et j'ai voulu aller plus loin.

J'ai voulu ouvrir la boîte… qui n'a rien d'une boîte de Pandore ! Certes, le Machine Learning et son corollaire en millefeuille (on parle de couches cachées) le Deep Learning convoquent méthodes, façons de faire et architectures souvent complexes. Cependant, en croisant data, sorties de systèmes et  évaluations, on en tire quelques principes. Et lorsque, à l'inverse d'OpenAI et de son coup Marketing, on se concentre sur l'objectif, on parvient à des résultats probants en évitant de se perdre.

Puis, j'ai voulu sortir les systèmes de leur boîte de Petri (cette fois-ci) et les rapprocher encore davantage de leur cas d'usage. J'ai navigué au sein de quelques start-up, côté R&D notamment, pour m'occuper des problématiques autour de la relation client : il nous fallait construire des outils qui apportent réellement leur pierre à l'édifice comme des call-bots pour prendre en charge les sinistres (ce sont des chatbots au téléphone, on parlera de voice-bots pour les chatbots en live comme ceux rencontrés dans les centres commerciaux). Les efforts de classification pour débusquer les irritants clients entraient aussi pleinement dans mon périmètre. Ces quelques expériences m'ont permis de comprendre l'importance du "pas de côté" à faire faire aux différents outils et systèmes pour qu'ils correspondent aux besoins sans tordre nos pratiques.

Par la suite, j'ai décidé d'aller voir les marmottes dans leur habitat naturel et d'y planter non ma tente (il fait trop froid en hiver), mais ma boîte.

Scribe-conseil était née : reconnaissance de la parole pour les callbots (il faut sous-titrer votre voix pour que son texte soit traité en intention/réponse), détection dans des verbatims d'employés d'éléments anxiogènes comme un management nocif par exemple, chaîne de traduction pour des utilisateurs finaux dans les transports, correcteur orthographique et morphosyntaxique, détection de noms de personnage dans des ouvrages pour jeunes publics, adaptations aux usages langagiers des publics cibles, les projets sont nombreux et mettent en avant l'adjuvance des outils de TALN.

Pour nos lecteurs qui ne sont pas familiers avec ces termes, peux-tu expliquer simplement ce qu'est l'intelligence artificielle ? Et la modélisation du langage ?

Si on prenait le temps (je ne l'ai pas fait) de demander au chat (ChatGPT et ses fameux Transformers) puisqu'on prend l'habitude de lui donner notre langue, je pense qu'il répondrait (et ce serait sans hallucinations mais très infusé de nos articles à tous) : l'IA est en fait un ensemble de techniques fondées sur des recettes (les algorithmes) qui simulent l’intelligence humaine dans ses productions cognitives" : écrire, allumer la lumière, parler…

J'ajouterai, pour mon compte, une question toute rhétorique puisque la réponse est un grand OUI :

=> l'IA ne serait-elle pas "juste" une approximation de la densité de probabilité pour prendre la décision la moins risquée ?

Quant aux modèles de langage, il s'agit de représenter les usages langagiers d'une langue. On réunit les façons de manier une langue, de la dire et la composer sans se fonder sur une grammaire à tendance normative (avec une grammaire normative, il faut respecter les règles, il faut dire cela ou écrire comme cela). Ici, on prend simplement une photographie de l'état de la langue, de ses usages, bons ou mauvais, ancrés ou matinés d'autres influences. On immortalise les gens et leurs mots et expressions comme ils parlent et écrivent.

Il s'agit alors de modéliser les usages du français par exemple selon une communauté, une période, etc. Les modèles de langage peuvent être utilisés en aval pour générer des phrases sur la base d'une probabilité d'occurrences donc : je connais les trois premiers mots, le quatrième s'impose (on parle alors de quadrigrammes) comme ils peuvent servir en amont : pour faire de la transcription de la parole (caler dans le son selon cette même probabilité d'occurrences, segmentation en plus, des mots et les bons tant qu'à faire !) ou de la détection de plagiat ou de la traduction.

Bref, cessons de croire qu'un outil d'IA appliqué au texte ou à la parole cause parce qu'il sait : il n'est question que d'utiliser une densité de probabilité d'existence pour risquer… un mot, voire un silence ! Mais au fait qu'est-ce qu'un mot ?

À ton avis, pourquoi est-ce important pour le grand public de comprendre ces technologies ?

Parce qu'ils en sont les premiers utilisateurs ! On cite évidemment Netflix, mais les callbots de nos assureurs sont des interlocuteurs fréquents tout comme on lit les sous-titres, traduits ou non, de nos interviews préférées.

Évidemment, OpenAI en livrant le chat dans l'arène du grand public a bouleversé les usages et on a aujourd'hui le sentiment que tout est révélé. Mais, d'une part, les modèles de langage existent depuis fort longtemps : insérer un petit modèle de langage de la langue cible dans un système de traduction automatique pour en capturer non seulement les usages cœurs de cible, mais aussi les effets culturels est devenu un passage obligé. D'autre part, ce n'est pas parce qu'ils infusent nos pratiques linguistiques à un instant T (nos modes et autres tics en somme) qu'ils sont l'alpha et l'oméga de la langue : un système d'IA ne comprend rien, n'entend rien, ne déduit rien : il infuse des données, souvent en très grand nombre, des habitudes. Ce n'est que parce qu'on veut bien y voir une interpellation qu'on a ce sentiment d'être sur la même longueur d'onde ! Pourtant, les LLM (large Language Models, de très gros modèles de langage fondés sur une architecture Transformers) peuvent halluciner : ils manquent de logique, font des fautes dites de grammaire, car ils ont aussi infusé nos erreurs (le chat pallie à au lien de pallier le manque) et ne sont pas dialogiques : ils donnent la réponse sans jouer au ping-pong de l'échange : peu de questions, des répétitions, pas ou peu de reprises en interaction directe).

Rappelons que génératif n'est pas générique… Diluant à la rigueur, mais pas d'intelligence générale en vue.

Y a-t-il des avantages pour une entreprise ou une organisation à se doter d'une technologie d'IA ?

Entre rédaction de comptes-rendus automatiques, détection de thème(s) dans des mails et écrits de tout genre, facilitations dans les réponses aux appels d'offres, chatbot d'onboarding, relevé des entités nommées, i.e. les noms propres et presque noms propres qui ancrent un écrit dans un espace vivant et référencé, les cas d'usage sont très nombreux même dans cette portion congrue qu'est le TALN (ou NLP en anglais pour Natural Langage Processing) dans l'océan des outils d'IA.

Je n'y vois que des avantages quand ils sont construits en respect et avec les experts métiers pour servir le cas d'usage final : les différentes parties de l'entreprise ou de l'organisation se parlent pour réussir cet outil et échangent sur leurs méthodes, leurs indispensables mais aussi leurs limites, peurs et avancent dès les premières réunions de conception !

Quels sont les enjeux de l'IA en matière de protection des données personnelles ?

Ils sont nombreux tant en termes d'utilisation que de compréhension : peu savent que leur voix est déjà une donnée personnelle ! Faire en sorte de ne pas pouvoir remonter à l'émetteur du propos et/ou de l'information est un principe fondamental qui guide tous mes projets et ce n'est pas une barrière infranchissable loin de là.

Comment l'IA peut-elle aider à lutter contre la désinformation et les fake news ?

Si les outils d'IA sont de formidables pourvoyeurs de fake news, que ce soit imitant nos voix, en copiant nos traits ou en travestissant des écrits (les GANs, pour Réseaux Antagonistes Génératifs, sont des architectures neuronales à l'origine des "deepfakes" et sont fondés sur le principe du vrai/faux pour apprendre), ils constituent aussi des outils pour les débusquer. L'apprentissage reste la clé de voute.

Je participe d'ailleurs à un événement sur le sujet le 12 juillet prochain de 8H30 à 10H00 avec le cabinet d'avocat De Gaulle, Fleurance et Associés et Systematic pour expliquer notamment de quoi sont constituées les deep fakes, comment les reconnaître et comment lutter.

Entre mains à six doigts et gouttière bleue sur les dents, il est vrai qu'il est plus facile de reconnaître une fausse photo qu'il n'est aisé de dire à coup sûr que l'interlocuteur n'est pas notre patron surtout si on ajoute, au modèle de voix, un modèle de langage dédié, vous l'aurez compris. Pourtant, des astuces et des outils existent. Et le plus évident reste le temps : prendre le temps de poser la bonne question, de regarder une ride, ou d'entendre un souffle qu'on connaît et reconnaît assurément.

Quels sont les impacts de l'IA sur l'emploi ? Comment cela pourrait-il changer le monde du travail ?

Ça fait 15 ans (si ce n'est davantage) voir plus qu'on me raconte que les traducteurs vont disparaître et pourtant je continue à travailler avec nombre d'entre eux pour récolter les bonnes données, peaufiner les modèles, préparer les références de l'évaluation et les correctifs dédiés…

Certes, il serait un peu "bisounours" de dire que l'IA n'aura pas d'impacts, y compris négatifs, mais il s'agit à mon sens davantage d'une redéfinition des activités que d'un remplacement pur et simple. Comme je le soulignais, point d'intelligence générale, mais des outils qui ont besoin d'être construits, structurés, évalués, manipulés !

Quels sont les enjeux éthiques liés à l'utilisation de l'IA ? Comment pouvons-nous nous assurer que l'IA est utilisée de manière éthique ?

Avant même l'utilisation, pensons construction : les petites mains doivent être employés décemment avec un cadre, des conditions de travail respectées et respectables. J'ai adoré travailler avec des personnels rémunérés sur le guide d'annotations, discuter de nos biais, des usages. L'éthique se pense dès la conception.

En outre, les enjeux écologiques et les économies d'énergie (de toutes les énergies) doivent être pensés : si un apprentissage est généralement plus coûteux qu'un usage, il s'agit de le penser dans la durée, d'éviter de multiplier les expériences, de circonscrire les besoins en amont, de veiller au respect des data et des corpus. C'est un ethos et il peut rencontrer ses consommateurs, loin s'en faut.

Comment l'IA pourrait-elle affecter nos libertés fondamentales ? Quels sont les défis et les opportunités ?

Si on commence par se laisser raconter n'importe quoi, alors oui, nos libertés sont déjà atteintes… Ce n'est pas tant les fake news que je vise que les sorciers et autres oracles qui déclarent que la révolution est là et qu'il convient le plus souvent d'être effrayé. Se souvenir qu'il ne s'agit QUE d'outils et commencer par les évaluer, y compris pour soi et au quotidien, sonne déjà la préservation de nos libertés.

Un des défis primordiaux reste à mon sens les outils d'IA liés à la santé ; c'est la raison pour laquelle il s'agit de projets que j'aime mener. Laisser le médecin, les équipes soignantes et les patients au cœur de la définition du besoin et des évaluations constituent une clé.

Ne vendons ni nos données ni nos expressions de besoins aux plus offrants et laissons nos croyances au placard (ou dans nos cœurs, c'est plus joli). Identifier les contextes, ne pas penser qu'un seul outil peut tout faire, voilà déjà de bonnes pistes.

As-tu un message à faire passer aux personnes qui nous lisent ?

Curiosité first ! Je dis souvent à mes étudiants et/ou interlocuteurs qu'il n'y a pas de mauvaises questions, mais que des réponses idiotes ; je prends donc tous les risques quand on m'interroge et tant mieux. Se renseigner, demander, garder un petit point d'interrogation au creux de nos neurones en somme.

 

On passe aux questions POP : quel est ton bouquin de chevet ?

Les polars de manière générale ; je lis trop d'articles de presse (spécialisée ou non) et d'articles universitaires pour réussir à continuer le soir, donc polar ou magazines de déco. En ce moment, le dernier Vargas. Mais j'avoue un faible pour l'Italie et les Camilleri, Leon et Macchiavelli.

Ton ou tes Film(s) culte(s) ?

Usual Suspect.

Tes séries crush ?

Peu ou pas ; même Westworld ou Penny Dreadful m'ont lassée. Je me laisse tenter par les séries nordiques ou italiennes (encore pour l'Italie et encore des polars) d'Arte.

Ta playlist ?

Connecter avec Carole

Suivre le projet Scribe Conseil

Partager cet article