Manifeste de l'AV sur les IA génératives basées sur des LLM

adrien.solacroup · Février 21, 2024, 5:24

Hello tout le monde,

Lors de la toute récente résidence de l’AV, un atelier questionnant l’usage des IA génératives basées sur des LLM a été mené. Quelques notes ont été prises ici : Résidence Assemblée virtuelle - Faire systèmes 2024 - HedgeDoc

Il a notamment été évoqué l’idée de rédiger un manifeste pour que l’on puisse se positionner sur les usages de cette technologie.

Personnellement j’ai tout récemment commencé à bricolé avec le Mixtral déployé par Infominiak et je me questionne sur les limites technico-éthiques de ce que je peux en faire. Aussi, plusieurs personnes de ma coopérative se posent des questions similaires, d’autres se sont directement engouffrés dans un usage quotidien de chatGPT, Copilot et Gemini.

Bref je suis assez motivé pour initié ce manifeste et essayer d’en cracher une première version à courts termes !

thomas.francart · Février 22, 2024, 12:21

Je suis choqué de voir « recherche juridique » dans les usages possibles.

Pour tous les cas d’usage de recherche d’information, en dehors de recherche d’information généraliste de « culture générale », les réponses des LLM généralistes entrainés à partir de corpus web sont à mettre en doute. (si le LLM a digéré un corpus spécifique, c’est différent)

Il faut comprendre que les LLM n’ont aucune connaissance indépendante du language, aucun « graphe de connaissance ». Ils peuvent donner des réponses différentes à la même question posée dans des langues différentes. Un must-see sur ce point, et sur l’impact énergétique des LLMs : https://www.youtube.com/watch?v=WqYBx2gB6vA

Une hallucination dans une réponse à caractère juridique d’un LLM est tout simplement catastrophique : À cause de ChatGPT, un avocat américain cite des arrêts... qui n'ont jamais existé

L’usage pertinent des LLM d’après moi est l’équivalent d’une IHM : input/output, mais il doit déléguer la recherche d’information à une base externe (principe du RAG, retrieval augmented generation)

adrien.solacroup · Février 23, 2024, 7:41

Merci pour ton retour @thomas.francart !

C’est justement l’idée de rebondir sur les notes prises pendant cet atelier et les confronter pour tâcher de forger un manifeste avec le moins d’angles morts possibles

adrien.solacroup · Février 27, 2024, 12:54

Hello !

J’ai esquissé un plan ici : [en cours de rédaction] Manifeste de l'Assemblée Virtuelle sur l'essor des IA génératives - HedgeDoc

Des motivés pour proposer des ajustements avant qu’on se lance dans une rédaction plus détaillée ?

Je suis particulièrement preneur de chiffres et références pour illustrer nos propos.

@guillaume.rouyer @Alice @fluidlog @simon.louvet.zen @srosset @ancelin @jules

jules · Février 27, 2024, 11:49

Hey, ça me paraît être une bonne base, j’ai pas trop de bande passante pour travailler à son approfondissement, mais je suis disponible en veille pour relire

Pour répondre sur la recherche juridique @thomas.francart, je crois que c’est Ancelin et moi-même qui l’avions mentionné. Avec NOÉ, nous l’utilisons pour créer des bases de documents adaptées à nos besoins. On génère un squelette, et on le retravaille ensuite pour aboutir à un document qui tient la route, et on fait éventuellement relire par l’IA. Mais effectivement, il faut être bien alerte sur le contenu du document et rester maître de chaque phrase qui y est écrite. On fait aussi des recherches avec l’IA sur des questions pointues, là où une recherche sur internet est infructueuse. Ça nous donne des pistes, et on peut ensuite approfondir et confirmer ces pistes par une recherche complémentaire. Je suis d’accord il ne faut jamais croire une IA générative sur parole. Sa qualité est de générer des idées, pas des vérités.

Ceci dit, sur des travaux plus simples en lien avec la génération « pure » (trouver des champs lexicaux, labelliser de la donnée) l’IA peut s’avérer très performante avec un taux d’erreur dont ça ne m’étonnerait pas qu’il soit même en dessous du taux d’erreur humain.

En bref, l’intégration de l’ia s’accompagne toujours d’une évaluation/mitigation de son inévitable faillibilité. Parfois l’erreur est acceptable (labellisation fausse une fois sur 1000), parfois moins (articles juridiques inexacts dans documents officiels)

simon.louvet.zen · Février 28, 2024, 1:04

précision : dans " 1. Pour faire de la recherche en language naturelle" il est entendu, transformer du language naturel en requetes (SPARQL, CubicWeb, ElacticSerach…)

simon.louvet.zen · Mars 4, 2024, 2:47

Un équivalent de notre workshop sur L’IA de la résidence mais d’un autre niveau avec du big data dedans : https://www.youtube.com/watch?v=dgouFEVCG2I (surtout à partir de 1:28)

adrien.solacroup · Mars 4, 2024, 10:55

J’ai écouté et merci cela donne d’autres éléments ! Notamment les LLM locaux histoire d’utiliser la puissance matérielle des ces pc neufs ne servant qu’à de la bureautique.

J’essaie de faire un premier jet de manifeste pour vous le soumettre à relecture d’ici la fin mars.

simon.louvet.zen · Avril 9, 2024, 3:55

autres contenus source : https://www.youtube.com/watch?v=tTb5wQw_8JE

adrien.solacroup · Avril 10, 2024, 8:33

Merci @simon.louvet.zen !

Je ne l’avais pas écouté en entier et que d’une oreille il faudra que je me pose pour le reprendre dans de meilleures conditions ^^

jules · Avril 25, 2024, 7:43

Oui, désormais c’est super easy de faire tourner un LLM mistral en local sur son propre PC (pourvu qu’il ait un peu de RAM et un bon processeur). Ça va lentement, mais pour certains cas d’usage on a pas besoin du temps réel. Ça ouvre des possibilités !

simon.louvet.zen · Juillet 5, 2024, 8:32

quelques contenus pour mieux comprendre les LLM

vulgarisation / culture / théorie

fondamentaux des réseaux de neurone et deep learning

Les Coulisses des LLMs : Comprendre l’IA pour l’exploiter efficacement!

Le père fondateur du Deep Learning - Yann Le Cun

Le Problème à 3 Corps : Visualisation de Données et Intelligence Artificielle

Compréhension / théorie

MOOC CNRS

https://www.youtube.com/@CNRS-FIDLE

Comprendre les Transformers en 10 minutes

Comment interpréter ce qui se passe dans un réseau de neurones ?

production / process

How ChatGPT Works Technically | ChatGPT Architecture

Philosophie / usages

Utiliser l’IA n’est pas neutre

sarah · Août 23, 2024, 4:46

Bonjour
On m’a fait passer le lien vers votre échange et je me permet de vous partager ce doc sur l’IA générative, qui contient aussi des ressources et des propositions :

https://dataforgood.fr/iagenerative/

Alice · Octobre 4, 2024, 7:47

Je vous partage deux articles que j’ai trouvé intéressant de developpez.com :

« Les assistants d’IA de codage font-ils vraiment gagner du temps aux développeurs ? Une étude suggère que ces outils n’augmentent pas la vitesse de codage, mais augmentent significativement le taux de bogues… »

" Un professeur d’informatique du MIT teste l’impact de l’IA sur la formation des programmeurs"
Sur ce dernier, je trouve qu’il y a quelque chose de crucial à ne pas manquer sur l’impact que les IA peuvent avoir dans l’apprentissage de la jeune génération.

J’ai fait une compilation des sources intéressantes dans un fanzine que j’ai rédigé dans le cadre de ma mission de médiation numérique :
Fanzine IA-version-non-imprimable.pdf (1,2 Mo)
Et voici sa version imprimable :
Fanzine IA-version-imprimable.pdf (854,1 Ko)

fluidlog · Janvier 24, 2025, 9:24

Hello,

Je viens de tomber sur cet article sur LinkedIn :

Avec une infographie des acteurs « non profit » qui traitent le sujet de « IA et impact écologique ». Si nous voulons y être, il suffit de le prouver et de le demander.

En passant, j’ai fait l’effort d’écouter le super podcast « Algorithmique » il y a 1 mois :
https://next.ink/podcasts/
Et c’était intéressant, neutre, travaillé, étayé, bravo !

Je sais que @simon.louvet.zen suit d’assez près le sujet, et je trouve ça important, car il souhaite mettre l’IA, là où nous pouvons en avoir besoin, en connaissant les inconvénients.
J’aimerais qu’il y ait encore un atelier sur ce sujet lors de notre prochaine résidence.

Je pense qu’on pourrait écrire sur notre site « IA free ». Mais ça marquerait trop fort une position… Ce qu’il faudrait, ce sont des vignettes qui expliquent « quelle sorte d’algorithme nous utilisons » (lorsque nous en utilisons). De la même manière que les logos CreativeCommons…
Car ce qu’il manque à mon avis, ce sont les dégradés d’automatisations possibles dans toutes ces nouvelles manières de faire.

Et concernant le manifest que nous souhaitions faire (@jules @Alice), il existe déjà le livre blanc de Data For Good (dont il est question à l’épisode 6 d’algorithmique ) ?
https://dataforgood.fr/iagenerative/
(il date déjà de plus d’un an)

Je ne l’ai pas encore lu (je suis meilleur pour écouter des podcasts), mais je pense que c’est un bon début de vulgarisation et de positionnement possible. Dataforgood sont, semble-t-il les seuls à avoir calculé la consommation énergétique de ChatGpt 3,5…

Je vais commencer par leur vidéo :

N’hésitez pas à en partager d’autres si cela nourrit une pratique de l’IA nous permettant de prendre position.

Merci,

Yannick

srosset · Février 11, 2025, 11:31

Ce soir à 22h40 il y a un documentaire sur les 150 à 430 millions de « data esclaves » qui travaillent pour rendre l’IA soi-disante « intelligente »:

(L’article ci-dessus propose un bon résumé).

J’avais aussi lu quelque part que si DeepSeek est si performant, c’est parce que le gouvernement chinois a lancé un grand plan pour pousser les chinois à se lancer dans ce nouveau type de travail, j’imagine dans des conditions discutables.

Je recommande ce livre d’Antonio Casilli qui a fait une excellente enquête sur le sujet (je l’ai lu en entier il y a quelques années):

adrien.solacroup · Février 11, 2025, 12:32

Merci @srosset pour le reminder de « Les sacrifiés de l’IA » ! Je m’étais noté de le voir. Il est cité dans cette vidéo de Blast : IA : Une des pires menaces pour l'humanité

srosset · Février 12, 2025, 10:00

J’ai regardé le documentaire, qui est encore disponible en replay. Très bien fait. Après ça, on ne peut plus regarder l’IA de la même manière…

adrien.solacroup · Février 12, 2025, 10:11

Je l’ai regardé également ce soir !

Rien que les extraits m’avaient déjà pas mal marqués.

Cela me donne le goût d’une impasse pour l’IA. Soit ses usages illicites sont bridés au pris d’une modération moralement destructrice. Soit ils ne le sont pas et on des cas de ce genre…

Et cela sans parler du coût environnemental.

adrien.solacroup · Février 25, 2025, 1:11

On m’a partagé ce manifeste de résistance à l’IA : HIATUS