Il a notamment été évoqué l’idée de rédiger un manifeste pour que l’on puisse se positionner sur les usages de cette technologie.
Personnellement j’ai tout récemment commencé à bricolé avec le Mixtral déployé par Infominiak et je me questionne sur les limites technico-éthiques de ce que je peux en faire. Aussi, plusieurs personnes de ma coopérative se posent des questions similaires, d’autres se sont directement engouffrés dans un usage quotidien de chatGPT, Copilot et Gemini.
Bref je suis assez motivé pour initié ce manifeste et essayer d’en cracher une première version à courts termes !
Je suis choqué de voir « recherche juridique » dans les usages possibles.
Pour tous les cas d’usage de recherche d’information, en dehors de recherche d’information généraliste de « culture générale », les réponses des LLM généralistes entrainés à partir de corpus web sont à mettre en doute. (si le LLM a digéré un corpus spécifique, c’est différent)
Il faut comprendre que les LLM n’ont aucune connaissance indépendante du language, aucun « graphe de connaissance ». Ils peuvent donner des réponses différentes à la même question posée dans des langues différentes. Un must-see sur ce point, et sur l’impact énergétique des LLMs : https://www.youtube.com/watch?v=WqYBx2gB6vA
L’usage pertinent des LLM d’après moi est l’équivalent d’une IHM : input/output, mais il doit déléguer la recherche d’information à une base externe (principe du RAG, retrieval augmented generation)
C’est justement l’idée de rebondir sur les notes prises pendant cet atelier et les confronter pour tâcher de forger un manifeste avec le moins d’angles morts possibles
Hey, ça me paraît être une bonne base, j’ai pas trop de bande passante pour travailler à son approfondissement, mais je suis disponible en veille pour relire
Pour répondre sur la recherche juridique @thomas.francart, je crois que c’est Ancelin et moi-même qui l’avions mentionné. Avec NOÉ, nous l’utilisons pour créer des bases de documents adaptées à nos besoins. On génère un squelette, et on le retravaille ensuite pour aboutir à un document qui tient la route, et on fait éventuellement relire par l’IA. Mais effectivement, il faut être bien alerte sur le contenu du document et rester maître de chaque phrase qui y est écrite. On fait aussi des recherches avec l’IA sur des questions pointues, là où une recherche sur internet est infructueuse. Ça nous donne des pistes, et on peut ensuite approfondir et confirmer ces pistes par une recherche complémentaire. Je suis d’accord il ne faut jamais croire une IA générative sur parole. Sa qualité est de générer des idées, pas des vérités.
Ceci dit, sur des travaux plus simples en lien avec la génération « pure » (trouver des champs lexicaux, labelliser de la donnée) l’IA peut s’avérer très performante avec un taux d’erreur dont ça ne m’étonnerait pas qu’il soit même en dessous du taux d’erreur humain.
En bref, l’intégration de l’ia s’accompagne toujours d’une évaluation/mitigation de son inévitable faillibilité. Parfois l’erreur est acceptable (labellisation fausse une fois sur 1000), parfois moins (articles juridiques inexacts dans documents officiels)
précision : dans " 1. Pour faire de la recherche en language naturelle" il est entendu, transformer du language naturel en requetes (SPARQL, CubicWeb, ElacticSerach…)
Un équivalent de notre workshop sur L’IA de la résidence mais d’un autre niveau avec du big data dedans : https://www.youtube.com/watch?v=dgouFEVCG2I (surtout à partir de 1:28)
J’ai écouté et merci cela donne d’autres éléments ! Notamment les LLM locaux histoire d’utiliser la puissance matérielle des ces pc neufs ne servant qu’à de la bureautique.
J’essaie de faire un premier jet de manifeste pour vous le soumettre à relecture d’ici la fin mars.
Oui, désormais c’est super easy de faire tourner un LLM mistral en local sur son propre PC (pourvu qu’il ait un peu de RAM et un bon processeur). Ça va lentement, mais pour certains cas d’usage on a pas besoin du temps réel. Ça ouvre des possibilités !
Bonjour
On m’a fait passer le lien vers votre échange et je me permet de vous partager ce doc sur l’IA générative, qui contient aussi des ressources et des propositions :