Déb/u/o/gue tes humanités
Saison 05a : « Qu’est-ce qu’IA ? »

Synthèse des sources et Recherche d'Information

Formateur·trice·s :
Alexia Schneider
Lieu :
Bibliothèque des lettres et sciences humaines
Date et heure :
(15:30)
Impression (bêta) :
Version imprimable

# Programme de la séance

  1. Introduction et rappels
  2. Les systèmes complexes intégrant de l’IA: les agents IA
  3. le RAG
  4. RAG et applications généralistes
  5. Les Assistants de recherche ‘AI powered’

# Présentation et objectif des ateliers

Format : 4 séances de 2heures, sans inscription, participation libre (à justifier pour le certificat des Humanités Numériques)

Objectifs de la série d’atelier :

# Certificat canadien en Humanités Numériques

Certificat canadien en Humanités Numériques

Certificat canadien en Humanités Numériques

Information sur le certificat

# Les fondamentaux : rappels

# Qu’est ce que l’IA ?

Des programmes informatiques que nous estimons à la hauteur de l’intelligence humaine ? Le développement des technologies fait évoluer cette définition de l’intelligence non seulement artificielle mais aussi humaine.

‘IA’ depuis 5 ans, a remplacé le ’numérique’ des années 2010, et le ‘cyberespace’ des années 1990 et 2000. (Citation: , ) (). Manifeste pour des Études Critiques de l’Intelligence Artificielle. Consulté à l’adresse http://blog.sens-public.org/marcellovitalirosati/manifeste-ecia.html .

Définition pratique pour ces ateliers: « un programme informatique qui effectue une prédiction. »

# Rappels : histoire de la discipline

# Rappels : IA symbolique / IA connexionniste

Plongements lexicaux ou word embeddings

Plongements lexicaux ou word embeddings

Comparaison de vecteurs dans un espace à deux dimensions

Comparaison de vecteurs dans un espace à deux dimensions

Classification avec algorithme K-Nearest-Neighbor d’une troisième phrase

Classification avec algorithme K-Nearest-Neighbor d’une troisième phrase

# Rappel sur les LLMs

# Des systèmes d’IA complexes

# Quelle complexité ?

IA, dite générative ou d’automatisation de la prédiction de token, effectue aujourd’hui des tâches complexes à deux niveaux:

# Exemple de système d’IA complexe: les agents

Un agent est une série d’appels à un LLM : l’agent est ce qui permet d’enchaîner input et output jusqu’à complétion d’une tâche. Le résultat de ces interactions peut ne pas être une réponse en langue naturelle ex: activation d’une fonction.

Autrement dit, un agent est une « IA » qui se répond à elle-même.

On parlera de système agentique quand plusieurs agents interagissent.

Démonstration d’un agent : assistant à l’exploration et la création de note sur un tableau interactif de (Citation: , ) (). ianarawjo/splat. Consulté à l’adresse https://github.com/ianarawjo/splat

# Définition hypée des IA agentiques

Description des IA agentiques par Docker

Description des IA agentiques par Docker

(Citation: & al., ) & (). GenAI vs. Agentic AI: What Developers Need to Know. Consulté à l’adresse https://www.docker.com/blog/genai-vs-agentic-ai/

# Description pas hypée de l’agent conversationnel de la démo

# Applications de chat actuelles

Depuis GPT-3.5 et sa sortie publique en décembre 2022, l’application ChatGPT ne se contente pas d’envoyer seul le prompt de l’utilisateur pour interroger le LLM: dans le prompt global, on trouve un ensemble d’instructions préliminaires (le system prompt) et d’informations complémentaires comme l’historique des échanges (chat history).

Depuis décembre 2024, le Model Context Protocol (MCP) permet l’intégration modulaire de l’interface de chat à d’autres fonctionalités.

Le MCP[^mcp]

Le MCP[^mcp]

Exemple : la fonction search => RAG

# Recherche d’information et synthèse des sources

# Retrieval Augmented Generation

Limites du LLM:

-> perte de fiabilité

Le RAG : architecture de système d’IA qui repose sur une base de connaissance externe dans le but d’améliorer les réponses d’une IA générative sans demander d’entrainement supplémentaire (fine tuning). (Citation: & al., ) , , , , , , , , , , & (). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. https://doi.org/10.48550/arXiv.2005.11401 (Facebook, University College London, New York University)


Superbe diagramme d’un RAG

Superbe diagramme d’un RAG

# RAG en bref

Requête d’une base de données1 avec des méthodes de Recherche d’Information (TF-iDF ou similarité cosinus) + intégration des morceaux extraits au prompt. Le LLM effectue une synthèse. Ex: NotebookLM

# Points d’attention sur le RAG

# RAG des applications de chat généralistes

# Exemple: ChatGPT

We collaborated extensively with the news industry and carefully listened to feedback from our global publisher partners, including Associated Press, Axel Springer, Condé Nast, Dotdash Meredith, Financial Times, GEDI, Hearst, Le Monde, News Corp, Prisa (El País), Reuters, The Atlantic, Time, and Vox Media. Any website or publisher can choose to appear⁠(opens in a new window) in ChatGPT search. If you’d like to share feedback, please email us at publishers-feedback@openai.com⁠. —  (Citation: , ) (). Introducing ChatGPT search. Consulté à l’adresse https://openai.com/index/introducing-chatgpt-search/

  1. Reformulation de l’entrée utilisateur en une ou plusieurs requêtes
  2. Requêtes envoyées à Bing et Shopify2 et sur leur base de données interne (médias partenaires).
  3. Re-ranking ?
  4. Réponse généré depuis le prompt contenant les informations extraites (+ system prompt, chat history etc.)

-> Atlas, un navigateur avec chatGPT comme « moteur de recherche » par défaut. (Citation: , ) (). ChatGPT’s Atlas: The Browser That’s Anti-Web - Anil Dash. Consulté à l’adresse https://anildash.com/2025/10/22/atlas-anti-web-browser/ parle d’un navigateur ‘anti-web’:

By keeping the ChatGPT sidebar open while you browse, and giving it permission to look over your shoulder, OpenAI can suddenly access all kinds of things on the internet that they could never get to on their own.

# Exemple: Le Chat de Mistral

Partenariat avec l’AFP depuis janvier 2025 (Citation: , ) (). AFP and Mistral AI announce global partnership to enhance AI responses with reliable news content | AFP.com. Consulté à l’adresse https://www.afp.com/en/agency/inside-afp/press-release/afp-and-mistral-ai-announce-global-partnership-enhance-ai-responses . Opacité quant à la méthode de recherche d’information sur internet3.

# Assistants de recherche AI

# Qui ? quoi ?

Qu’est-ce qu’on entend par IA dans ce cas ?

5 à 6 niveaux d’intervention possible !

# Création de métadonnées

Désambiguisation, keywords, classification de topics, abstract. (OpenAlex, Isidore? -> ML pour attribution de sujets reliés).

# Expansion de requête

  1. Méthodes sans IA : thésaurus, ontologies.

  2. Query expansion avec un LLM: « Écrit 10 variants de la requête suivantes »

# Méthodes de Recherche d’information

  1. Méthodes classiques (non IA ?):

    • recherche exacte4 avec opérateurs booléens: ex: ‘citation’ retourne ‘The decrease in uncited articles and its effect on the concentration of citations’
    • recherche lexicale statistique: TF-iDF (term frequency inverse document frequency) et BM25 -> ranking de la recherche terme par rapport à sa présence dans le corpus.
    • ex: SemanticScholar, Isidore
  2. Recherche sémantique (semantic search/dense retrieval) utilisation des plongements lexicaux de modèles types encodeur (BERT) ou décodeur (e.g. GPT) lors de la recherche: représentation vectorielle de la requête et de l’entièreté de la base de données -> mesure de similarité cosinus.

    • ex: fonction « Semantic Results » de JSTOR
  3. Recherche hybride (hybrid search): mélange de 1. et 2. (pas forcément 50/50).

-> Impact sur la manière de requêter: 1. par mot-clé, 2. ’en langue naturelle’.

# Reranking

Classement des articles présentés selon un critère de pertinence par rapport à la requête.

  1. ML classique (entraînement d’un modèle au classement)

  2. Comparaison de vecteurs (requête/titre de l’article): score = proximité. ex: Primo search assistant5

  3. Évaluation par un LLM type ‘gen AI’ : prompt de classement ou catégorisation de pertinence. Fournissent les explications: Ex: Asta


Asta présente la justification de la catégorie de pertinence

Asta présente la justification de la catégorie de pertinence

# Reranking (suite)

  1. Ajout de critères externes Ex: semantic Scholar, « highly-cited papers »

# Enrichissement de la liste de résultats

Google Scholar Labs donne une explication de la présence de l’article dans la liste de résultat

Google Scholar Labs donne une explication de la présence de l’article dans la liste de résultat

# Synthèse des articles ou assistant de revue de littérature

Synthèse des articles extraits pour répondre à une question en langue naturelle => RAG.

  1. RAG simple: Elicit, SciSpace (source: Semantic Scolar, Open Alex), fonction TLDR de Semantic Scholar.

  2. Deep research : Agentic AI, spécialisation de plusieurs agents, retourne un rapport complet en quelques minutes. Fonctionalités spécialisés Ex: Consensus fonctionalité « Study Snapchot ».


Undermind.ai

Undermind.ai

source

# Limites des outils de synthèse

The AI-generated things get propagated into other real things, so students see them cited in real things and assume they’re real, and get confused as to why they lose points for using fake sources when other real sources use them (Citation: , ) (). AI Is Inventing Academic Papers That Don’t Exist – And They’re Being Cited in Real Journals. Consulté à l’adresse https://www.rollingstone.com/culture/culture-features/ai-chatbot-journal-research-fake-citations-1235485484/

# Overview par Aaron Tay

Synthèse des outils d’IA

Synthèse des outils d’IA

Pour suivre ces questions, suivre Aaron Tay : https://aarontay.substack.com/ (Citation: , ) (). What Do We Actually Mean by « AI-Powered Search »?. Consulté à l’adresse https://aarontay.substack.com/p/what-do-we-actually-mean-by-ai-powered

# Échanges et questions

# Prochains ateliers débogue

Le matériel informatique : trésor ou ordure ? 29 janvier, même heure même lieu

Rester à la fine pointe de la technologie, ça coûte cher. Mais est-ce même utile ? Est-ce que ça se fait de seulement remplacer la batterie de son ordinateur, ou un disque pour rendre sa machine plus rapide ? C’est souvent plus facile qu’on le pense ! Avec cette démo, on vous aide à garder votre machine plus longtemps, et votre argent dans vos poches !

Documentation des nouvelles pratiques liées à l’utilisation de l’IA : préconisations pour les SHS 12 mars, même heure même lieu

# Références

(2025)
(). AFP and Mistral AI announce global partnership to enhance AI responses with reliable news content | AFP.com. Consulté à l’adresse https://www.afp.com/en/agency/inside-afp/press-release/afp-and-mistral-ai-announce-global-partnership-enhance-ai-responses
Arawjo (2026)
(). ianarawjo/splat. Consulté à l’adresse https://github.com/ianarawjo/splat
Bigendako & Syriani (2026)
& (). Modeling a Tool for Conducting Systematic Reviews Iteratively. Consulté à l’adresse https://www.scitepress.org/Link.aspx?doi=10.5220/0006664405520559
Dash (2025)
(). ChatGPT’s Atlas: The Browser That’s Anti-Web - Anil Dash. Consulté à l’adresse https://anildash.com/2025/10/22/atlas-anti-web-browser/
Irwin & Xu (2025)
& (). GenAI vs. Agentic AI: What Developers Need to Know. Consulté à l’adresse https://www.docker.com/blog/genai-vs-agentic-ai/
Klee (2025)
(). AI Is Inventing Academic Papers That Don’t Exist – And They’re Being Cited in Real Journals. Consulté à l’adresse https://www.rollingstone.com/culture/culture-features/ai-chatbot-journal-research-fake-citations-1235485484/
Lewis, Perez, Piktus, Petroni, Karpukhin, Goyal, Küttler, Lewis, Yih, Rocktäschel, Riedel & Kiela (2021)
, , , , , , , , , , & (). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. https://doi.org/10.48550/arXiv.2005.11401
(2024)
(). Introducing ChatGPT search. Consulté à l’adresse https://openai.com/index/introducing-chatgpt-search/
Tay (2025)
(). What Do We Actually Mean by « AI-Powered Search »?. Consulté à l’adresse https://aarontay.substack.com/p/what-do-we-actually-mean-by-ai-powered
Turing (1950)
(). Computing Machinery and Intelligence. Mind, LIX(236). 433–460. https://doi.org/10.1093/mind/LIX.236.433
Vitali-Rosati (2025)
(). Manifeste pour des Études Critiques de l’Intelligence Artificielle. Consulté à l’adresse http://blog.sens-public.org/marcellovitalirosati/manifeste-ecia.html

# Merci !


  1. ou d’un moteur de recherche ↩︎

  2. https://help.openai.com/en/articles/9237897-chatgpt-search#h_e40ba06c5b ↩︎

  3. https://docs.mistral.ai/agents/tools/built-in/websearch ↩︎

  4. ou regex! ↩︎

  5. Source: https://knowledge.exlibrisgroup.com/Primo/Product_Documentation/020Primo_VE/Primo_VE_(English)/015_Getting_Started_with_Primo_Research_Assistant ↩︎