Pour la plupart des déploiements IA en entreprise en 2026, la bonne réponse est RAG d'abord, fine-tuning sur preuve. Commencez par la génération augmentée par récupération, mesurez où le modèle échoue encore, affinez uniquement sur les modes d'échec que le RAG ne peut pas corriger. Cet article présente le raisonnement technique derrière cette recommandation, la matrice de décision qui vous permet de la personnaliser pour votre charge de travail, et le modèle hybride vers lequel convergent la plupart des systèmes en production dans leurs 18 premiers mois.
Définitions, avec les différences qui comptent
Le RAG (génération augmentée par récupération) est un modèle dans lequel un modèle IA récupère des documents pertinents depuis une base de connaissances au moment de la requête et les utilise comme contexte supplémentaire pour générer sa réponse. Les poids du modèle ne changent pas. Le comportement change parce que l'entrée change.
Le fine-tuning est le processus d'entraînement d'un modèle IA existant sur des données supplémentaires spécifiques à une tâche, afin que ses poids s'adaptent à un domaine plus restreint. Les poids du modèle changent de façon permanente (jusqu'au prochain fine-tuning). Le comportement change parce que le modèle lui-même change.
Les différences qui comptent en production :
- Mises à jour des connaissances. RAG : remplacez un document, le modèle utilise immédiatement le nouveau. Fine-tuning : relancer l'entraînement pour mettre à jour.
- Citation. RAG : le modèle peut citer directement les documents sources. Fine-tuning : les connaissances sont encodées dans les poids, sans attribution de source.
- Structure de coûts. RAG : coût d'inférence élevé (chaque requête récupère et traite plus de tokens), coût initial faible. Fine-tuning : coût initial élevé, coût par requête plus faible.
- Style / format / langage de domaine. RAG : imparfait — même avec des exemples en contexte, le style par défaut du modèle persiste. Fine-tuning : robuste — le modèle apprend les conventions.
- Sensibilité des données. RAG : les données restent dans votre entrepôt de récupération, seuls les documents correspondants à la requête en sortent. Fine-tuning : les données sont intégrées dans les poids du modèle — les attaques d'extraction contre des modèles affinés sont un domaine de recherche actif.
- Hallucinations. RAG avec exigence d'ancrage : les hallucinations chutent fortement car le modèle peut être contraint à répondre uniquement à partir des documents récupérés. Fine-tuning : les hallucinations diminuent sur les requêtes intra-domaine, mais le modèle est plus confiant sur les requêtes hors domaine — ce qui est un mode d'échec différent.
Quand utiliser le RAG
Utilisez le RAG lorsque la charge de travail dépend principalement de connaissances qui changent, de connaissances que vous devez pouvoir attribuer, ou de connaissances dont le volume est trop important pour être affiné de façon rentable.
Cas spécifiques où le RAG est le bon choix principal :
- Agents de connaissance interne. Les employés posent des questions sur les politiques, procédures, contrats, code, comptes clients. Les connaissances sont vastes, changent régulièrement et nécessitent une citation.
- Support client sur un produit documenté. La documentation est mise à jour fréquemment. Les hallucinations ont besoin de citations pour être fiables.
- Recherche juridique. La jurisprudence et les textes législatifs évoluent constamment. La citation est non négociable.
- Aide à la décision clinique en santé. La littérature médicale est mise à jour quotidiennement. L'attribution des sources est obligatoire.
- Q&R à longue traîne où la distribution des questions est trop large pour être énumérée sous forme d'exemples de fine-tuning.
L'argument économique en faveur du RAG-d'abord : dans un monde où le modèle fondamental s'améliore tous les six mois et où vous n'êtes pas propriétaire de ses poids, vous ne voulez pas miser votre comportement sur un instantané spécifique du modèle. Le RAG maintient votre différenciation dans la couche données (que vous contrôlez) plutôt que dans la couche modèle (que vous ne contrôlez pas).
Quand le fine-tuning vaut l'investissement
Utilisez le fine-tuning lorsque la charge de travail dépend d'un style, d'un format ou de conventions de domaine qui ne peuvent pas être spécifiés de façon fiable dans un prompt — ou lorsque le coût du contexte de prompt nécessaire pour les spécifier est prohibitif à grande échelle.
Cas spécifiques où le fine-tuning justifie l'investissement :
- Résultats très stylisés. Une voix d'écriture spécifique, un modèle de document particulier, un style de code particulier sur des milliers de générations.
- Langage de domaine. Terminologie spécialisée où les modèles généralistes hésitent ou utilisent la mauvaise formulation.
- Classification à grande échelle. Classification à un million de requêtes par jour où réduire même 200 tokens de préfixe de prompt par requête représente une économie significative.
- Conformité de format. Résultats devant correspondre à un schéma JSON précis, un format réglementaire ou un protocole de système hérité avec un taux d'erreur très faible.
- Distillation. Compresser le comportement d'un modèle frontier sur une tâche spécifique dans un modèle plus petit et moins coûteux — souvent l'utilisation du fine-tuning la plus rentable en 2026.
Le cas où le fine-tuning n'est pas la bonne réponse malgré une apparence séduisante : l'encodage de connaissances factuelles dans le modèle. Intégrer votre base de données clients dans un modèle affiné est techniquement possible et presque toujours moins efficace que le RAG. Les mises à jour sont lentes, la citation est impossible, et les attaques d'extraction de données deviennent une vraie préoccupation.
Une matrice de décision
| Exigence | RAG fort | Fine-tuning fort | |---|---|---| | Les connaissances changent mensuellement ou plus souvent | Oui | Non | | Citation des sources requise (juridique, clinique, audit) | Oui | Non | | Cohérence du style ou du format sur les générations | Non | Oui | | Vocabulaire de domaine spécialisé | Mixte | Oui | | Le volume justifie la réduction du coût de prompt | Non | Oui | | Les données sont sensibles et ne doivent pas quitter un entrepôt contrôlé | Oui | Non | | Doit fonctionner sur un petit modèle on-premise | Mixte | Oui | | Le taux d'hallucination doit être très faible | Oui | Mixte |
La plupart des charges de travail présentent des exigences dans les deux colonnes. Le modèle hybride ci-dessous est ce à quoi ressemblent réellement les systèmes en production.
Le modèle hybride
L'architecture vers laquelle convergent la plupart des équipes IA d'entreprise dans les 12 à 18 mois suivant le déploiement :
- Un modèle fondamental frontier comme noyau de raisonnement (Claude, GPT ou Gemini).
- Une couche RAG pour toutes les connaissances changeantes ou attribuables — documentation interne, données clients, textes réglementaires, flux de données en temps réel.
- Un modèle affiné de taille réduite pour les sous-tâches spécifiques de formatage ou de classification à fort volume où le coût du prompt domine.
- Une politique d'ancrage — le système est configuré pour refuser de répondre lorsque la récupération ne renvoie pas de documents pertinents au-dessus d'un seuil de confiance, ou pour signaler l'incertitude dans la réponse.
- Un harnais d'évaluation qui exécute le même ensemble de requêtes de test contre le système à chaque déploiement, détectant les régressions dans la couche de récupération ou la couche modèle.
Les frontières entre (1) et (3) évoluent dans le temps, à mesure que les modèles affinés de taille réduite comblent l'écart sur des tâches spécifiques, et que les modèles frontier développent des capacités qui nécessitaient auparavant du fine-tuning.
Le calcul des coûts : le point d'inflexion
La version simplifiée de la décision sur les coûts :
- Coût marginal RAG par requête ≈ (tokens récupérés × prix d'entrée) + (tokens de sortie × prix de sortie). Pour une fenêtre de récupération de 10 000 tokens avec un modèle frontier aux tarifs 2026, ~0,03 $ par requête.
- Coût marginal modèle affiné par requête ≈ (tokens d'entrée × prix d'entrée) + (tokens de sortie × prix de sortie), où le préfixe de prompt est beaucoup plus court car le formatage/style est dans les poids. ~0,005 $ par requête pour un petit modèle affiné.
Le croisement se produit à environ 6 millions de requêtes par an pour une charge de travail qui ne nécessite pas de citation et dont les connaissances sont stables. En dessous, le RAG l'emporte. Au-dessus, le fine-tuning commence à s'amortir. La plupart des flux d'entreprise se situent en dessous du croisement. Les flux de support client et grand public se situent au-dessus.
Une analyse de coûts plus complète inclut le coût de construction (RAG : pipeline de données, entrepôt vectoriel, ajustement de la récupération ; fine-tuning : préparation des données, entraînement, évaluation), le coût de maintenance (RAG : actualisation de l'index, surveillance de la qualité de récupération ; fine-tuning : ré-entraînement quand le modèle fondamental est déprécié), et le coût d'enfermement fournisseur (RAG : portable entre modèles ; fine-tuning : lié à l'instantané spécifique du modèle fondamental).
Les modes d'échec à anticiper
Le RAG échoue quand :
- La récupération est médiocre. Le modèle reçoit des documents non pertinents et les utilise avec assurance. C'est le mode d'échec dominant dans les systèmes RAG en production, et il est corrigeable par un travail sur la qualité de la récupération — mais c'est précisément le travail que la plupart des équipes sautent.
- Les documents se contredisent. Deux documents récupérés sont en désaccord. Le modèle en choisit un sans preuve. Remède : détection explicite des conflits, présentation des deux avec citation.
- La requête nécessite un raisonnement sur de nombreux documents. Le RAG en passe unique renvoie un nombre fixe de documents ; le raisonnement multi-saut nécessite soit une récupération itérative, soit des modèles à contexte plus long.
- Le vocabulaire de l'utilisateur ne correspond pas aux documents. La recherche sémantique comble la plupart de l'écart ; l'expansion de requête comble davantage. Une mauvaise correspondance par mots-clés reste une vraie surface d'échec.
Le fine-tuning échoue quand :
- Les données d'entraînement contiennent un biais que l'équipe n'a pas remarqué. Le modèle affiné l'amplifie. Remède : évaluation des biais comme condition de déploiement.
- La distribution change après l'entraînement. Le monde évolue ; le modèle ne s'en aperçoit pas. Remède : surveillance de la dérive + calendrier de ré-entraînement.
- Le modèle fondamental est déprécié. Les poids affinés sont liés à un modèle de base spécifique. Quand le fournisseur retire ce modèle de base, vous ré-entraînez. Remède : prévoyez ce coût dès le départ.
- Les données d'entraînement étaient insuffisantes. Affiner un petit modèle sur trop peu de données produit du surapprentissage ; affiner un grand modèle sur trop peu de données modifie le comportement de façon imprévisible. Remède : seuils minimum de données avant de valider le fine-tuning.
Une grille de décision en cinq questions
Si vous devez choisir une architecture de départ pour une nouvelle charge de travail, travaillez ces questions dans l'ordre :
- La réponse change-t-elle à mesure que votre base de connaissances évolue ? → RAG.
- Le système doit-il citer ses sources ? → RAG.
- La charge de travail porte-t-elle principalement sur la cohérence du style, du format ou de la terminologie ? → Fine-tuning (souvent distillation du modèle frontier sur des exemples de style).
- Traitez-vous plus de 5 millions de requêtes/an d'un flux stable sans citation ? → Le fine-tuning devient économiquement attractif.
- Aucune des réponses précédentes ne domine ? → Par défaut le RAG. Il est moins coûteux à démarrer, plus facile à itérer, et le chemin pour ajouter du fine-tuning ultérieurement est bien balisé.
Ce que cet article n'est pas
Ce n'est pas un guide d'outils. Nous n'avons cité ni une base de données vectorielle spécifique, ni un modèle d'embedding particulier, ni un fournisseur de fine-tuning précis — ces décisions sont en aval du choix architectural et dépendent de votre cloud existant, de vos exigences de résidence des données, et des compétences actuelles de votre équipe. Une fois l'architecture choisie, les outils deviennent des choix de commodité.
Si vous souhaitez de l'aide pour mapper votre charge de travail spécifique à la bonne architecture — incluant des estimations de coûts de construction, des références de qualité de récupération, et un plan de maintenance — réservez une session de travail. Le résultat d'une session de quatre-vingt-dix minutes est un document de décision architecturale rempli avec des sources pour chaque affirmation, prêt à être soumis à votre revue d'ingénierie.