Comment fonctionne la base de connaissances

Découvrez le fonctionnement de la recherche augmentée par génération (RAG) : comment votre bot trouve et utilise les informations de votre base de connaissances.

LE PRINCIPE DU RAG (RETRIEVAL-AUGMENTED GENERATION)

Le RAG est la technologie au cœur de votre base de connaissances. Plutôt que de s'appuyer uniquement sur les connaissances générales du modèle de langage, votre bot recherche activement dans vos documents les informations pertinentes pour chaque question posée par un client.

Ce mécanisme garantit que les réponses de votre bot sont spécifiques à votre entreprise, à jour et exactes.

RECHERCHE MULTI-QUERY

Lorsqu'un client pose une question, le système ne se contente pas d'une recherche simple. Il utilise une approche multi-query qui reformule la question de l'appelant en plusieurs requêtes de recherche différentes pour maximiser les chances de trouver les informations pertinentes.

Par exemple, si un client demande « C'est combien la margherita ? », le système recherchera simultanément des termes comme « prix margherita », « tarif pizza » et « menu prix » dans votre base de connaissances.

SÉLECTION DES RÉSULTATS (TOP-5)

Parmi tous les chunks de texte indexés dans Qdrant, le système sélectionne les 5 résultats les plus pertinents (top-5) en fonction de leur similarité sémantique avec la question du client.

Ces 5 extraits sont ensuite injectés dans le contexte du modèle de langage (LLM), qui les utilise pour formuler une réponse précise et complète. Le bot cite les informations de vos documents sans inventer de réponses.

FLUX COMPLET DE LA RECHERCHE

Voici le parcours complet d'une question client, du début à la réponse :

Le client pose sa question par téléphone
La voix est transcrite en texte par Deepgram
Le texte est analysé et reformulé en requêtes de recherche (multi-query)
Qdrant effectue une recherche vectorielle dans la collection du tenant
Les 5 résultats les plus pertinents sont extraits
Le LLM (GPT-4o-mini / Claude Haiku) reçoit la question + les 5 extraits en contexte
Le LLM génère une réponse informée et précise
La réponse est convertie en voix par Cartesia et diffusée au client

Frequently asked questions

QUE SE PASSE-T-IL SI LA RÉPONSE N'EST PAS DANS LA BASE DE CONNAISSANCES ?

Si aucune information pertinente n'est trouvée dans votre base de connaissances, le bot l'indiquera honnêtement au client et proposera de le transférer vers un agent humain ou de prendre note de sa demande pour un rappel.

POURQUOI 5 RÉSULTATS ET PAS PLUS ?

Le nombre de 5 résultats (top-5) est un équilibre optimal entre la pertinence et les performances. Plus de résultats augmenteraient le temps de réponse sans améliorer significativement la qualité, car les résultats au-delà du top-5 sont généralement moins pertinents.

Conseil : Pour obtenir les meilleures performances RAG, rédigez vos documents de manière claire et structurée, en utilisant le vocabulaire que vos clients emploient naturellement.