Score d'accordComment Alethe AI mesure si les modèles sont vraiment d'accord — et pas juste d'accord sur les mots.
Le problème de la comparaison de texteDeux réponses peuvent utiliser des mots complètement différents et vouloir dire la même chose — ou au contraire, utiliser les mêmes mots et vouloir dire le contraire. Une comparaison mot-à-mot serait inutile.
Même sens, mots différents"L'IA doit être régulée" ≈ "Des garde-fous juridiques sont nécessaires pour l'intelligence artificielle"
Mêmes mots, sens opposé"La liberté est essentielle" (libérale) vs "La liberté sans limites est dangereuse" (régulatrice)
La solution : les embeddings vectorielsUn embedding est une représentation mathématique du sens d'un texte sous forme de vecteur — un tableau de centaines de chiffres. Deux textes sémantiquement proches produisent des vecteurs proches dans l'espace vectoriel.
Le calcul du score
1
Embeddings générésChaque réponse IA est convertie en vecteur par un modèle d'embeddings.
2
Similarité cosinusOn calcule la similarité cosinus entre chaque paire de vecteurs : un angle faible = idées proches.
3
Score agrégéLa moyenne des similarités donne le score d'accord global, exprimé en pourcentage.
Les seuils de consensusLe seuil détermine à partir de quel score l'arbitre est déclenché. Un seuil plus élevé = consensus plus strict = réponse finale plus fiable.
Free & Pro80 %4 réponses sur 5 convergent vers la même idée
Ultra & Apex90 %Quasi-unanimité requise — consensus plus exigeant
Que se passe-t-il selon le score ?
Score ≥ seuilL'arbitre est déclenché. Le débat entre dans sa phase finale.
Score < seuilUn nouveau round s'ouvre. Les désaccords identifiés sont injectés dans les prompts pour forcer la convergence.
Rounds max atteintsL'arbitre est quand même déclenché pour produire le meilleur consensus possible avec les données disponibles.