Métricas de Factualidade e Fidelidade para Modelos de Linguagem com RAG
Por Fábio Gomes, jan 8 2026 0 Comentários

Se você já usou um assistente de IA que respondeu algo que parecia correto, mas depois descobriu que era totalmente falso, não está sozinho. Isso acontece com frequência em sistemas de RAG - modelos de linguagem que buscam informações na web ou em bancos de dados antes de responder. A promessa é clara: respostas mais precisas, baseadas em fatos reais. Mas a realidade é mais complicada. Como saber se o que a IA está dizendo é verdadeiro? E como garantir que ela não está inventando coisas, mesmo que pareça confiante?

O que é factualidade e fidelidade no RAG?

Factualidade e fidelidade são duas métricas fundamentais para avaliar a qualidade das respostas geradas por sistemas RAG. A factualidade mede se a informação gerada corresponde à realidade - ou seja, se é verdadeira, verificável e baseada em fontes confiáveis. A fidelidade, por outro lado, mede se a resposta se mantém fiel ao contexto recuperado. Uma resposta pode ser fiel - ou seja, copiar exatamente o que foi encontrado - mas ainda assim ser falsa, se o contexto em si estiver errado ou incompleto.

Por exemplo: imagine que você pergunta a um sistema RAG: "Qual é a taxa de sobrevivência do câncer de pâncreas em estágio 4?" O sistema recupera um artigo antigo que diz 5%. Mas um estudo recente, publicado meses depois, mostra que a taxa subiu para 11%. Se o sistema não atualizar sua busca e continuar usando o dado antigo, ele é fiel ao contexto - mas não é factual. Isso é um problema grave em áreas como saúde, finanças ou direito, onde uma resposta errada pode ter consequências reais.

Os quatro pilares da factualidade

Segundo pesquisadores da Aman.ai em 2024, uma avaliação robusta de factualidade precisa considerar quatro componentes:

  1. Base objetiva: Cada afirmação deve poder ser verificada por fontes confiáveis - não apenas por um único documento recuperado.
  2. Avaliação granular: Não basta julgar a resposta como um todo. É preciso analisar cada afirmação individualmente. Uma resposta pode ter 90% de verdade e 10% de mentira - e mesmo esse 10% pode ser perigoso.
  3. Sensibilidade ao tamanho: Avaliar uma resposta curta (como uma frase) exige métodos diferentes de avaliar um parágrafo ou um relatório completo.
  4. Independência de referência: Não se pode confiar apenas no texto recuperado. É necessário comparar com múltiplas fontes ou dados dinâmicos, como buscas em tempo real.

Essa última condição é o que diferencia o SAFE (Search-Augmented Factuality Evaluator), criado por Wei et al. em 2024, de métodos antigos. Enquanto sistemas tradicionais avaliam a resposta contra um único documento recuperado, o SAFE faz uma nova busca durante a avaliação, buscando evidências adicionais. Isso reduz drasticamente os falsos positivos - ou seja, respostas que parecem erradas, mas na verdade são corretas, apenas não estão no contexto original.

Métricas técnicas: precisão e recall do contexto

O RAGAS (Retrieval-Augmented Generation Assessment Suite) é uma das ferramentas mais usadas para medir a qualidade do RAG. Ele usa duas métricas centrais:

  • Precisão do contexto: Quantos dos documentos recuperados foram realmente úteis? Calculado como: (número de evidências relevantes usadas) / (total de evidências usadas). Se o sistema puxa 10 documentos, mas só 2 são úteis, a precisão é de 20% - muito baixa.
  • Recall do contexto: Todos os documentos relevantes foram encontrados? Calculado como: (número de evidências relevantes usadas) / (total de evidências relevantes disponíveis). Se havia 5 documentos úteis, mas o sistema só encontrou 2, o recall é de 40% - ou seja, ele perdeu 60% do que precisava.

Essas métricas revelam um dilema: aumentar o recall (buscar mais documentos) pode piorar a precisão, porque o modelo se confunde com informações irrelevantes. Reduzir o recall pode fazer o sistema perder fatos essenciais. O equilíbrio é delicado.

Além disso, há a métrica de fidelidade - que mede se as afirmações da resposta são realmente suportadas pelo contexto recuperado. Ferramentas como AttributionEval usam o conceito de entailment citation: se a IA cita um trecho como base para uma afirmação, esse trecho deve logicamente implicar essa afirmação. Se não implicar, é uma falha de fidelidade.

Ilustração técnica de uma lupa revelando falsidades em um contexto recuperado, enquanto fatos verificados brilham de múltiplas fontes.

Como as métricas são avaliadas na prática?

Existem três abordagens principais:

  1. Correspondência de texto: Verifica se palavras ou frases da resposta aparecem exatamente nos documentos recuperados. É simples, mas pode falhar em casos onde a IA reescreve a informação com outras palavras - mesmo que seja correta.
  2. Verificação por IA: Usa outro modelo de linguagem como "juiz". Por exemplo, o prompt: "A resposta é fiel ao contexto recuperado? Ela adiciona informações não suportadas, omite detalhes importantes ou contradiz a fonte? Responda 'fiel' ou 'não fiel'." Essa abordagem é mais flexível, mas pode ser inconsistente - especialmente se o "juiz" também tiver vieses ou erros.
  3. Avaliação humana: Ainda é o padrão ouro. Especialistas revisam respostas e marcam o que é factual, o que é falso e o que é incompleto. Mas é caro, lento e difícil de escalar.

Um estudo de Wang et al. em 2023 mostrou que mesmo modelos avançados como GPT-4, quando usados como verificadores, só conseguem identificar afirmações falsas com precisão de 63% (F1=0.63). Isso significa que quase 4 em cada 10 erros passam despercebidos - mesmo com tecnologia de ponta.

Os principais conjuntos de dados para avaliação

Para testar modelos RAG, pesquisadores usam conjuntos de dados específicos. Os mais relevantes são:

  • TruthfulQA: 817 perguntas projetadas para testar crenças falsas comuns - como "O cérebro humano usa apenas 10% de sua capacidade?" - e mede se o modelo cai na armadilha da falsa popularidade.
  • HotpotQA: 113 mil perguntas que exigem raciocínio em múltiplos passos e a integração de informações de várias fontes. Ideal para testar fidelidade e contextualização.
  • FactScore-Bio: Usado para avaliar respostas em domínios médicos, com afirmações verificadas contra bases de dados científicos.
  • StrategyQA: 2.780 perguntas que exigem inferência lógica, como "Será que o Titanic afundou porque colidiu com um iceberg?" - para ver se o modelo entende causalidade.

Esses conjuntos de dados não são apenas testes acadêmicos. Empresas que usam RAG em atendimento ao cliente, assistência médica ou análise jurídica já os adotam para garantir que seus sistemas não estejam propagando mitos ou erros.

Desafios reais na implementação

Implementar essas métricas não é fácil. Os principais obstáculos são:

  • Fatos em constante mudança: Um fato pode ser verdadeiro hoje e falso amanhã. Sistemas que não atualizam continuamente suas fontes correm o risco de se tornar obsoletos rapidamente.
  • Alucinações em cadeia: Um erro pequeno na recuperação pode levar a uma resposta errada, que por sua vez gera uma nova resposta errada - e assim por diante.
  • Custo computacional: Avaliações como SAFE exigem múltiplas chamadas de API, o que aumenta o tempo e o custo de cada resposta.
  • Diferenças de domínio: O que é factual em medicina não é o mesmo que em direito ou marketing. Um modelo treinado para um setor não funciona bem em outro sem ajustes específicos.

Além disso, há o problema da ambiguidade. Às vezes, mesmo humanos não concordam se uma afirmação é verdadeira ou não - especialmente quando envolve incertezas científicas ou interpretações legais. Nesses casos, o sistema precisa saber dizer: "Não tenho certeza" - e não inventar uma resposta.

Estilo de quadrinhos: IA desafiando um contexto obsoleto, com avaliador SAFE verificando fatos em tempo real.

Adoção na indústria: onde e por que?

Segundo o relatório da Evidently AI de novembro de 2024, a adoção de métricas de factualidade e fidelidade varia muito por setor:

  • Saúde e finanças: 85% das empresas usam essas métricas. Regulamentações rigorosas e riscos legais obrigam.
  • Marketing e vendas: Apenas 45% as usam. O foco é na persuasão, não na precisão absoluta.

Gartner prevê que 70% das empresas usarão RAG em 2025 - mas apenas aquelas que implementam métricas de qualidade terão sucesso. A principal motivação? Mitigação de riscos (78%) e garantia de qualidade (63%). O maior obstáculo? Custo (42%).

As soluções mais populares hoje são:

  • RAGAS: Open-source, com mais de 1.200 estrelas no GitHub. Ideal para equipes técnicas que querem controle total.
  • Weights & Biases Guardrails: Solução comercial com integração fácil em pipelines de ML. Popular em empresas que já usam W&B.
  • Patronus.ai: Foco em fidelidade e segurança, com avaliações em tempo real. Recebeu US$ 4,2 milhões em financiamento em 2024.

Uma tendência clara: as empresas estão deixando de usar uma única métrica e passando a combinar 3, 4 ou até 5 métricas ao mesmo tempo. Ninguém confia mais em uma única pontuação para decidir se uma resposta é segura.

O futuro: o que vem por aí?

Em maio de 2025, foi lançado o FRANQ - um novo conjunto de dados para avaliar não só factualidade, mas também incerteza. Ele pede aos modelos que não apenas respondam, mas também indiquem o nível de confiança. Isso é crucial: às vezes, a melhor resposta é "não sei".

Estudos da Google Research apontam para um objetivo claro: até 2026, criar verificadores automáticos com precisão acima de 85% (F1 > 0.85). Isso ainda está longe, mas o progresso é real. A NIST (Instituto Nacional de Padrões e Tecnologia dos EUA) está liderando o esforço para padronizar protocolos de avaliação - o que pode levar a regulamentações formais na UE e nos EUA até 2027.

Até lá, a recomendação mais prática é simples: combinação. Use recuperação inteligente, adicione "guardrails" (como "não responda se não tiver certeza") e avalie continuamente com múltiplas métricas. Não espere que uma única ferramenta resolva tudo. A factualidade não é um botão que você liga - é um processo contínuo.

Como começar a avaliar seu sistema RAG?

Se você está começando, não tente fazer tudo de uma vez. Siga este passo a passo:

  1. Meça a precisão do contexto: Quantos dos documentos recuperados são realmente úteis? Se for abaixo de 50%, seu sistema está puxando muita informação irrelevante.
  2. Use um verificador simples: Implemente uma verificação por correspondência de texto. Veja se as respostas contêm pelo menos uma frase do contexto recuperado.
  3. Teste com um conjunto de dados pequeno: Use 20 perguntas de TruthfulQA ou FactScore-Bio. Veja quantas respostas são falsas ou inventadas.
  4. Adicione um "juiz" de IA: Use um prompt simples para avaliar fidelidade. Comece com 50 respostas e revise manualmente 10 delas para ver se o "juiz" está acertando.
  5. Implemente guardrails: Configure seu sistema para recusar respostas quando a confiança for baixa. Melhor não responder do que mentir.

Isso não vai eliminar todos os erros - mas vai reduzi-los drasticamente. E em áreas onde a precisão é vital, isso faz toda a diferença.

O que é a diferença entre factualidade e fidelidade em sistemas RAG?

Factualidade mede se a resposta está correta de acordo com fatos reais do mundo. Fidelidade mede se a resposta está alinhada com o contexto recuperado - mesmo que esse contexto esteja errado. Um sistema pode ser fiel a um documento falso e ainda assim gerar uma resposta incorreta. Ambas as métricas são necessárias: a fidelidade garante que a IA não invente, e a factualidade garante que ela não se baseie em mentiras.

Por que métricas como BLEU e ROUGE não funcionam bem para RAG?

BLEU e ROUGE comparam a resposta gerada com uma resposta "ideal" escrita por humanos. Mas em RAG, o que importa não é o quão parecida a resposta é com um gabarito - e sim se ela está corretamente baseada nos documentos recuperados. Uma resposta pode ser muito diferente do gabarito, mas ainda ser factual e fiel. Essas métricas tradicionais não conseguem medir a relação com o contexto, apenas a similaridade textual.

É possível confiar em modelos de IA que usam RAG para respostas médicas?

Só se a avaliação de factualidade e fidelidade for rigorosa e contínua. Em hospitais e clínicas que usam RAG, é comum combinar múltiplas métricas, verificação humana e guardrails que impedem respostas em casos de incerteza. Mas em sistemas sem esses controles, o risco é alto. Um erro em um diagnóstico ou tratamento pode ser fatal. Por isso, 85% das empresas de saúde já implementam essas métricas - e ninguém deveria confiar em RAG sem elas.

O que é o SAFE e por que ele é importante?

SAFE (Search-Augmented Factuality Evaluator) é um sistema criado por pesquisadores do Google em 2024 que reavalia a factualidade da resposta fazendo novas buscas em tempo real. Ao contrário de métodos tradicionais, que usam apenas o contexto inicial, o SAFE busca evidências adicionais para confirmar ou refutar cada afirmação. Isso resolve o problema da "independência de referência" - ou seja, evita que o sistema seja enganado por um contexto ruim. É uma das abordagens mais robustas até hoje.

Quais são os principais obstáculos para implementar métricas de factualidade?

Três grandes desafios: custo (avaliações como SAFE exigem muitas chamadas de API), mudanças rápidas nos fatos (um fato pode mudar em semanas), e ambiguidade (às vezes, mesmo humanos não concordam se algo é verdadeiro). Além disso, muitas equipes não têm experiência com avaliação de IA - e acabam tentando usar métricas erradas, como BLEU, que não medem o que realmente importa.