Quando um modelo de linguagem como GPT-4 responde a uma pergunta, você pode ter certeza de que a resposta vem dos documentos que você forneceu - ou ele apenas inventou algo? Esse é o problema central da avaliação grounded QA. Em ambientes empresariais, onde respostas erradas podem custar milhões, não basta que o modelo soe convincente. Ele precisa ser verificável. E isso só é possível com métodos que analisam diretamente a conexão entre o que o modelo diz e as fontes reais usadas para gerar aquela resposta.
O que é avaliação grounded QA?
Avaliação grounded QA é um sistema que mede a fidedignidade de respostas geradas por modelos de linguagem. Em vez de apenas avaliar se a resposta parece correta, ele verifica se cada afirmação feita pelo modelo é apoiada por um trecho específico dos documentos fornecidos. Se o modelo disser que "a taxa de juros do empréstimo é de 5,2%" e esse número aparece em um contrato anexado, a resposta é considerada grounded. Se ele disser isso sem nenhuma fonte, é uma alucinação - e o sistema de avaliação pune isso. Esse tipo de avaliação surgiu em 2022-2023, paralelamente ao crescimento do RAG (Retrieval-Augmented Generation). Antes disso, os modelos eram avaliados apenas por como bem respondiam a perguntas gerais. Com RAG, a realidade mudou: agora, o modelo não pode mais confiar em seu treinamento interno. Ele precisa se prender ao que está na sua base de documentos. E foi aí que a necessidade de medir essa aderência se tornou crítica.Como funcionam os métodos de pontuação baseados em fontes?
Existem três abordagens principais, cada uma com vantagens e limitações. O Groundedness Score, desenvolvido pela deepset AI, divide a resposta em pequenas afirmações e compara cada uma com os documentos de contexto usando similaridade semântica. Ele atribui uma pontuação de 0% a 100% para cada afirmação. Se 95% das afirmações tiverem suporte, a resposta recebe uma pontuação alta. Esse método é usado na plataforma Haystack Enterprise e é o mais adotado por empresas de grande porte, especialmente em áreas como direito e saúde. O ContextNLI usa um modelo treinado para detectar contradições. Ele compara cada frase da resposta com cada frase dos documentos e calcula a probabilidade mínima de contradição. Se o modelo detectar que a resposta contradiz o contexto - mesmo que indiretamente -, ele marca como alucinação. Essa abordagem é mais precisa que métricas tradicionais como BLEU ou ROUGE, e supera essas em 41 pontos percentuais na detecção de erros em perguntas jurídicas, segundo estudos do ClapNQ. O RAGAS é um framework aberto que combina várias métricas: não só fidedignidade, mas também relevância da resposta, precisão do contexto recuperado e recuperação do contexto. Ele é o mais popular entre desenvolvedores - mais de 14 mil downloads no PyPI até dezembro de 2025. Mas seu ponto fraco é que ele não identifica exatamente qual parte da resposta é falsa, apenas se houve ou não alucinação.Por que os modelos como GPT-4 são usados como juízes?
Muitos sistemas de avaliação não usam regras fixas. Em vez disso, eles usam outros modelos de linguagem - como GPT-4-turbo - para julgar se a resposta é fiel. Isso se chama LLM-as-judge. O motivo? Modelos humanos são lentos e caros. Avaliar 10 mil respostas manualmente levaria meses. Já um modelo como GPT-4 pode fazer isso em horas. Estudos do LMSYS mostram que GPT-4 concorda com avaliadores humanos em 89% dos casos. Isso o torna viável para escala. Mas há um problema: o juiz também mente. Modelos diferentes dão pontuações diferentes. GPT-4-turbo tende a dar 12-15% mais pontos do que modelos abertos como Llama-3-70B, mesmo quando a resposta é idêntica. Isso acontece porque os modelos são treinados com critérios diferentes. Um estudo de Sebastian Raschka em outubro de 2025 mostrou que a escolha do modelo-julgador pode variar os resultados em até 37%. Isso significa que você não pode comparar pontuações de diferentes sistemas sem saber qual juiz foi usado.
Quais são os principais desafios na prática?
Mesmo com todas essas tecnologias, implementar avaliação grounded QA não é fácil. Os maiores problemas enfrentados por equipes reais são:- Limiares arbitrários: 80% de fidedignidade é bom? E 70%? Empresas costumam definir isso por tentativa e erro. Um levantamento da Evidently AI mostrou que 67% das empresas definem limiares muito altos no início, gerando falsos positivos e sobrecarregando a equipe de QA.
- Prompts sensíveis: Mudar uma palavra na instrução de avaliação pode alterar a pontuação em até 25%. Isso é o que os desenvolvedores chamam de "prompt sensitivity" - e é o problema mais relatado em fóruns como GitHub.
- Custo computacional: Avaliar cada resposta com GPT-4-turbo pode custar de 1,2 a 8,7 segundos por pergunta. Para empresas com milhares de consultas diárias, isso soma US$ 3.200 a US$ 8.700 por mês em custos de nuvem, segundo dados de 127 startups.
- Idiomas não ingleses: 43% das implementações internacionais relatam falhas na detecção de alucinações em português, espanhol ou alemão. Os modelos são treinados majoritariamente em inglês, e isso cria viés.
Quem já está usando isso e com que resultados?
As empresas que adotaram avaliação grounded QA estão vendo mudanças reais. Na Thomson Reuters, o uso do ContextNLI reduziu erros de citação legal em 63% no assistente AI da Westlaw. Isso poupou cerca de 1.200 horas de trabalho de advogados por mês. Uma empresa farmacêutica em Boston relatou que, após implementar o Groundedness Score, as alucinações em consultas sobre interações medicamentosas caíram de 38% para 9% em três meses. Mas o custo foi alto: dois engenheiros dedicados por meses para integrar o sistema. Na área de seguros, empresas que adotaram esses métodos viram uma redução de 47% nas escaladas de suporte ao cliente - porque os clientes deixaram de receber respostas erradas que os levavam a ligar ou reclamar.Qual a diferença entre métodos baseados em referência e LLM-as-judge?
Métodos baseados em referência - como os usados pela Evidently AI - exigem que você tenha uma "resposta correta" pré-definida. Eles comparam a resposta do modelo com essa resposta ideal. Funcionam bem em domínios fechados, como perguntas de exames ou bases de conhecimento fixas. Mas falham em situações abertas. Por exemplo: se você pergunta "quais são as melhores práticas para proteger dados em nuvem?" e o modelo responde com uma lista válida que não está na sua base de documentos, o sistema vai marcar como alucinação - mesmo que a resposta esteja correta. Isso é um falso positivo. Já os métodos LLM-as-judge não precisam de respostas corretas. Eles apenas verificam se o que foi dito está apoiado pelos documentos. Isso os torna mais flexíveis, mas menos previsíveis. Eles dependem da qualidade do modelo-julgador e da clareza das instruções.
Como começar a implementar?
Se você quer testar avaliação grounded QA, não comece com tudo. Siga este passo a passo real:- Crie um conjunto pequeno: 100 perguntas reais que seus usuários fazem, com os documentos correspondentes e respostas geradas pelo seu modelo.
- Use RAGAS (gratuito) para avaliar esse conjunto. Ele é fácil de instalar com Python e tem documentação excelente.
- Identifique os 5 tipos de alucinações mais comuns. Exemplo: "o modelo inventa nomes de leis que não existem" ou "confunde dados de 2023 com 2024".
- Ajuste os limiares de pontuação com base nesses erros. Não use 80% como padrão - teste 65%, 70%, 75%.
- Monitore em produção. Não é um projeto de uma vez. É um ciclo contínuo: avalie → ajuste → monitore → melhore.
O que vem a seguir?
O futuro da avaliação grounded QA é claro: ela vai se tornar tão comum quanto testes unitários em software. Em 2027, 85% das implementações empresariais de IA devem incluir essa avaliação, segundo a Gartner. Novidades já estão chegando. Em janeiro de 2026, a deepset lançou uma versão que permite clicar em cada afirmação da resposta e ver exatamente qual trecho do documento a sustenta. Isso transforma a avaliação de um número abstrato em uma experiência visual - e é já usado por 78% dos clientes corporativos. O EU AI Act, que entrou em vigor em fevereiro de 2026, exige que sistemas de IA de alto risco - como os usados em saúde ou justiça - tenham verificação sistemática da fundamentação factual. Isso não é opcional. É lei. E a NIST, que define padrões de IA nos EUA, deve lançar diretrizes específicas para medição de groundedness em junho de 2026. Quando isso acontecer, todos os fornecedores de IA serão forçados a padronizar seus métodos - ou perderão contratos públicos.Conclusão: é o momento de agir
Avaliar a fidedignidade de respostas de IA não é mais um luxo de pesquisadores. É uma necessidade operacional. Se sua empresa usa IA para atender clientes, gerar relatórios ou tomar decisões, você já está em risco. Não espere um erro grave acontecer para começar. Comece com 100 perguntas. Use RAGAS. Veja onde o modelo inventa. Ajuste. Monitore. Repita. A tecnologia está pronta. O que falta é a coragem de medir o que realmente importa: não se o modelo é inteligente, mas se ele é confiável.O que é fidedignidade em modelos de linguagem?
Fidedignidade, ou groundedness, é a medida de quão bem as respostas geradas por um modelo de linguagem estão apoiadas por documentos de referência fornecidos. Uma resposta fiel não inventa fatos, não interpreta errado e não confunde informações - ela se limita ao que está explicitamente contido ou logicamente derivado das fontes.
Por que os modelos de linguagem geram alucinações?
Modelos de linguagem são treinados para prever a próxima palavra com base em padrões aprendidos em bilhões de textos. Quando não têm acesso a informações específicas, eles "enchem os espaços vazios" com o que consideram mais provável - mesmo que seja falso. Isso é especialmente comum em sistemas RAG quando o contexto recuperado é pobre, ambíguo ou mal formatado.
RAGAS é melhor que o Groundedness Score da deepset?
Depende do uso. RAGAS é aberto, gratuito e tem boa documentação, ideal para desenvolvedores e startups. O Groundedness Score da deepset é mais preciso em ambientes corporativos, especialmente com documentos técnicos, mas é fechado e mais difícil de integrar. RAGAS mede vários aspectos da qualidade da resposta; o Groundedness Score foca apenas na fidedignidade - e faz isso com maior detalhe.
Posso usar avaliação grounded QA em português?
Sim, mas com cuidado. A maioria dos modelos usados para avaliação (como DeBERTa-v3-large ou GPT-4) foi treinada principalmente em inglês. Isso reduz a precisão em português, especialmente em textos jurídicos, técnicos ou com jargões regionais. Algumas empresas já estão treinando versões específicas para o português, mas ainda não são amplamente disponíveis. Teste sempre com dados reais em português antes de confiar nos resultados.
Quais são os custos reais de implementar isso?
Custos variam muito. Para pequenas equipes, usar RAGAS com modelos locais (como DeBERTa) pode custar menos de US$ 200 por mês. Se você usar GPT-4-turbo em escala, pode chegar a US$ 8.700 por mês. O maior custo, porém, é humano: 60% das empresas precisam de ao menos um engenheiro dedicado por 4 a 6 semanas para configurar, testar e ajustar os limiares. Não é um plug-and-play.
A avaliação grounded QA substitui a verificação humana?
Não. Ela é um filtro, não um substituto. Sistemas automatizados detectam alucinações óbvias e padrões repetitivos. Mas não conseguem identificar distorções sutis, como viés implícito, inferências enganosas ou contextos mal interpretados. A verificação humana ainda é essencial - especialmente em áreas de alto risco como direito, medicina e finanças. A avaliação grounded QA reduz o volume de erros, mas não elimina a necessidade de supervisão.
4 Comentários
Isso tudo é lindo na teoria, mas na prática? A maioria das empresas brasileiras nem sabe o que é RAG. E ainda querem que o modelo não invente nada? Seu sistema de atendimento já tá cheio de respostas erradas por causa de prompt mal feito, e agora querem uma avaliação automática? Só falta pedir pro GPT-4 fazer o café também.
Se você tá usando GPT-4 como juiz e ainda assim tem alucinação, o problema não é o modelo, é você. Você tá alimentando o sistema com documentos lixo, sem padronização, sem estrutura. Isso não é falha da tecnologia, é falha da sua equipe. E não venha com essa de 'português não é bem suportado' - se você não sabe organizar um texto em PT-BR, não blame o algoritmo. O problema é você, e você sabe disso.
Brasil achando que é a ponta da lança da IA. Enquanto isso, Alemanha e EUA já têm normas ISO para grounded QA. Nós ainda discutimos se o modelo inventou ou não porque o documento tá em PDF ruim. E o pior? A gente ainda acha que é 'inovação'. Isso é atraso com glitter. E aí vem o RAGAS, grátis, e todo mundo quer usar porque é fácil. Mas quando dá erro, quem paga? A empresa. Quem sofre? O cliente. Quem se importa? Ninguém.
Quem disse que o GPT-4 é melhor que Llama-3? A própria OpenAI, claro. É o mesmo viés que faz o mercado achar que iPhone é superior porque tem mais marketing. O Llama-3 é mais transparente, mais auditável, e não cobra US$ 8.700 por mês. E se você tá usando GPT-4 como juiz, tá sendo espionado. Eles armazenam tudo. Não é só custo. É risco geopolítico.