Como Fundamentar Documentos Longos: Sumarização e RAG Hierárquico para LLMs
Por Fábio Gomes, mar 11 2026 0 Comentários

Quando você precisa analisar um contrato de 200 páginas, um relatório financeiro de 150 páginas ou um histórico médico de um paciente com décadas de registros, o que acontece se o seu modelo de linguagem só consegue processar 8.000 tokens de uma vez? A resposta simples: você perde contexto. E com o contexto, perde precisão. E com a precisão, perde confiança. É aí que entra o grounding - o processo de amarrar as respostas de um LLM diretamente às fontes originais, sem deixar espaço para alucinações.

O problema dos documentos longos

Modelos como Gemini, GPT-4 Turbo e Claude 3 conseguem lidar com contextos de até 1 milhão de tokens. Parece muito, certo? Mas um único PDF de 100 páginas pode facilmente ultrapassar 50.000 tokens. E se você tiver 10 desses documentos? Isso é meio milhão de tokens só para uma consulta. Mesmo que o modelo consiga processar tudo, ele não consegue manter a coerência. A memória interna do modelo se sobrecarrega. Resultado? Respostas que parecem plausíveis, mas estão completamente erradas - e você nem percebe.

Segundo o relatório da Stanford HAI de 2024, modelos não fundamentados apresentam taxas de alucinação de até 27%. Em documentos técnicos, isso pode significar confundir um medicamento com outro, ou interpretar errado um termo legal. Em finanças, pode levar a decisões de investimento baseadas em dados falsos. O problema não é o tamanho do contexto. É a falta de estrutura.

O que é grounding?

Grounding significa amarrar a resposta do modelo a uma evidência concreta. Não basta dizer: "De acordo com o documento X". Você precisa mostrar exatamente onde isso está no documento, e garantir que o modelo não inventou nada. Isso exige três coisas: dividir o documento de forma inteligente, resumir cada parte sem perder o sentido, e recuperar o conteúdo certo na hora certa.

É aqui que entra o RAG hierárquico - uma abordagem que vai além do RAG tradicional. Em vez de jogar todo o documento no modelo de uma vez, você divide o processo em camadas. Primeiro, você pega o documento e o corta em pedaços menores. Depois, cada pedaço é resumido por um LLM. Esses resumos viram uma nova camada de dados. Depois, quando alguém faz uma pergunta, você não busca no documento original. Você busca nos resumos. Se a resposta estiver lá, ótimo. Se não estiver, você volta ao documento original, pega o pedaço correspondente e só então usa o modelo para gerar a resposta final.

Como funciona o Map/Reduce

O método mais usado hoje é o Map/Reduce, inspirado em processamento de big data. Ele tem duas fases: Map e Reduce.

Na fase Map, o documento é dividido em blocos de 1.000 a 2.000 tokens (cerca de 750 a 1.500 palavras), com uma sobreposição de 200 tokens entre eles. Isso garante que frases importantes que cortam o limite dos blocos não sejam perdidas. Cada bloco é então passado para um LLM, que gera um resumo conciso - em média, reduzindo 1.800 tokens para 300. Isso é feito em paralelo, o que reduz o tempo de processamento em 63% em comparação com processamento sequencial.

Na fase Reduce, todos esses resumos são juntados em um único documento resumido. Esse novo documento - agora com apenas 10% do tamanho original - é o que o modelo usa para responder à pergunta. Se a resposta não for clara, ele volta aos blocos originais, puxa o trecho exato e gera a resposta final com a evidência por trás.

Segundo o Google Cloud, esse método alcança 85% de precisão factual em documentos empresariais, contra apenas 62% quando se usa uma única tentativa sem resumos. Isso não é só um número. É a diferença entre um relatório confiável e um que pode levar a uma multa, uma ação judicial ou um erro médico.

Comparação entre um modelo sobrecarregado por dados brutos e outro respondendo com precisão usando resumos claros e rastros de evidência.

Por que o resumo hierárquico é tão importante

Você pode pensar: "E se eu só dividir em blocos e não resumir?". A resposta é simples: não funciona. Um estudo da Neptune.ai mostrou que, sem resumos, a precisão das respostas cai 22 pontos percentuais. Por quê? Porque os modelos não conseguem filtrar o ruído. Um bloco de 2.000 tokens pode conter 15 referências, 3 gráficos, 8 parágrafos de contexto e 2 tabelas. Se você mandar tudo isso para o modelo, ele se perde. Mas se você resumir esse bloco em 300 tokens, mantendo só as ideias centrais e as entidades-chave (nomes, datas, valores, termos legais), o modelo consegue entender o que importa.

Além disso, o resumo hierárquico permite camadas adicionais. Imagine um documento jurídico com capítulos, seções e artigos. Você pode fazer:

  • Nível 1: Resumir cada artigo (cerca de 1.500 tokens)
  • Nível 2: Resumir cada seção (juntando 3-5 artigos)
  • Nível 3: Resumir o capítulo inteiro

Quando alguém pergunta: "Quais são os direitos do funcionário em caso de demissão sem justa causa?", o sistema busca primeiro no resumo do capítulo. Se não encontrar, vai para o resumo da seção. Se ainda não encontrar, busca nos resumos dos artigos. Só então, se necessário, recorre aos blocos originais. Isso reduz o tempo de resposta em até 70% e melhora a precisão.

Desafios reais na implementação

Não é tudo perfeito. Quem já tentou implementar isso sabe que o maior problema não é a tecnologia. É a coerência.

Um estudo da Stanford HAI mostrou que 31% dos resumos hierárquicos falham em manter relações críticas entre blocos. Por exemplo: um bloco fala sobre "contrato de 2023", outro sobre "alteração em 2024". Se o resumo do primeiro não mencionar que houve uma alteração futura, o modelo pode pensar que o contrato ainda está em vigor. Isso é perigoso.

Outro problema é o formato. Documentos em PDF com tabelas, imagens e formatação complexa são difíceis de processar. Aisera relata que a precisão cai para 63% em documentos multimídia, contra 89% em textos puros. A solução? Extrair entidades antes de resumir. Se você identificar nomes, datas, valores e termos legais antes de resumir, e guardar essas entidades como metadados, o sistema consegue conectar os pontos mesmo que os resumos percam alguma nuance.

E tem o custo. Implementar um pipeline de RAG hierárquico leva de 2 a 4 meses. A maioria das equipes passa semanas ajustando o tamanho dos blocos, o nível de sobreposição e os prompts de resumo. Segundo dados do LangChain, desenvolvedores gastam em média 42 horas só para encontrar os parâmetros ideais. Mas o retorno é claro: empresas que implementaram esse sistema reduziram o tempo de análise de contratos de 45 minutos para 8 minutos por documento.

Quem já está usando isso

As empresas que mais usam RAG hierárquico são as que lidam com documentos pesados e altamente regulados:

  • Finanças: 42% das implementações. Bancos usam para analisar relatórios trimestrais e detectar inconsistências em declarações de imposto.
  • Direito: 28%. Escritórios de advocacia usam para revisar contratos, encontrar cláusulas ocultas e comparar versões de acordos.
  • Saúde: 19%. Hospitais e seguradoras usam para resumir prontuários e identificar riscos de interação medicamentosa.

Segundo o IDC, 83% das empresas da Fortune 500 já têm pelo menos uma implementação em produção. E a pressão regulatória está aumentando. A SEC, nos EUA, exigiu em janeiro de 2025 que todas as respostas geradas por IA em relatórios financeiros tenham um rastro auditável - ou seja, você precisa mostrar exatamente qual trecho do documento gerou cada afirmação. RAG hierárquico é a única forma viável de fazer isso em escala.

Painel de controle de RAG hierárquico mostrando redução de tempo de análise de 45 para 8 minutos, com nós de dados flutuantes.

Próximos passos e tendências

O mercado de RAG cresceu 68% em 2024 e deve chegar a US$ 14,7 bilhões até 2027. Mas o que vem a seguir?

Em novembro de 2024, o Google Cloud lançou uma nova funcionalidade que ajusta automaticamente o tamanho dos blocos com base no tipo de documento - PDFs técnicos recebem blocos menores, enquanto textos narrativos recebem blocos maiores. Isso melhorou a coerência em 22%. Já a Microsoft, com seu "Query Expansion as a Service", gera automaticamente 3-5 variações da pergunta do usuário para aumentar a cobertura da busca em 37%.

A próxima fronteira? O grounding de três níveis: bloco, seção e documento inteiro. Sistemas avançados já estão usando isso. Eles resumem cada bloco, depois resumem cada seção, e por fim, resumem o documento todo. Quando alguém pergunta, o sistema responde com o nível mais alto possível - e só desce se necessário. Isso reduz o uso de tokens em até 80% e mantém a precisão.

Mas o maior desafio ainda é medir o sucesso. Só 32% das empresas têm métricas padronizadas para avaliar a eficácia do grounding. E isso é perigoso. Se você não consegue medir, não consegue melhorar. A indústria está começando a criar benchmarks - e esse será o próximo grande mercado: ferramentas de validação.

O que você precisa para começar

Se você quer implementar isso, aqui está o caminho real:

  1. Escolha uma ferramenta: LangChain, LlamaIndex ou Vespa - são as três mais usadas e têm documentação sólida.
  2. Use um RecursiveCharacterTextSplitter com chunk size de 1.500 tokens e overlap de 250 tokens.
  3. Escreva prompts de resumo que forcem o modelo a extrair entidades: nomes, datas, valores, termos jurídicos ou técnicos.
  4. Armazene os resumos e as entidades em um banco vetorial (como Pinecone ou Qdrant).
  5. Crie um pipeline de busca em três níveis: resumo do documento → resumo da seção → bloco original.
  6. Teste com 10 documentos reais. Meça: tempo de resposta, taxa de alucinação e precisão factual.

Leve em conta: você não precisa de um time de 10 pessoas. Um desenvolvedor com experiência em NLP e vetores pode montar isso em 3 semanas. Mas não comece sem testar. Documentos reais são diferentes de exemplos de tutorial.

O que é grounding em RAG?

Grounding em RAG é o processo de vincular as respostas geradas por um modelo de linguagem a evidências concretas extraídas de documentos de origem. Em vez de permitir que o modelo "invente" informações, o grounding garante que cada afirmação tenha suporte direto em dados reais - como trechos de contratos, relatórios ou manuais. Isso reduz drasticamente as alucinações e aumenta a confiabilidade das respostas.

Por que o RAG tradicional não funciona para documentos longos?

O RAG tradicional puxa trechos brutos de documentos e os envia diretamente ao modelo. Com documentos longos, isso gera entradas excessivamente grandes, que sobrecarregam o contexto do modelo. Além disso, ele não filtra ruídos - então, o modelo é bombardeado com informações irrelevantes. O resultado? Respostas confusas, lentas e imprecisas. O RAG hierárquico resolve isso ao resumir primeiro, e só depois recuperar.

Qual o tamanho ideal de bloco para chunking?

O tamanho ideal varia, mas a maioria das implementações bem-sucedidas usa blocos de 1.000 a 2.000 tokens, com sobreposição de 15% a 25% (cerca de 150-500 tokens). Isso garante que frases importantes que cruzam limites de bloco não sejam cortadas, enquanto evita redundâncias excessivas. Documentos técnicos exigem blocos menores; textos narrativos podem usar blocos maiores.

RAG hierárquico é mais caro que RAG simples?

Sim, no início. O pipeline de resumos adiciona etapas de processamento, o que aumenta o uso de tokens e o tempo de implementação. Mas a longo prazo, é mais barato. Porque reduz o número de chamadas ao modelo, diminui erros que geram retrabalho, e evita custos associados a decisões erradas baseadas em alucinações. Empresas relatam retorno sobre investimento em menos de 6 meses.

Preciso de um banco de dados vetorial?

Sim. Sem um banco vetorial (como Pinecone, Qdrant ou Weaviate), você não consegue buscar eficientemente os resumos ou blocos por similaridade semântica. O vetor permite que o sistema entenda que "contrato de aluguel" e "acordo de locação" são a mesma coisa, mesmo que as palavras não sejam idênticas. É essencial para a precisão da recuperação.

Quais são os principais erros ao implementar RAG hierárquico?

Os erros mais comuns são: 1) usar blocos muito grandes, perdendo contexto; 2) não usar sobreposição, cortando frases importantes; 3) não extrair entidades, perdendo relações-chave entre trechos; 4) não testar com documentos reais - só com exemplos; 5) ignorar o custo de tokens, levando a soluções inviáveis em produção.

RAG hierárquico funciona com PDFs e planilhas?

Funciona, mas com ressalvas. PDFs com texto extraível e planilhas bem formatadas funcionam bem - especialmente se você extrair tabelas como dados estruturados antes do resumo. Mas PDFs escaneados, imagens, gráficos ou formatação complexa reduzem a precisão em até 26%. A solução é usar ferramentas de extração de texto e dados antes do RAG, como Apache Tika ou Tabula.

Conclusão

Grounding long documents não é um recurso avançado. É uma necessidade. Se você está lidando com documentos pesados, e sua IA está gerando respostas que parecem certas - mas você não tem certeza - então você já está em risco. RAG hierárquico, com sumarização em múltiplos níveis, não é a única solução. Mas é a mais eficaz, escalável e auditável que existe hoje. E já está sendo usada por empresas que não podem se permitir erros. O futuro não pertence aos modelos que lembram mais. Pertence aos que entendem melhor - e sabem onde buscar a verdade.