Blog · IA Aplicada · 16 de junho de 2026 · 12 min de leitura

Base de conhecimento para IA: como preparar antes de jogar PDFs no RAG

A empresa contrata um assistente de IA com RAG, sobe os manuais em PDF e espera que a IA "aprenda". Depois reclama que ela responde errado, inventa ou ignora o que está no documento. O problema raramente é o modelo — é a base. Guia prático, na ótica de quem decide, sobre o que preparar do seu lado antes de contratar para a IA responder com dado real.

Existe uma crença silenciosa em quase todo projeto de assistente de IA: a de que basta subir os manuais, os PDFs e as planilhas que o modelo "aprende" o conteúdo. Não aprende. Um sistema de RAG — Retrieval-Augmented Generation, a arquitetura por trás da maioria dos assistentes que respondem "com base nos seus documentos" — não memoriza o seu manual de 80 páginas. Ele quebra esse manual em pedaços, transforma cada pedaço em vetor numérico e, na hora da pergunta, recupera os trechos que parecem mais próximos do que foi perguntado. A resposta que o usuário lê é montada a partir desses trechos. Se o trecho certo não for recuperado, a IA responde com o que encontrou — e o que ela encontrou pode estar incompleto, desatualizado ou simplesmente errado.

Quando isso acontece, a reação típica do decisor é culpar o modelo: "a IA é burra", "precisamos de um modelo melhor". Quase nunca é o modelo. As análises de engenharia de RAG em produção publicadas ao longo de 2026 são consistentes em um ponto incômodo: a maior parte das falhas de recuperação nasce na camada de ingestão — como os documentos foram lidos, fatiados e indexados — e não na escolha do LLM. A qualidade da resposta é decidida antes de a IA entrar em cena, na preparação da base. E boa parte dessa preparação depende de decisões que são suas, não do fornecedor.

Principais pontos

A IA não "aprende" o PDF — ela recupera pedaços dele. A pergunta certa não é "qual modelo", e sim "os pedaços certos vão ser encontrados quando alguém perguntar?".
Documento escrito para humano costuma virar recuperação ruim quando fatiado. Manual longo, tabela dentro de PDF e conhecimento que só está na cabeça da equipe quebram mal em chunks.
Metadado de contexto muda a precisão sem trocar o modelo. Marcar cada documento com produto, setor e validade ajuda a recuperação a filtrar o que importa.
Base organizada por tópico vence amontoado de arquivos. A diferença entre "joguei tudo lá" e uma base RAG-ready aparece direto na confiabilidade da resposta.
Nem toda fonte deve entrar. Documento desatualizado, rascunho e versão antiga contaminam a recuperação — curadoria de fonte é parte do projeto, não detalhe.

Para uma empresa que está avaliando contratar um assistente de IA, a conversa com o fornecedor tende a ser mais produtiva quando você chega sabendo o que precisa preparar do seu lado. É exatamente nesse ponto — onde a qualidade da base define a qualidade da resposta — que parceiros como a Vertis Tech, que constroem bases de conhecimento RAG dentro dos próprios produtos, entram na conversa com critério em vez de promessa genérica.

Por que o PDF que serve ao humano atrapalha a máquina

Um manual de 80 páginas foi escrito para um leitor que vai do começo ao fim, segura contexto na cabeça e entende que "o procedimento descrito acima" se refere à seção anterior. O RAG não lê assim. Ele fatia o documento em pedaços de algumas centenas de palavras — os chunks — e cada pedaço passa a viver isolado. Quando alguém pergunta algo, o sistema busca o chunk mais parecido com a pergunta e o entrega ao modelo como contexto.

O problema é que muito do que torna um documento compreensível para humanos se perde no fatiamento. Alguns exemplos concretos que aparecem em quase toda base mal preparada:

A tabela dentro do PDF

Tabelas são onde mais informação morre. Um PDF com uma tabela de preços, prazos ou especificações costuma ser lido pelo parser como uma sequência embaralhada de números e palavras soltas, perdendo a relação entre linha e coluna. O chunk resultante contém os dados, mas não a estrutura que dá sentido a eles. A IA "vê" os números, mas não sabe que aquele "30" é o prazo da linha "Plano B". Resultado: ela cruza dado errado ou responde que não encontrou.

O parágrafo que depende do anterior

Documentos escritos para humanos usam referência cruzada o tempo todo: "conforme item 3.2", "no caso descrito acima", "exceto quando aplicável a regra anterior". Quando o fatiamento corta entre um trecho e o que ele referencia, o chunk recuperado fica órfão. A IA recebe a exceção sem a regra, ou a regra sem a exceção — e responde com metade da verdade.

O conhecimento que não está em lugar nenhum

A parte mais delicada: boa parte do que a sua operação sabe não está escrita. Está na cabeça do atendente experiente, no jeito como o gerente resolve o caso difícil, na decisão que "todo mundo sabe" mas ninguém documentou. RAG não recupera o que não existe como texto. Se a base é só o que estava arquivado, a IA vai herdar exatamente os buracos da sua documentação — e ampliá-los, porque agora respondem em escala e com tom de autoridade.

Como o fatiamento decide a qualidade da resposta

Existe um consenso técnico que vale o decisor conhecer, porque ele reorganiza onde colocar atenção: a forma como o documento é quebrado em pedaços tende a pesar mais na qualidade da resposta do que a escolha do modelo. Um modelo modesto com fatiamento bem-feito costuma responder melhor do que um modelo caro com fatiamento ruim. Isso é contraintuitivo para quem pensa que IA boa é só questão de pagar pelo modelo mais avançado.

O fatiamento ingênuo corta o documento a cada X caracteres, sem olhar para o sentido — e é aí que tabelas se partem no meio e parágrafos perdem a referência. O fatiamento orientado a significado respeita as fronteiras naturais do texto: seções, subtítulos, parágrafos completos. As análises de recuperação de 2026 são razoavelmente unânimes de que quebrar por sentido, e não por contagem de caracteres, melhora consideravelmente a relevância do que é recuperado.

Há uma técnica de baixo custo e alto retorno que costuma passar despercebida: anexar o caminho de títulos (o "você está aqui" do documento — capítulo, seção, subseção) ao texto de cada pedaço antes de transformá-lo em vetor. Assim, o chunk sobre "prazo de cancelamento" carrega consigo a informação de que pertence ao capítulo "Plano Empresarial", e não ao "Plano Individual". Parece detalhe; na prática, é a diferença entre a IA recuperar a regra do plano certo ou misturar os dois.

Nada disso é trabalho que você executa — é trabalho do fornecedor. Mas é trabalho que você precisa saber que existe, para perguntar como ele será feito e para não aceitar a explicação de que "é só subir os arquivos".

O que muda ter uma base organizada por tópico

A diferença entre uma base RAG-ready e um amontoado de arquivos quase nunca está na quantidade de documentos. Está em três coisas que você consegue preparar antes mesmo de contratar.

Organização por tópico, não por pasta de origem

Documento agrupado por onde estava arquivado ("pasta do RH", "drive do comercial") reproduz a bagunça interna dentro da IA. Documento agrupado por tópico de negócio — produto, processo, política — dá à recuperação uma estrutura para navegar. Não precisa ser perfeito, mas reorganizar mentalmente "do que este documento trata?" antes de entregá-lo já melhora o resultado.

Metadado de contexto

Este é, possivelmente, o ganho mais subestimado. Marcar cada documento com alguns campos simples — a que produto se refere, de qual setor é, qual a data de validade, se é versão vigente ou histórica — permite que a recuperação filtre antes de buscar. As análises de 2026 apontam que enriquecer a base com metadado de contexto pode elevar bastante a precisão da recuperação sem trocar o modelo nem o algoritmo de busca: o ganho vem inteiro da camada de governança da informação. Para o decisor, a leitura é direta: organizar contexto rende mais do que pagar por modelo melhor.

Versão e validade explícitas

Bases reais acumulam camadas de tempo. A política de 2023 convive com a de 2026; o manual da versão antiga do produto convive com o atual. Se nada distingue um do outro, a recuperação pode trazer o trecho desatualizado com a mesma confiança do vigente — e a IA vai responder com a regra que já não vale. Decidir, fonte por fonte, o que é vigente e o que é histórico é um trabalho de negócio que nenhum modelo faz por você.

Quais fontes vale estruturar antes — e quais deixar de fora

Aqui mora uma decisão que separa projeto maduro de "joguei tudo lá": nem toda fonte merece entrar na base. Acrescentar documento ruim não é neutro — ele compete com o documento bom na hora da recuperação e pode vencer, contaminando a resposta.

Vale estruturar antes de contratar, em regra:

Documentos vigentes e canônicos — a versão oficial e atual de manuais, políticas, procedimentos e catálogos.
Conhecimento tácito que dá para escrever — aquele saber que só está na cabeça da equipe e que, transcrito em meia página de FAQ, vira a fonte mais valiosa da base.
Perguntas reais que os clientes já fazem — o histórico de dúvidas recorrentes orienta o que a base precisa cobrir de verdade.

Costuma fazer sentido deixar de fora, ou tratar à parte:

Versões antigas e rascunhos — a não ser que haja motivo explícito para consulta histórica, com metadado que os marque como tal.
Documentos com dado pessoal sensível sem necessidade — entrar com dado pessoal na base de IA é decisão com peso de LGPD, que merece avaliação própria antes de subir qualquer arquivo.
Material redundante ou conflitante — dois documentos que dizem coisas diferentes sobre o mesmo tema garantem resposta instável. Resolver o conflito na origem é mais barato que tentar consertá-lo depois.

A régua prática para o decisor é simples de enunciar e difícil de praticar: cada fonte que entra na base deveria poder responder à pergunta "se a IA citar isto como verdade, eu defendo?". O que não passa nesse teste não é volume — é risco.

Como a Vertis Tech ajuda em preparação de base para RAG

A Vertis Tech é uma fábrica de software brasileira focada em CRM, automação e IA aplicada, e constrói bases de conhecimento RAG dentro dos próprios produtos — com parsing, chunking, embeddings e busca vetorial em operação real, não em slide. Cada projeto é dimensionado conforme o tipo e o volume das fontes, a sensibilidade dos dados envolvidos, o nível de estruturação atual da documentação e a maturidade operacional do cliente. A depender do escopo, a implantação pode contemplar:

Discovery das fontes antes de qualquer ingestão, para mapear o que vale estruturar, o que deve ficar de fora e o que precisa ser escrito porque só existe na cabeça da equipe.
Parsing e fatiamento orientados ao tipo de documento, com tratamento específico para tabelas, seções e referências cruzadas em vez de corte cego por contagem de caracteres.
Camada de metadado de contexto (produto, setor, validade, versão vigente vs. histórica), desenhada para que a recuperação filtre antes de buscar.
Governança de versão e validade, para que conteúdo desatualizado não dispute espaço com o vigente na hora da resposta.
Atenção a LGPD desde o desenho da base, com avaliação caso a caso de quais dados pessoais realmente precisam entrar e como são tratados.
Critério de avaliação da recuperação, para medir se os trechos certos estão sendo encontrados antes de colocar o assistente diante do usuário final.

Perguntas frequentes

Não basta subir os PDFs e deixar a IA "ler"?

Não, e essa é a confusão mais comum. A IA não lê o documento inteiro a cada pergunta — ela recupera pedaços previamente fatiados e indexados. Se o fatiamento desmonta tabelas, corta referências ou mistura versões, a IA responde a partir de pedaços ruins. Subir o arquivo é o passo trivial; prepará-lo para recuperação é o que define a qualidade.

Preciso reescrever toda a minha documentação antes de contratar?

Em geral, não. O mais valioso costuma ser curadoria, não reescrita: decidir o que é vigente, separar o que está obsoleto, organizar por tópico e transcrever o conhecimento crítico que só existe de forma tácita. Boa parte do trabalho de parsing e fatiamento é do fornecedor — o que cabe a você é entregar fontes confiáveis e marcadas com contexto.

Por que a IA às vezes inventa resposta mesmo com o documento na base?

Porque o trecho certo não foi recuperado, ou foi recuperado sem o contexto que o tornava correto. Quando o sistema não encontra um pedaço claramente relevante, ele tende a montar a resposta com o que estava mais próximo — e o resultado pode soar confiante e estar errado. Fonte conflitante, metadado ausente e fatiamento ruim são as causas mais frequentes.

Trocar por um modelo de IA melhor resolve respostas erradas?

Raramente, quando o problema está na base. As análises de RAG em produção de 2026 convergem para a ideia de que a maioria das falhas vem da camada de ingestão e recuperação, não do modelo. Um modelo melhor pode redigir com mais fluência — inclusive a resposta errada. Sem corrigir a base, você troca o sintoma de lugar.

Como sei se minha base está "RAG-ready" antes de assinar?

Alguns sinais práticos: as fontes estão organizadas por tópico de negócio e não por pasta de origem; existe distinção clara entre o que é vigente e o que é histórico; o conhecimento crítico está escrito, não apenas na cabeça da equipe; e há alguém capaz de dizer, fonte por fonte, "isto eu defendo se a IA citar como verdade". Se esses pontos estão razoavelmente cobertos, a conversa com o fornecedor começa em outro patamar.

Preparar a base não é uma etapa que antecede o projeto de IA — em boa medida, é o projeto. O modelo importa, a arquitetura de recuperação importa, mas a matéria-prima que entra define o teto da qualidade que sai. O decisor que chega à mesa entendendo isso não compra uma promessa de "a IA aprende seus documentos"; ele negocia um processo no qual sabe exatamente o que precisa preparar do seu lado para que a IA responda com dado real, e o que cobrar do fornecedor na camada que não lhe cabe executar.

Conversar com a Vertis Tech →

#b2b#dados#estrategia#ia

X LinkedIn WhatsApp

← Voltar para o blog