Como uma LLM escolhe o que responder

Robson Brandão
3 de dez. de 2025
2 min de leitura

Linguagem natural por fora, número por dentro.

Quando fazemos uma pergunta a uma LLM, a resposta não depende apenas do modelo. O resultado também é influenciado pelas regras definidas no sistema que controla seu funcionamento. Embora a interface sugira uma conversa em linguagem natural, nos bastidores tudo acontece em forma de números.

Durante o treinamento, os textos são divididos em tokens, cada um representado por vetores matemáticos. Em média, um token corresponde a cerca de três quartos de uma palavra. Modelos modernos operam com vocabulários que vão de algumas dezenas de milhares até mais de 100 mil tokens.

Como o modelo decide o próximo token

A geração de texto acontece de maneira incremental. A cada novo passo, o modelo calcula a probabilidade — um valor entre 0 e 1 — de cada token do vocabulário ser o próximo na sequência. Essa probabilidade funciona como uma medida de adequação ao contexto.

Todas as probabilidades somam 1 e formam uma distribuição que guia o processo (figura 1).

figura 1 - Diagrama técnico de tokens e probabilidades

Estratégias para escolher o próximo token

Com essa distribuição em mãos, o sistema pode selecionar o próximo token de diferentes maneiras:

escolher o mais provável;
amostrar proporcionalmente às probabilidades;
aplicar técnicas de controle de entropia, como top-k ou temperature.

Essas estratégias definem o quanto o texto será mais previsível ou mais variado.

Exemplo prático: Como uma LLM escolhe a próxima palavra

Para visualizar o processo, um fluxo simplificado (figura 2) ajuda a entender o funcionamento interno.

figura 2 - LLM definindo o próximo token

Quando a geração de texto termina

A LLM continua produzindo tokens até que uma condição de parada seja alcançada. Isso pode acontecer de duas maneiras:

quando o modelo gera um token especial de fim de sequência — o mesmo usado durante o treinamento;
quando o sistema externo aplica um limite máximo de tokens.

Quando uma dessas condições é atendida, a camada que coordena a geração simplesmente interrompe o pedido de novos tokens e envia o texto final.

Como uma LLM escolhe o que responder

Comentários

Contato