top of page
ARTE 3D SEM CONTORNO_edited.png

Como uma LLM escolhe o que responder


  1. Linguagem natural por fora, número por dentro.


Quando fazemos uma pergunta a uma LLM, a resposta não depende apenas do modelo. O resultado também é influenciado pelas regras definidas no sistema que controla seu funcionamento. Embora a interface sugira uma conversa em linguagem natural, nos bastidores tudo acontece em forma de números.


Durante o treinamento, os textos são divididos em tokens, cada um representado por vetores matemáticos. Em média, um token corresponde a cerca de três quartos de uma palavra. Modelos modernos operam com vocabulários que vão de algumas dezenas de milhares até mais de 100 mil tokens.


  1. Como o modelo decide o próximo token


A geração de texto acontece de maneira incremental. A cada novo passo, o modelo calcula a probabilidade — um valor entre 0 e 1 — de cada token do vocabulário ser o próximo na sequência. Essa probabilidade funciona como uma medida de adequação ao contexto.


Todas as probabilidades somam 1 e formam uma distribuição que guia o processo (figura 1).



figura 1 - Diagrama técnico de tokens e probabilidades
figura 1 - Diagrama técnico de tokens e probabilidades

  1. Estratégias para escolher o próximo token


Com essa distribuição em mãos, o sistema pode selecionar o próximo token de diferentes maneiras:

  • escolher o mais provável;

  • amostrar proporcionalmente às probabilidades;

  • aplicar técnicas de controle de entropia, como top-k ou temperature.


Essas estratégias definem o quanto o texto será mais previsível ou mais variado.


  1. Exemplo prático: Como uma LLM escolhe a próxima palavra


Para visualizar o processo, um fluxo simplificado (figura 2) ajuda a entender o funcionamento interno.


figura 2 - LLM definindo o próximo token
figura 2 - LLM definindo o próximo token


  1. Quando a geração de texto termina


A LLM continua produzindo tokens até que uma condição de parada seja alcançada. Isso pode acontecer de duas maneiras:

  • quando o modelo gera um token especial de fim de sequência — o mesmo usado durante o treinamento;

  • quando o sistema externo aplica um limite máximo de tokens.


Quando uma dessas condições é atendida, a camada que coordena a geração simplesmente interrompe o pedido de novos tokens e envia o texto final.



Comentários


bottom of page