En el contexto de los modelos de lenguaje (LLMs), un token es la unidad básica de texto que el modelo procesa. Los modelos no leen palabras completas: las descomponen en fragmentos más pequeños llamados tokens. Una palabra puede ser un solo token o varios, dependiendo de su longitud y frecuencia en el idioma.
Como referencia general, 1 token equivale aproximadamente a 4 caracteres en inglés o 3/4 de una palabra. En español, una palabra promedio suele ser 1-2 tokens. Un texto de 1.000 palabras equivale a aproximadamente 1.300-1.500 tokens. Los números y la puntuación también consumen tokens.
Los tokens son importantes por tres razones: determinan el coste (los proveedores de IA cobran por número de tokens procesados), limitan la longitud de las conversaciones (cada modelo tiene un máximo de tokens por contexto, como 128K o 200K), y afectan la velocidad de respuesta (más tokens = más tiempo de procesamiento).
Entender los tokens es esencial para optimizar el uso de APIs de IA. Si pagas por token, un prompt más conciso y bien estructurado te ahorra dinero. Si trabajas con documentos largos, necesitas saber si caben dentro de la ventana de contexto del modelo. Y si implementas RAG, la cantidad de contexto que puedes inyectar depende de los tokens disponibles.
La ventana de contexto (medida en tokens) ha crecido exponencialmente: GPT-3 manejaba 4K tokens, GPT-4 llegó a 128K, y modelos como Claude pueden manejar hasta 200K tokens (equivalente a un libro completo). Esto abre posibilidades como analizar documentos extensos, mantener conversaciones muy largas y procesar múltiples fuentes de información simultáneamente.