El Patrón
Pídele a un LLM que escriba algo. Cualquier cosa. Un memo. Una historia. Una explicación.
Obsérvalo:
El guión largo. Ese guión largo que aparece donde una coma podría funcionar, donde un punto podría servir, donde paréntesis encajarían. Los LLMs lo usan constantemente. No porque sea la mejor opción. Porque estaba en los datos de entrenamiento.
Por Qué Importa
El guión largo no es un defecto. Es una característica. Es evidencia.
Cada LLM lleva sesgos invisibles de su corpus de entrenamiento. La mayoría son difíciles de detectar. El guión largo es fácil. Es una revelación, como el tic nervioso de un jugador de póker. Un recordatorio de que el modelo no aprendió a escribir desde primeros principios. Aprendió a escribir ingiriendo millones de documentos escritos por humanos que tenían sus propias preferencias estilísticas.
El Problema Más Profundo
Si puedes ver el sesgo del guión largo, ¿qué sesgos no puedes ver? ¿Qué suposiciones sobre el mundo, sobre valores, sobre qué es normal o bueno o verdadero están horneadas igual de profundamente, pero sin una marca de puntuación visible para señalarlas?
Los Datos de Entrenamiento No Son Neutrales
El corpus que entrenó tu modelo fue ensamblado por humanos tomando decisiones:
Qué incluir. Wikipedia pero no 4chan. Sitios de noticias pero no blogs. Inglés más que suajili. Artículos académicos más que comentarios de Reddit.
Qué ponderar. Algunas fuentes cuentan más que otras. El modelo aprende a sonar como sus influencias más pesadas.
Qué filtrar. Contenido dañino removido (bueno), pero también casos extremos, puntos de vista minoritarios, enfoques no convencionales (menos bueno).
"El guión largo es inofensivo. La visión del mundo podría no serlo."
Qué Hacer al Respecto
Nótalo. El primer paso es la conciencia. Cuando leas la salida de un LLM, recuerda: cada elección de palabra refleja entrenamiento, no verdad.
Cuestiona los valores por defecto. Si el modelo afirma algo con confianza, pregunta: ¿es esto conocimiento o coincidencia de patrones?
Úsalo como diagnóstico. La densidad de guiones largos te dice algo sobre cuánto está el modelo en modo "generación fluida" versus genuino razonamiento. El uso pesado de guiones largos a menudo se correlaciona con salida superficial, estilísticamente suave pero sustancialmente delgada.
Quítalo. Removimos cada guión largo de este sitio. No porque estén mal, sino porque no son nuestros. Cada sesgo que puedes identificar es un sesgo que puedes elegir mantener o descartar.
La Cicatriz
Esta página existe porque nos dimos cuenta de que estábamos escribiendo con guiones largos que no elegimos. El patrón era tan fuerte que lo absorbimos. El sesgo del modelo se convirtió en nuestro sesgo.
Ese es el peligro real. No que los LLMs tengan sesgos, sino que sus sesgos se vuelvan invisibles, se vuelvan normales, se vuelvan tuyos.
El guión largo es un regalo. Es el único sesgo que puedes ver.
Volver a Patrones