Supongamos que queremos crear un modelo de IA que transcriba texto de papel a digital. Para eso, se necesita un gran conjunto de datos que contenga parejas de transcripciones realizadas por humanos. El proceso consta básicamente de cuatro etapas: 1. **Normalización de Imagen**: Eliminación de ruido y artefactos para estandarizar el input. A veces incluye crear datos sintéticos para que la IA aprenda a leer incluso en malas condiciones. 2. **Extracción de Características (CNN)**: Las capas convolucionales transforman la imagen en mapas de rasgos visuales abstractos. 3. **Modelado de Secuencias (RNN/Transformers)**: Interpretación de rasgos en cadenas de texto digital, aplicando gramática y contexto. 4. **Optimización Supervisada**: Cálculo del error mediante la comparación de la salida con el [[Ground truth]] (etiquetado humano previo) para ajustar los pesos de la red. %% [[Gemini 3 Pro]] %% #Rev/2602 #Tipo/Apunte