Supongamos que queremos crear un modelo de IA que transcriba texto de papel a digital. Para eso, se necesita un gran conjunto de datos que contenga parejas de transcripciones realizadas por humanos.
El proceso consta básicamente de cuatro etapas:
1. **Normalización de Imagen**: Eliminación de ruido y artefactos para estandarizar el input. A veces incluye crear datos sintéticos para que la IA aprenda a leer incluso en malas condiciones.
2. **Extracción de Características (CNN)**: Las capas convolucionales transforman la imagen en mapas de rasgos visuales abstractos.
3. **Modelado de Secuencias (RNN/Transformers)**: Interpretación de rasgos en cadenas de texto digital, aplicando gramática y contexto.
4. **Optimización Supervisada**: Cálculo del error mediante la comparación de la salida con el [[Ground truth]] (etiquetado humano previo) para ajustar los pesos de la red.
%% [[Gemini 3 Pro]] %%
#Rev/2602 #Tipo/Apunte