## Inferencia vs. entrenamiento

Cuando se habla de [modelos](/modelos) de IA hay dos fases bien distintas: **entrenamiento** e **inferencia**. El entrenamiento es cuando el modelo aprende de los datos (puede tardar semanas y costar millones de dólares). La inferencia es cuando el modelo ya entrenado recibe un input nuevo y genera una respuesta. Cada vez que le preguntás algo a ChatGPT o a Claude, estás haciendo inferencia. El modelo no está aprendiendo nada nuevo; está aplicando lo que ya sabe.

## ¿Cómo funciona una llamada de inferencia?

En la práctica, hacer inferencia significa mandar un request a una [API](/api) con tus [inputs](/inputs-outputs) y recibir el output generado. El proceso por detrás es computacionalmente intensivo: el modelo procesa todos los tokens (las unidades en que se divide el texto, como palabras o fragmentos de palabras) de entrada y va generando tokens de salida uno por uno, eligiendo el más probable en cada paso.

```bash
curl https://api.openai.com/v1/chat/completions \
  -H "Authorization: Bearer $API_KEY" \
  -d '{
    "model": "gpt-4",
    "messages": [
      {"role": "user", "content": "What is inference?"}
    ]
  }'
```

## Latencia y velocidad

La **latencia** es el tiempo que tarda el modelo en empezar a responder, y depende de varios factores: el tamaño del modelo, la cantidad de tokens de entrada, la carga del servidor y la distancia geográfica. Los modelos más grandes son más lentos. Para mejorar la experiencia del usuario, muchas APIs soportan **streaming**: en vez de esperar a que el modelo genere toda la respuesta, te la van mandando token por token. Así el usuario ve cómo se va escribiendo la respuesta en tiempo real.

## Costos

La inferencia se cobra por **tokens procesados**, tanto los de entrada como los de salida. Modelos más capaces cuestan más por token. Un ejemplo aproximado:

| Modelo | Input (por 1M tokens) | Output (por 1M tokens) |
|--------|----------------------|----------------------|
| GPT-4o mini | ~$0.15 | ~$0.60 |
| GPT-4o | ~$2.50 | ~$10.00 |
| Claude Sonnet | ~$3.00 | ~$15.00 |

Optimizar tus [prompts](/prompts) para usar menos tokens tiene un impacto directo en lo que gastás. A escala, la diferencia entre un prompt de 500 tokens y uno de 2000 puede ser enorme.

## Inferencia en tu aplicación

Cuando construís una aplicación que usa IA, cada interacción del usuario genera una o más llamadas de inferencia. Tenés que pensar en cómo manejar la latencia (¿mostrás un spinner? ¿usás streaming?), cómo controlás los costos (¿ponés límites de uso? ¿cacheás respuestas comunes?) y cómo manejás errores (¿qué pasa si la API del modelo se cae?). Estas son las mismas preocupaciones que tendrías con cualquier servicio externo al que le hacés [requests](/request-response).


La inferencia es el proceso en el que un modelo de IA ya entrenado genera respuestas a partir de datos nuevos.

Inferencia

El proceso de entrenar un modelo de IA existente con tus propios datos para especializarlo en una tarea.

Fine-tuning

Un agente de IA es un sistema que puede tomar decisiones, usar herramientas y ejecutar acciones de forma autónoma.

Agentes

El A/B testing es una técnica para comparar dos versiones de algo y determinar cuál funciona mejor con datos reales.

A/B Testing

Prácticas para hacer que una aplicación sea usable por todas las personas, incluyendo aquellas con discapacidades.

Accesibilidad (a11y)

Cómo y dónde se guardan los archivos que sube o genera una aplicación

Almacenamiento de archivos

Los archivos y carpetas que vas a encontrar en cualquier proyecto de código, y para qué sirve cada uno.

Anatomía de un proyecto

Transiciones y movimientos visuales que mejoran la experiencia del usuario en una interfaz.

Animaciones

Una interfaz que permite a dos aplicaciones comunicarse entre sí

Un punto de entrada único que gestiona todas las peticiones a los distintos servicios de una aplicación.

API Gateway

Las APIs de terceros son servicios externos que podés integrar en tu aplicación para sumar funcionalidades sin tener que desarrollarlas desde cero.

APIs de terceros

Una aplicación es un programa de software diseñado para que las personas realicen tareas específicas, ya sea desde un navegador, un celular o una computadora.

Aplicación

El proceso de identificar de dónde vienen los usuarios y qué los llevó a convertir.

Atribución

El proceso de verificar la identidad de un usuario en una aplicación

Autenticación

El proceso de determinar qué acciones o recursos tiene permitido acceder un usuario ya autenticado.

Autorización

Copias de seguridad de los datos para poder recuperarlos en caso de pérdida o error.

Backups

Un sistema organizado para almacenar, gestionar y recuperar información

Base de datos

Procesamiento de grandes volúmenes de datos en lotes en vez de uno por uno.

Batch processing

Una branch (rama) es una línea de desarrollo independiente que permite trabajar en cambios sin afectar el código principal.

Branch

Un bug es un error en el software que hace que se comporte de forma inesperada o incorrecta.

Bugs

Una capa de almacenamiento temporal que guarda datos frecuentemente usados para acelerar su acceso.

Cache

Cómo estructurar, lanzar y optimizar campañas de anuncios para tu producto digital.

Campañas publicitarias

Una red de servidores distribuidos que acelera la entrega de archivos a usuarios en todo el mundo

Prácticas de integración continua y deploy continuo que automatizan el camino del código a producción.

CI/CD

El cliente o frontend es todo lo que corre en el dispositivo del usuario: lo que ve, toca e interactúa en una aplicación.

Cliente (Frontend)

Grupos de usuarios agrupados por una característica o momento en común para analizar su comportamiento.

Cohortes

La colaboración en código es el conjunto de prácticas y flujos de trabajo que permiten que varias personas trabajen en el mismo proyecto sin pisarse.

Colaboración

Un sistema que organiza y distribuye tareas pendientes para que se procesen en orden

Colas de tareas

Un commit es una foto del estado de tu código en un momento específico, acompañada de un mensaje que describe qué se cambió.

Commit

Piezas reutilizables e independientes que conforman la interfaz de una aplicación.

Componentes

Técnicas para reducir el tamaño de archivos y datos para transferirlos más rápido.

Compresión

La capacidad de un programa de manejar múltiples tareas al mismo tiempo.

Concurrencia

Una tecnología que empaqueta una aplicación con todo lo que necesita para funcionar en cualquier lugar.

Contenedores (Docker)

El control de cambios es el conjunto de prácticas y herramientas para rastrear qué se modificó en el código, quién lo hizo y cuándo.

Control de cambios

Pequeños archivos de datos que el navegador almacena para recordar información entre visitas.

Cookies

Un mecanismo de seguridad que controla qué dominios pueden acceder a los recursos de tu servidor.

CORS

Una métrica que indica qué porcentaje del código está cubierto por tests automatizados.

Coverage

Un sistema de créditos permite que los usuarios compren unidades de consumo por adelantado y las gasten a medida que usan el servicio.

Créditos

Paneles visuales que muestran métricas y datos clave de la aplicación en tiempo real.

Dashboards

Las dependencias son paquetes o módulos externos que tu proyecto necesita para funcionar.

Dependencias

El deploy es el proceso de publicar una aplicación para que los usuarios puedan acceder a ella.

Deploy

Soluciones probadas a problemas comunes de diseño de software.

Design patterns

El DNS es el sistema que traduce nombres de dominio legibles (como google.com) a direcciones IP numéricas que las computadoras entienden.

Un dominio es el nombre legible que identifica a un sitio web en internet, como google.com o miapp.com.ar.

Dominio

Los embeddings son representaciones numéricas que capturan el significado de un texto para que una computadora pueda comparar conceptos.

Embeddings

Situaciones inesperadas que ocurren durante la ejecución de un programa y cómo manejarlas.

Errores y excepciones

La escalabilidad es la capacidad de una aplicación para manejar más carga de trabajo sin perder rendimiento.

Escalabilidad

El estado es la información que una aplicación necesita recordar en un momento dado para funcionar correctamente.

Estado

Un patrón donde cada cambio en la aplicación se registra como un evento inmutable.

Event sourcing

Señales que emite una aplicación cuando algo sucede, permitiendo que otras partes reaccionen

Eventos

Los eventos de analytics son registros de las acciones que los usuarios realizan en tu app, usados para entender su comportamiento.

Eventos de analytics

La facturación es el proceso de generar comprobantes de pago (facturas) que documentan las transacciones entre tu app y los usuarios.

Facturación

El feedback son las señales visuales y mensajes que una aplicación usa para comunicarle al usuario qué está pasando en cada momento.

Feedback

El feedback de usuarios es la información que recopilás de las personas que usan tu producto para entender qué funciona, qué no y qué mejorar.

Feedback de usuarios

El flujo de datos describe cómo la información viaja entre el usuario, el frontend, el backend y la base de datos en una aplicación.

Flujo de datos

Los formularios son el principal mecanismo que tienen las aplicaciones para recibir información del usuario.

Formularios

Un funnel (embudo) es una representación de los pasos que sigue un usuario hasta completar una acción clave en tu producto.

Funnels

El conjunto de funcionalidades que permiten a los usuarios crear, modificar y eliminar sus cuentas dentro de una aplicación.

Gestión de cuentas

Un lenguaje de consultas para APIs que permite pedir exactamente los datos que necesitás.

GraphQL

Un protocolo de comunicación de alto rendimiento para conectar servicios entre sí.

gRPC

Mecanismos para limitar, validar y controlar las respuestas generadas por modelos de IA.

Guardrails

HTTP es el protocolo que define cómo se comunican el navegador y el servidor; HTTPS agrega una capa de encriptación para proteger esos datos.

HTTP / HTTPS

Técnicas para servir imágenes de forma eficiente sin sacrificar calidad visual.

Imágenes y optimización

Una técnica de bases de datos que crea estructuras auxiliares para encontrar datos mucho más rápido sin recorrer toda la tabla.

Indexación

Los inputs son los datos que recibe un modelo de IA y los outputs son las respuestas que genera.

Inputs / Outputs

El proceso de conectar tu aplicación con servicios y plataformas externas para aprovechar funcionalidades que ya existen.

Integraciones

Las integraciones externas son las conexiones entre tu aplicación y sistemas de terceros que permiten intercambiar datos y funcionalidades.

Integraciones externas

Iterar es el proceso de mejorar un producto de manera incremental a través de ciclos cortos de construcción, medición y aprendizaje.

Iteración

Tareas que se ejecutan automáticamente en horarios o intervalos definidos

Jobs programados

Un componente que distribuye el tráfico entrante entre varios servidores para evitar sobrecarga.

Load balancer

Los logs son registros de eventos que genera una aplicación para que los desarrolladores puedan entender qué pasó y cuándo.

Logs

Un merge es la operación de unir los cambios de una rama con otra, combinando el trabajo de diferentes líneas de desarrollo.

Merge

Las métricas son indicadores numéricos que te ayudan a entender el rendimiento y la salud de tu producto.

Métricas

Un patrón de arquitectura donde la aplicación se divide en servicios pequeños e independientes.

Microservicios

Scripts que modifican la estructura de la base de datos de forma controlada y reversible.

Migraciones

Una técnica de testing que simula dependencias externas para probar código de forma aislada.

Mocking

Un modelo de IA es un programa entrenado con datos para reconocer patrones y generar respuestas.

Modelos

La modularidad es el principio de organizar el código en partes independientes y reutilizables, cada una con una responsabilidad clara.

Modularidad

El monitoreo es la práctica de observar continuamente una aplicación para detectar problemas antes de que afecten a los usuarios.

Monitoreo

Un monolito es una arquitectura de software donde toda la aplicación vive en un único código base y se despliega como una sola unidad.

Monolito

Un MVP es la versión más simple de un producto que permite validar una idea con usuarios reales usando el mínimo esfuerzo posible.

La navegación es el sistema que permite al usuario moverse entre las distintas secciones y páginas de una aplicación.

Navegación

Las plataformas no-code y low-code permiten crear aplicaciones con poca o ninguna programación, usando interfaces visuales de arrastrar y soltar.

No-code / Low-code

Mecanismos que usa una aplicación para avisar al usuario que algo importante ocurrió

Notificaciones

Un protocolo que permite a los usuarios iniciar sesión con sus cuentas de Google, GitHub u otros servicios.

OAuth

El proceso de guiar a un usuario nuevo para que entienda y empiece a usar tu aplicación.

Onboarding

Software cuyo código fuente es público y cualquiera puede usar, modificar y distribuir.

Open source

Una herramienta que permite interactuar con la base de datos usando objetos en vez de SQL.

Herramientas que gestionan las dependencias y librerías que usa tu proyecto.

Package managers

Una técnica para dividir grandes conjuntos de datos en páginas más pequeñas y manejables.

Paginación

Un pago único es cuando el usuario paga una sola vez por un producto o servicio, sin compromisos recurrentes.

Pagos únicos

Servicios que procesan transacciones de pago de forma segura entre compradores y vendedores.

Pasarelas de pago

La capacidad de almacenar datos de forma duradera para que sobrevivan al cierre de la aplicación o del servidor.

Persistencia

Un pipeline es una cadena de tareas que se ejecutan en secuencia, donde la salida de una etapa es la entrada de la siguiente.

Pipelines

Un pixel es un fragmento de código que registra las acciones de los usuarios en tu sitio para medir y optimizar tus campañas publicitarias.

Pixel de seguimiento

Una plataforma es un sistema base sobre el cual se construyen, ejecutan o distribuyen aplicaciones y servicios.

Plataformas

Estrategias para definir cuánto cobrar por un producto o servicio digital.

Pricing

Un modelo de ejecución donde las tareas se inician sin esperar a que las anteriores terminen

Procesamiento asíncrono

Un modelo de ejecución donde cada operación espera a que la anterior termine antes de continuar

Procesamiento síncrono

El product-market fit es el punto donde tu producto satisface una necesidad real del mercado y los usuarios no querrían dejarlo.

Product-market fit

Un prompt es la instrucción o texto que le das a un modelo de IA para que genere una respuesta.

Prompts

Cómo funcionan los anuncios online para atraer usuarios a tu producto.

Publicidad digital

Un pull request es una solicitud para incorporar los cambios de una rama al código principal, permitiendo revisión y discusión antes del merge.

Modelo	Input (por 1M tokens)	Output (por 1M tokens)
GPT-4o mini	~$0.15	~$0.60
GPT-4o	~$2.50	~$10.00
Claude Sonnet	~$3.00	~$15.00