## El problema: los modelos no conocen tus datos

Un [modelo](/modelos) de IA como GPT-4 o Claude fue entrenado con información pública de internet, pero no sabe nada sobre los documentos internos de tu empresa, tus políticas de devolución o tu base de conocimiento privada. Si le preguntás "¿cuál es el proceso de onboarding para nuevos empleados?", va a inventar algo genérico porque no tiene acceso a esa información. Acá es donde entra **RAG**.

## ¿Qué es RAG?

RAG (Retrieval-Augmented Generation) es una técnica que combina dos pasos: primero **buscás** los documentos relevantes en tu propia base de datos, y después se los pasás al modelo como contexto para que **genere** una respuesta basada en información real. En vez de esperar que el modelo sepa todo, le das la información que necesita en el momento.

## El flujo completo

```
1. The user asks: "How many vacation days do I have?"
2. An embedding of the question is generated (numeric vector)
3. The most similar documents are searched in the vector database
4. The 3-5 most relevant fragments are retrieved
5. A prompt is built: "Based on these documents, answer: ..."
6. The model generates a response using that information
```

Cada paso es importante. Si la búsqueda falla y trae documentos irrelevantes, la respuesta va a ser mala aunque el modelo sea excelente.

## Chunking: partir los documentos

Antes de poder buscar en tus documentos, tenés que convertirlos en [embeddings](/embeddings) (representaciones numéricas que capturan el significado del texto). Pero primero hay que partirlos en fragmentos más chicos (**chunks**). Un PDF de 50 páginas no se puede convertir en un solo embedding útil. Lo partís en fragmentos de 200-500 tokens, con algo de superposición entre ellos para no perder contexto.

```python
from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50
)

chunks = splitter.split_documents(documents)
```

## Base de datos vectorial

Los embeddings de tus chunks se guardan en una [base de datos](/base-de-datos) vectorial, que está optimizada para buscar por similitud (es decir, encontrar los fragmentos cuyo significado se parezca más a la pregunta del usuario). Las más populares son Pinecone, Chroma, Weaviate y pgvector (extensión de PostgreSQL). Cuando llega una consulta, generás su embedding y buscás los vectores más cercanos.

```python
# Store documents
vectorstore = Chroma.from_documents(chunks, embedding_model)

# Search for the most relevant
results = vectorstore.similarity_search("vacation", k=3)
```

## El prompt final

Con los documentos recuperados, armás un [prompt](/prompts) que le da contexto al modelo:

```
System: Answer using ONLY the information from the context.
If you don't know, say you don't have that information.

Context:
- "Full-time employees have 15 business days of vacation..."
- "Vacation can be taken after 6 months..."

User: How many vacation days do I have?
```

## ¿RAG o fine-tuning?

RAG es mejor cuando tu información cambia seguido o es muy extensa. **Fine-tuning** (reentrenar el modelo con tus propios datos para que "aprenda" un estilo o conocimiento específico) es mejor cuando necesitás cambiar el comportamiento o estilo del modelo. En muchos casos se combinan: un modelo fine-tuneado para tu tono y formato, que además usa RAG para acceder a datos actualizados.


Retrieval-Augmented Generation: una técnica que combina búsqueda de documentos con generación de texto por IA.

El proceso por el cual un modelo de IA descompone texto en unidades más pequeñas llamadas tokens.

Tokenización

El proceso de entrenar un modelo de IA existente con tus propios datos para especializarlo en una tarea.

Fine-tuning

El A/B testing es una técnica para comparar dos versiones de algo y determinar cuál funciona mejor con datos reales.

A/B Testing

Prácticas para hacer que una aplicación sea usable por todas las personas, incluyendo aquellas con discapacidades.

Accesibilidad (a11y)

Un agente de IA es un sistema que puede tomar decisiones, usar herramientas y ejecutar acciones de forma autónoma.

Agentes

Cómo y dónde se guardan los archivos que sube o genera una aplicación

Almacenamiento de archivos

Los archivos y carpetas que vas a encontrar en cualquier proyecto de código, y para qué sirve cada uno.

Anatomía de un proyecto

Transiciones y movimientos visuales que mejoran la experiencia del usuario en una interfaz.

Animaciones

Una interfaz que permite a dos aplicaciones comunicarse entre sí

Un punto de entrada único que gestiona todas las peticiones a los distintos servicios de una aplicación.

API Gateway

Las APIs de terceros son servicios externos que podés integrar en tu aplicación para sumar funcionalidades sin tener que desarrollarlas desde cero.

APIs de terceros

Una aplicación es un programa de software diseñado para que las personas realicen tareas específicas, ya sea desde un navegador, un celular o una computadora.

Aplicación

El proceso de identificar de dónde vienen los usuarios y qué los llevó a convertir.

Atribución

El proceso de verificar la identidad de un usuario en una aplicación

Autenticación

El proceso de determinar qué acciones o recursos tiene permitido acceder un usuario ya autenticado.

Autorización

Copias de seguridad de los datos para poder recuperarlos en caso de pérdida o error.

Backups

Un sistema organizado para almacenar, gestionar y recuperar información

Base de datos

Procesamiento de grandes volúmenes de datos en lotes en vez de uno por uno.

Batch processing

Una branch (rama) es una línea de desarrollo independiente que permite trabajar en cambios sin afectar el código principal.

Branch

Un bug es un error en el software que hace que se comporte de forma inesperada o incorrecta.

Bugs

Una capa de almacenamiento temporal que guarda datos frecuentemente usados para acelerar su acceso.

Cache

Cómo estructurar, lanzar y optimizar campañas de anuncios para tu producto digital.

Campañas publicitarias

Una red de servidores distribuidos que acelera la entrega de archivos a usuarios en todo el mundo

Prácticas de integración continua y deploy continuo que automatizan el camino del código a producción.

CI/CD

El cliente o frontend es todo lo que corre en el dispositivo del usuario: lo que ve, toca e interactúa en una aplicación.

Cliente (Frontend)

Grupos de usuarios agrupados por una característica o momento en común para analizar su comportamiento.

Cohortes

La colaboración en código es el conjunto de prácticas y flujos de trabajo que permiten que varias personas trabajen en el mismo proyecto sin pisarse.

Colaboración

Un sistema que organiza y distribuye tareas pendientes para que se procesen en orden

Colas de tareas

Un commit es una foto del estado de tu código en un momento específico, acompañada de un mensaje que describe qué se cambió.

Commit

Piezas reutilizables e independientes que conforman la interfaz de una aplicación.

Componentes

Técnicas para reducir el tamaño de archivos y datos para transferirlos más rápido.

Compresión

La capacidad de un programa de manejar múltiples tareas al mismo tiempo.

Concurrencia

Una tecnología que empaqueta una aplicación con todo lo que necesita para funcionar en cualquier lugar.

Contenedores (Docker)

El control de cambios es el conjunto de prácticas y herramientas para rastrear qué se modificó en el código, quién lo hizo y cuándo.

Control de cambios

Pequeños archivos de datos que el navegador almacena para recordar información entre visitas.

Cookies

Un mecanismo de seguridad que controla qué dominios pueden acceder a los recursos de tu servidor.

CORS

Una métrica que indica qué porcentaje del código está cubierto por tests automatizados.

Coverage

Un sistema de créditos permite que los usuarios compren unidades de consumo por adelantado y las gasten a medida que usan el servicio.

Créditos

Paneles visuales que muestran métricas y datos clave de la aplicación en tiempo real.

Dashboards

Las dependencias son paquetes o módulos externos que tu proyecto necesita para funcionar.

Dependencias

El deploy es el proceso de publicar una aplicación para que los usuarios puedan acceder a ella.

Deploy

Soluciones probadas a problemas comunes de diseño de software.

Design patterns

El DNS es el sistema que traduce nombres de dominio legibles (como google.com) a direcciones IP numéricas que las computadoras entienden.

Un dominio es el nombre legible que identifica a un sitio web en internet, como google.com o miapp.com.ar.

Dominio

Los embeddings son representaciones numéricas que capturan el significado de un texto para que una computadora pueda comparar conceptos.

Embeddings

Situaciones inesperadas que ocurren durante la ejecución de un programa y cómo manejarlas.

Errores y excepciones

La escalabilidad es la capacidad de una aplicación para manejar más carga de trabajo sin perder rendimiento.

Escalabilidad

El estado es la información que una aplicación necesita recordar en un momento dado para funcionar correctamente.

Estado

Un patrón donde cada cambio en la aplicación se registra como un evento inmutable.

Event sourcing

Señales que emite una aplicación cuando algo sucede, permitiendo que otras partes reaccionen

Eventos

Los eventos de analytics son registros de las acciones que los usuarios realizan en tu app, usados para entender su comportamiento.

Eventos de analytics

La facturación es el proceso de generar comprobantes de pago (facturas) que documentan las transacciones entre tu app y los usuarios.

Facturación

El feedback son las señales visuales y mensajes que una aplicación usa para comunicarle al usuario qué está pasando en cada momento.

Feedback

El feedback de usuarios es la información que recopilás de las personas que usan tu producto para entender qué funciona, qué no y qué mejorar.

Feedback de usuarios

El flujo de datos describe cómo la información viaja entre el usuario, el frontend, el backend y la base de datos en una aplicación.

Flujo de datos

Los formularios son el principal mecanismo que tienen las aplicaciones para recibir información del usuario.

Formularios

Un funnel (embudo) es una representación de los pasos que sigue un usuario hasta completar una acción clave en tu producto.

Funnels

El conjunto de funcionalidades que permiten a los usuarios crear, modificar y eliminar sus cuentas dentro de una aplicación.

Gestión de cuentas

Un lenguaje de consultas para APIs que permite pedir exactamente los datos que necesitás.

GraphQL

Un protocolo de comunicación de alto rendimiento para conectar servicios entre sí.

gRPC

Mecanismos para limitar, validar y controlar las respuestas generadas por modelos de IA.

Guardrails

HTTP es el protocolo que define cómo se comunican el navegador y el servidor; HTTPS agrega una capa de encriptación para proteger esos datos.

HTTP / HTTPS

Técnicas para servir imágenes de forma eficiente sin sacrificar calidad visual.

Imágenes y optimización

Una técnica de bases de datos que crea estructuras auxiliares para encontrar datos mucho más rápido sin recorrer toda la tabla.

Indexación

La inferencia es el proceso en el que un modelo de IA ya entrenado genera respuestas a partir de datos nuevos.

Inferencia

Los inputs son los datos que recibe un modelo de IA y los outputs son las respuestas que genera.

Inputs / Outputs

El proceso de conectar tu aplicación con servicios y plataformas externas para aprovechar funcionalidades que ya existen.

Integraciones

Las integraciones externas son las conexiones entre tu aplicación y sistemas de terceros que permiten intercambiar datos y funcionalidades.

Integraciones externas

Iterar es el proceso de mejorar un producto de manera incremental a través de ciclos cortos de construcción, medición y aprendizaje.

Iteración

Tareas que se ejecutan automáticamente en horarios o intervalos definidos

Jobs programados

Un componente que distribuye el tráfico entrante entre varios servidores para evitar sobrecarga.

Load balancer

Los logs son registros de eventos que genera una aplicación para que los desarrolladores puedan entender qué pasó y cuándo.

Logs

Un merge es la operación de unir los cambios de una rama con otra, combinando el trabajo de diferentes líneas de desarrollo.

Merge

Las métricas son indicadores numéricos que te ayudan a entender el rendimiento y la salud de tu producto.

Métricas

Un patrón de arquitectura donde la aplicación se divide en servicios pequeños e independientes.

Microservicios

Scripts que modifican la estructura de la base de datos de forma controlada y reversible.

Migraciones

Una técnica de testing que simula dependencias externas para probar código de forma aislada.

Mocking

Un modelo de IA es un programa entrenado con datos para reconocer patrones y generar respuestas.

Modelos

La modularidad es el principio de organizar el código en partes independientes y reutilizables, cada una con una responsabilidad clara.

Modularidad

El monitoreo es la práctica de observar continuamente una aplicación para detectar problemas antes de que afecten a los usuarios.

Monitoreo

Un monolito es una arquitectura de software donde toda la aplicación vive en un único código base y se despliega como una sola unidad.

Monolito

Un MVP es la versión más simple de un producto que permite validar una idea con usuarios reales usando el mínimo esfuerzo posible.

La navegación es el sistema que permite al usuario moverse entre las distintas secciones y páginas de una aplicación.

Navegación

Las plataformas no-code y low-code permiten crear aplicaciones con poca o ninguna programación, usando interfaces visuales de arrastrar y soltar.

No-code / Low-code

Mecanismos que usa una aplicación para avisar al usuario que algo importante ocurrió

Notificaciones

Un protocolo que permite a los usuarios iniciar sesión con sus cuentas de Google, GitHub u otros servicios.

OAuth

El proceso de guiar a un usuario nuevo para que entienda y empiece a usar tu aplicación.

Onboarding

Software cuyo código fuente es público y cualquiera puede usar, modificar y distribuir.

Open source

Una herramienta que permite interactuar con la base de datos usando objetos en vez de SQL.

Herramientas que gestionan las dependencias y librerías que usa tu proyecto.

Package managers

Una técnica para dividir grandes conjuntos de datos en páginas más pequeñas y manejables.

Paginación

Un pago único es cuando el usuario paga una sola vez por un producto o servicio, sin compromisos recurrentes.

Pagos únicos

Servicios que procesan transacciones de pago de forma segura entre compradores y vendedores.

Pasarelas de pago

La capacidad de almacenar datos de forma duradera para que sobrevivan al cierre de la aplicación o del servidor.

Persistencia

Un pipeline es una cadena de tareas que se ejecutan en secuencia, donde la salida de una etapa es la entrada de la siguiente.

Pipelines

Un pixel es un fragmento de código que registra las acciones de los usuarios en tu sitio para medir y optimizar tus campañas publicitarias.

Pixel de seguimiento

Una plataforma es un sistema base sobre el cual se construyen, ejecutan o distribuyen aplicaciones y servicios.

Plataformas

Estrategias para definir cuánto cobrar por un producto o servicio digital.

Pricing

Un modelo de ejecución donde las tareas se inician sin esperar a que las anteriores terminen

Procesamiento asíncrono

Un modelo de ejecución donde cada operación espera a que la anterior termine antes de continuar

Procesamiento síncrono

El product-market fit es el punto donde tu producto satisface una necesidad real del mercado y los usuarios no querrían dejarlo.

Product-market fit

Un prompt es la instrucción o texto que le das a un modelo de IA para que genere una respuesta.