Kafka 3: Productores y Consumidores, Configuración y Buenas Prácticas

Mauricio ECR
Arquitectura
05 May, 2025

Hemos navegado por los conceptos esenciales de Apache Kafka y desentrañado la arquitectura que reside bajo la superficie, comprendiendo cómo los Topics se dividen en Particiones distribuidas entre Brokers para lograr escalabilidad y tolerancia a fallos. Ahora que sabemos dónde se almacenan los datos y cómo se organizan, es momento de hablar de quién los pone ahí y quién los saca: los Productores y los Consumidores.

Estos dos componentes son la interfaz de interacción con el clúster de Kafka. Un productor es una aplicación que escribe datos en uno o varios Topics. Un consumidor es una aplicación que lee datos de uno o varios Topics. Aunque su función básica parece sencilla, hay matices importantes en su configuración y comportamiento que impactan directamente en la fiabilidad, el rendimiento y la semántica de procesamiento de tus aplicaciones.

En este artículo, nos sumergiremos en el mundo de los Productores y Consumidores, explorando sus configuraciones clave, las decisiones de diseño importantes que debes tomar al implementarlos y cómo garantizar diferentes niveles de garantías de entrega de mensajes. Este conocimiento es esencial para construir aplicaciones cliente de Kafka que sean robustas y eficientes.

Productores (Producers): Enviando Datos a Kafka

El Productor es la aplicación cliente encargada de publicar (escribir) datos en Topics dentro del clúster de Kafka. Su principal tarea es tomar los datos de tu aplicación, serializarlos en un formato de bytes adecuado y enviarlos a la partición correcta del Topic de destino.

Al diseñar e implementar un productor, hay varias configuraciones y consideraciones clave que influyen en el rendimiento y la fiabilidad:

Configuración Clave: acks, retries, linger.ms

Estas configuraciones determinan cómo el productor maneja los envíos de mensajes y las respuestas del broker, impactando directamente en la durabilidad y latencia:

acks (Acknowledgments): Esta configuración es fundamental para la durabilidad de los datos. Controla el número de réplicas que deben confirmar la recepción de un mensaje antes de que el productor lo considere “escrito con éxito”.
- acks=0: El productor no espera confirmación del broker. Envía el mensaje y lo considera enviado inmediatamente. Ofrece la menor latencia y el mayor rendimiento, pero hay riesgo de perder mensajes si el broker líder falla justo después de recibir el mensaje.
- acks=1: El productor espera la confirmación solo del broker líder de la partición. Latencia moderada. Los mensajes son duraderos siempre y cuando el broker líder no falle después de confirmar y antes de que los seguidores repliquen el mensaje.
- acks=all (o -1): El productor espera la confirmación del broker líder y de todas las réplicas en el ISR (In-Sync Replicas). Es la configuración más fuerte en cuanto a durabilidad, garantizando que un mensaje no se pierda mientras haya al menos una réplica en el ISR disponible. Introduce la mayor latencia, pero es la más segura.
retries: Especifica cuántas veces el productor intentará reenviar un mensaje temporalmente fallido (por ejemplo, debido a un error transitorio de red o un rebalanceo de líder). Combinado con acks > 0, esto ayuda a garantizar la entrega. Sin embargo, los reintentos pueden llevar a la duplicación de mensajes en el lado del consumidor si los reintentos ocurren después de que el broker recibió el mensaje pero antes de que pudiera confirmar al productor (at-least-once). Para exactly-once se requiere idempotencia y transacciones.
linger.ms: Por defecto (linger.ms=0), el productor envía los mensajes tan pronto como están listos. linger.ms especifica un tiempo en milisegundos que el productor esperará para acumular más mensajes en un lote antes de enviarlos al broker. Esto puede reducir el número de solicitudes enviadas y aumentar el rendimiento (throughput) general, aunque introduce una pequeña latencia artificial. Es un balance entre latencia y throughput. Un valor típico podría ser 5-100 ms.

Otras configuraciones importantes incluyen batch.size (tamaño máximo del lote a enviar) y buffer.memory (memoria del productor para almacenar mensajes pendientes).

Serialización

Antes de enviar un mensaje a Kafka, los datos de tu aplicación deben ser serializados a un array de bytes. De manera similar, el consumidor necesitará deserializarlos. Kafka es agnóstico al formato de los datos (solo ve bytes), pero elegir un formato de serialización adecuado es vital para la interoperabilidad y la evolución de esquemas. Opciones comunes incluyen:

JSON: Fácil de usar y leer, pero menos eficiente en tamaño y puede tener problemas de compatibilidad al cambiar el esquema sin un registro de esquemas.
Avro: Formato basado en esquema. Los esquemas se definen por separado y a menudo se gestionan con un Schema Registry. Ofrece compresión eficiente y compatibilidad de esquemas robusta. Es una elección muy popular en el ecosistema Kafka.
Protobuf (Protocol Buffers) / Thrift: Formatos serialización eficientes y basados en esquema, desarrollados por Google y Apache respectivamente. Similares a Avro en sus ventajas.

Particionamiento Personalizado

Aunque el particionamiento por clave (hash) o round-robin son las estrategias por defecto y las más comunes, los productores pueden implementar una lógica de particionamiento personalizada si las necesidades lo requieren. Esto implica escribir una clase que implemente la interfaz Partitioner de Kafka y configurarla en el productor. Esto podría ser útil para dirigir mensajes a particiones específicas basándose en lógica de negocio compleja.

Consumidores (Consumers): Leyendo Datos de Kafka

El Consumidor es la aplicación cliente que lee mensajes de uno o varios Topics. A diferencia de muchos sistemas de mensajería donde el broker empuja mensajes al consumidor, en Kafka, el consumidor jala (pulls) mensajes de los brokers. Esta es una diferencia fundamental que le da al consumidor control sobre su ritmo de procesamiento.

Consumer Groups y Paralelismo

Para permitir que múltiples instancias de tu aplicación consuman los mismos datos de un Topic de forma concurrente y escalable, Kafka introduce el concepto de Consumer Groups. Un Consumer Group es un conjunto de uno o más consumidores que comparten una misma identidad (un group.id).

La clave del Consumer Group es cómo maneja las Particiones:

Dentro de un Consumer Group, cada partición de un Topic es asignada a exactamente un consumidor dentro de ese grupo.
Si hay más consumidores en el grupo que particiones en el Topic, algunos consumidores estarán inactivos (no se les asignará ninguna partición).
Si hay menos consumidores que particiones, a algunos consumidores se les asignarán múltiples particiones.

Esto significa que el paralelismo de consumo está limitado por el número de particiones en el Topic. Si tienes 10 particiones, puedes tener hasta 10 consumidores activos en un Consumer Group leyendo en paralelo. Si añades más consumidores (hasta el número de particiones), el trabajo se distribuye, escalando la capacidad de procesamiento. Si un consumidor falla, Kafka reasigna automáticamente sus particiones a otros consumidores activos en el mismo grupo.

Estrategias de Commit: Automático vs. Manual

Dado que los consumidores jalan datos y mantienen su propio progreso, necesitan decirle a Kafka hasta dónde han leído en cada partición. A esto se le llama commit del offset. El offset es simplemente la posición del último mensaje procesado en el log de la partición.

Hay dos estrategias principales para gestionar los commits:

Commit Automático: (enable.auto.commit=true) El consumidor automáticamente commitea los offsets periódicamente (controlado por auto.commit.interval.ms). Es más simple de implementar, pero tiene el riesgo de procesar mensajes duplicados o perder mensajes.
- Riesgo de Duplicados: Si el consumidor commitea un offset X pero falla antes de terminar de procesar el mensaje en ese offset X, al reiniciarse comenzará a leer desde X+1 (si el commit ya se envió) o desde el último offset commiteado Y < X, re-procesando los mensajes entre Y y X.
- Riesgo de Pérdida: Si el consumidor falla después de procesar un mensaje pero antes de que se realice el commit automático, al reiniciarse leerá desde el último offset commiteado, perdiendo los mensajes que procesó pero no commiteó.
Commit Manual: (enable.auto.commit=false) El consumidor es responsable de commitear explícitamente los offsets utilizando los métodos commitSync() o commitAsync().
- commitSync(): Bloquea hasta que el broker confirma el commit del offset. Más seguro contra pérdida de mensajes, pero puede reducir el rendimiento del consumidor.
- commitAsync(): No bloquea. Envía la solicitud de commit y continúa procesando. Es más rápido, pero el commit puede fallar después de que el método retorna, por lo que puede ser necesario manejar errores o usar un patrón de commit asíncrono con commit síncrono final.

Generalmente, el commit manual es la opción preferida para la mayoría de las aplicaciones críticas porque permite commitear el offset después de que el mensaje ha sido completamente procesado (por ejemplo, escrito en una base de datos), minimizando el riesgo de pérdida o duplicación de datos.

Rebalanceo y Cómo Evitarlo (static.membership)

Cuando un consumidor se une o sale de un Consumer Group (ya sea intencionalmente o por un fallo), o cuando se añaden o eliminan particiones de un Topic, Kafka desencadena un rebalanceo. Durante un rebalanceo, las particiones asignadas a los consumidores en el grupo se redistribuyen. Esto implica que los consumidores deben dejar de leer de sus particiones actuales, commitear sus offsets y empezar a leer de las nuevas particiones asignadas.

El rebalanceo es una característica esencial para la alta disponibilidad y escalabilidad, pero puede introducir pausas en el procesamiento y complejidad. Tradicionalmente, el rebalanceo puede ser lento en grupos grandes y causar lo que se conoce como “rebalanceo tempestuoso” (lively rebalances).

Para mitigar algunos de estos problemas, Kafka 2.3 introdujo el concepto de Static Membership. Un consumidor puede configurar un group.instance.id único y persistente. Si un consumidor con un group.instance.id configurado se desconecta temporalmente (por ejemplo, por un reinicio programado o un fallo transitorio), Kafka espera un tiempo configurable (group.instance.id.lease.ms) antes de reasignar sus particiones a otro consumidor. Si el consumidor original vuelve a conectarse con el mismo group.instance.id dentro de ese tiempo, se le reasignan sus particiones sin que ocurra un rebalanceo completo del grupo. Esto es muy útil para despliegues orquestados y para manejar reinicios de aplicaciones sin impactar a todo el grupo.

Semánticas de Entrega: Garantizando la Fiabilidad

Uno de los aspectos más desafiantes del procesamiento de datos distribuidos es garantizar que los mensajes se procesen exactamente una vez. En el contexto de Kafka, podemos hablar de diferentes semánticas de entrega entre el productor y el consumidor:

At-Most-Once: Los mensajes se pueden perder, pero nunca se duplican. Esto se logra típicamente con acks=0 en el productor (alto riesgo de pérdida pero no duplica por reintentos) o commiteando offsets del consumidor antes de procesar el mensaje (riesgo de pérdida si falla antes de procesar). Adecuado para datos donde la pérdida ocasional es aceptable (ej: métricas agregadas).
At-Least-Once: Los mensajes no se pierden, pero pueden procesarse más de una vez (duplicados). Esta es la semántica por defecto y más fácil de lograr con Kafka. Se consigue con acks=all en el productor y retries > 0, y commiteando offsets del consumidor después de procesar el mensaje. Es segura contra la pérdida, pero requiere que la aplicación consumidora sea idempotente; es decir, procesar el mismo mensaje varias veces no debe causar efectos secundarios no deseados (ej: incrementar un contador puede ser un problema, pero escribir en una base de datos usando la clave del mensaje como ID y sobrescribiendo la entrada es idempotente).
Exactly-Once: Cada mensaje se procesa exactamente una vez, sin pérdida ni duplicación. Lograr esto en un sistema distribuido es complejo. Kafka lo posibilita a través de la combinación de dos características:
- Idempotencia del Productor: Garantiza que el envío repetido del mismo mensaje por un único productor a una única partición no resulte en duplicados. Esto se logra asignando un ID de Productor (Producer ID - PID) y un número de secuencia a cada mensaje enviado. El broker detecta y descarta duplicados. Se habilita configurando enable.idempotence=true en el productor. Esto garantiza “exactly-once” dentro de una única sesión de productor y para envíos a una única partición.
- Transacciones: Para lograr “exactly-once” al enviar mensajes a múltiples particiones (incluso en diferentes topics) y/o al commitear offsets de consumidor junto con la producción de nuevos mensajes (patrón Consume-Transform-Produce), Kafka ofrece una API de Transacciones. Esto permite que un conjunto de operaciones (envío de varios mensajes, commit de offsets) se realicen de forma atómica. Si la transacción falla, todas las operaciones se abortan. Esto se habilita configurando un transactional.id en el productor y utilizando la API transaccional. La semántica “exactly-once” del consumidor requiere que el consumidor esté configurado para leer solo mensajes que forman parte de transacciones completadas (isolation.level=read_committed).

La semántica “exactly-once” es potente pero añade complejidad. A menudo, lograr “at-least-once” y asegurar que tu aplicación sea idempotente es una solución más simple y suficiente.

Conclusión

Hemos explorado en detalle a los Productores y Consumidores, los componentes esenciales para interactuar con Apache Kafka. Comprendimos cómo los productores configuran garantías de entrega y rendimiento a través de parámetros como acks y retries, y la importancia de la serialización. Vimos cómo los consumidores utilizan los Consumer Groups para paralelizar el procesamiento de particiones, la diferencia crítica entre el commit automático y manual de offsets, y cómo el Static Membership mejora la resiliencia al rebalanceo. Finalmente, desglosamos las diferentes semánticas de entrega (at-most-once, at-least-once, exactly-once) y cómo Kafka ofrece herramientas (idempotencia y transacciones) para lograr la semántica más fuerte.

Dominar la configuración y el comportamiento de Productores y Consumidores es fundamental para construir aplicaciones fiables que se integren eficazmente con Kafka. Ahora que sabemos cómo poner y sacar datos del clúster, la siguiente pregunta natural es: ¿qué podemos hacer con esos datos una vez que están fluyendo? En el próximo artículo, nos adentraremos en las capacidades de procesamiento de datos en tiempo real que ofrece Kafka, explorando las APIs Kafka Streams y la herramienta interactiva ksqlDB, que nos permiten construir aplicaciones de procesamiento de stream directamente sobre Kafka.

Tags :

Cuándo Usar Colas de Mensajes en el Desarrollo de Software

Mauricio ECR
Arquitectura
18 Apr, 2025

Las colas de mensajes son herramientas clave para construir sistemas distribuidos, escalables y tolerantes a fallos. En este artículo te comparto una guía con situaciones comunes donde su uso es altam