Краткий ответ

Apache Kafka — это платформа для обмена сообщениями, ориентированная на высокую пропускную способность и масштабируемость. Она позволяет надежно собирать и передавать большие потоки данных из распределённых систем без потерь.

Как это работает

Apache Kafka реализует концепцию распределённого журнала событий: данные записываются в топики, которые хранятся на кластере брокеров. Производители (producers) публикуют сообщения в топики, а потребители (consumers) считывают их асинхронно и независимо друг от друга. Благодаря партиционированию и репликации Kafka обеспечивает высокую доступность и масштабируемость.

Основные компоненты:

Компонент	Роль
Producer	Отправляет сообщения в Kafka-топики
Broker	Сохраняет, реплицирует и передает данные
Consumer	Получает и обрабатывает сообщения
Zookeeper	Управляет кластером и конфигурацией

Пример

Producer отправляет данные о заказах в топик "orders".
Kafka хранит их с возможностью масштабирования и репликации.
Consumer, например, служба аналитики, считывает эти сообщения для обработки в реальном времени.

Что важно знать на собеседовании

Kafka оптимизирована для обработки потоков данных с низкой задержкой и высокой пропускной способностью.
Система поддерживает гарантию доставки сообщений (at least once, exactly once при правильной настройке).
Партиционирование топиков позволяет параллельно обрабатывать данные и масштабировать нагрузку.
Репликация обеспечивает устойчивость к сбоям отдельных узлов.
Kafka часто используется вместе с системами обработки данных в реальном времени, например, Apache Flink или Spark Streaming.

Тема: Асинхронные системы и очереди | Уровень: junior

Зачем использовать Apache Kafka в потоковой обработке данных

Краткий ответ

Развёрнуто

Краткий ответ

Как это работает

Пример

Что важно знать на собеседовании