Streaming Ingestion

Apache Druid can consume data streams from external streaming sources for real-time data ingestion with exactly-once processing guarantees.

Supported Streaming Sources

Apache Kafka

Ingest from Apache Kafka through the bundled Kafka indexing service extension

Amazon Kinesis

Ingest from Amazon Kinesis through the bundled Kinesis indexing service extension

Key Features

Exactly-Once Processing

Each indexing service provides real-time data ingestion with exactly-once stream processing guarantee.Druid achieves this by:

Using Kafka partition and offset mechanism
Using Kinesis shard and sequence number mechanism
Coordinating handoffs through the supervisor
Managing failures with automatic recovery

Real-Time Queries

Query data as it arrives:

Middle Managers and Indexers can respond to queries with arriving data
No need to wait for segment publishing
Low-latency access to recent events

Late Data Handling

Both streaming sources support ingesting late-arriving data:

Configure lateMessageRejectionPeriod to control how late data can be
Supervisor manages segment handoffs to handle out-of-order events
Automatic backfilling for missed data

How Streaming Ingestion Works

Load Extension

Load the appropriate extension on both Overlord and Middle Manager:

druid-kafka-indexing-service for Kafka
druid-kinesis-indexing-service for Kinesis

Create Supervisor

Submit a supervisor spec through:

Druid web console
Supervisor API

The supervisor is a continuously-running process that manages indexing tasks.

Supervisor Manages Tasks

The supervisor:

Creates and manages indexing tasks
Coordinates segment handoffs
Manages failures and retries
Ensures scalability and replication requirements

Tasks Ingest Data

Indexing tasks:

Read from stream partitions/shards
Process and transform data
Create segments
Publish segments to deep storage

Architecture

                                 ┌─────────────────┐
                                 │   Overlord      │
                                 │                │
                                 │  ┌──────────┐ │
                                 │  │ Supervisor │ │
                                 │  └──────────┘ │
                                 └─────────────────┘
                                         │
                    ┌────────────┼────────────┐
                    │                │                │
          ┌─────────┴────────┐  ┌────────┴─────────┐
          │ Middle Manager │  │ Middle Manager  │
          │                │  │                 │
          │ ┌───────────┐│  │ ┌───────────┐ │
          │ │ Task 1     ││  │ │ Task 2     │ │
          │ │ (reading)  ││  │ │ (reading)  │ │
          │ └───────────┘│  │ └───────────┘ │
          └─────────────────┘  └──────────────────┘
                    │                │
                    │                │
                    │                │
          ┌─────────┴───────────────────────────┐
          │      Kafka/Kinesis Stream         │
          │                                   │
          │  Partition 1  |  Partition 2     │
          └─────────────────────────────────────┘

Supervisor Responsibilities

The supervisor oversees the streaming ingestion process:

Task Management
Partition Assignment
Offset Management
Failure Recovery

Creates indexing tasks based on configuration
Monitors task health and status
Restarts failed tasks
Scales tasks up/down based on load

Configuration Overview

A streaming supervisor spec consists of three main sections:

{
  "type": "kafka",  // or "kinesis"
  "spec": {
    "dataSchema": {
      // What data to ingest and how to process it
      "dataSource": "my-datasource",
      "timestampSpec": { ... },
      "dimensionsSpec": { ... },
      "metricsSpec": [ ... ],
      "granularitySpec": { ... }
    },
    "ioConfig": {
      // Connection and I/O settings
      "topic": "my-topic",  // or "stream" for Kinesis
      "consumerProperties": { ... },
      "inputFormat": { ... },
      "taskCount": 1,
      "replicas": 1,
      "taskDuration": "PT1H"
    },
    "tuningConfig": {
      // Performance tuning
      "type": "kafka",  // or "kinesis"
      "maxRowsInMemory": 100000,
      "maxRowsPerSegment": 5000000
    }
  }
}

Comparison: Kafka vs Kinesis

Similarities
Kafka-Specific
Kinesis-Specific

Both streaming sources:✅ Support exactly-once processing
✅ Handle late-arriving data
✅ Provide real-time query capabilities
✅ Managed by supervisors
✅ Support schema discovery
✅ Support all input formats

Apache Kafka features:

Multi-topic ingestion with topicPattern
Consumer group management
Header and key parsing
Transactional read support (isolation.level)
Custom consumer properties

Amazon Kinesis features:

AWS authentication (IAM roles, credentials)
Region-specific endpoints
ListShards API support
Enhanced fan-out capabilities
Deaggregation support
Resharding detection

Getting Started

Choose Your Stream

Decide between Kafka or Kinesis based on your infrastructure

Load Extension

Add the appropriate extension to your Druid configuration:

druid.extensions.loadList=["druid-kafka-indexing-service"]

druid.extensions.loadList=["druid-kinesis-indexing-service"]

Create Supervisor Spec

Define your supervisor specification with:

Data schema (what to ingest)
I/O config (how to connect)
Tuning config (performance settings)

Submit Supervisor

Submit via web console or API:

curl -X POST -H 'Content-Type: application/json' \
  -d @supervisor-spec.json \
  http://overlord:8090/druid/indexer/v1/supervisor

Monitor Ingestion

Monitor your supervisor and tasks:

Check supervisor status
View task progress
Monitor lag metrics
Review error reports

Performance Considerations

Task Count and Replicas

Configure parallelism with taskCount and replicas:

{
  "ioConfig": {
    "taskCount": 3,    // 3 tasks per replica
    "replicas": 2      // 2 replica sets
  }
}

Total tasks = taskCount * replicas = 6 tasks

Each task consumes one partition/shard, so taskCount should not exceed the number of partitions/shards.

Task Duration

Balance between real-time queries and segment size:

Shorter duration: More frequent handoffs, smaller segments
Longer duration: Fewer handoffs, larger segments

{
  "ioConfig": {
    "taskDuration": "PT1H"  // 1 hour task duration
  }
}

Memory Settings

Control memory usage:

{
  "tuningConfig": {
    "maxRowsInMemory": 100000,
    "maxBytesInMemory": 134217728,  // 128MB
    "maxRowsPerSegment": 5000000
  }
}

Autoscaling

Enable task autoscaling based on lag:

{
  "ioConfig": {
    "autoScalerConfig": {
      "enableTaskAutoScaler": true,
      "taskCountMax": 10,
      "taskCountMin": 2,
      "autoScalerStrategy": "lagBased",
      "lagCollectionIntervalMillis": 30000
    }
  }
}

Common Use Cases

Real-Time Analytics

Process and query events as they arrive for real-time dashboards and alerting

Log Aggregation

Centralize and analyze logs from distributed systems in real-time

IoT Data

Ingest sensor data and device telemetry for monitoring and analysis

User Activity

Track user events and behavior for analytics and personalization

Troubleshooting

High Lag

If your ingestion is falling behind:

Increase taskCount (up to partition count)
Enable autoscaling
Increase maxRowsPerSegment
Add more Middle Manager capacity
Check for slow queries blocking ingestion

Task Failures

If tasks are failing:

Check task logs for errors
Verify stream connectivity
Check data format matches spec
Review parse exceptions
Ensure sufficient memory

Parse Errors

If data is not parsing correctly:

Verify input format configuration
Check sample data against spec
Review parseExceptionHandler settings
Monitor maxParseExceptions threshold

Next Steps

Kafka Ingestion

Learn about Kafka-specific configuration

Kinesis Ingestion

Learn about Kinesis-specific configuration

Supervisor

Deep dive into supervisor management

Data Formats

Explore supported input formats

Getting Started

Design & Architecture

Data Ingestion

Querying

Data Management

Operations

Configuration

Supported Streaming Sources

Apache Kafka

Amazon Kinesis

Key Features

How Streaming Ingestion Works

Architecture

Supervisor Responsibilities

Configuration Overview

Comparison: Kafka vs Kinesis

Getting Started

Performance Considerations

Common Use Cases

Real-Time Analytics

Log Aggregation

IoT Data

User Activity

Troubleshooting

Next Steps

Kafka Ingestion

Kinesis Ingestion

Supervisor

Data Formats

Build docs developers (and LLMs) love

Getting Started

Design & Architecture

Data Ingestion

Querying

Data Management

Operations

Configuration

​Supported Streaming Sources

Apache Kafka

Amazon Kinesis

​Key Features

​How Streaming Ingestion Works

​Architecture

​Supervisor Responsibilities

​Configuration Overview

​Comparison: Kafka vs Kinesis

​Getting Started

​Performance Considerations

​Common Use Cases

Real-Time Analytics

Log Aggregation

IoT Data

User Activity

​Troubleshooting

​Next Steps

Kafka Ingestion

Kinesis Ingestion

Supervisor

Data Formats

Build docs developers (and LLMs) love

Supported Streaming Sources

Key Features

How Streaming Ingestion Works

Architecture

Supervisor Responsibilities

Configuration Overview

Comparison: Kafka vs Kinesis

Getting Started

Performance Considerations

Common Use Cases

Troubleshooting

Next Steps