Top 20 AWS Kinesis Interview Questions

What is Amazon Kinesis?
What are Kinesis Data Streams?
What is a Kinesis shard?
What is the Kinesis Client Library (KCL)?
What is Kinesis Data Firehose?
What is Kinesis Data Analytics?
How do you produce data to Kinesis?
How do you consume data from Kinesis?
What is enhanced fan-out?
How do you handle failures in Kinesis?
What is data retention in Kinesis?
How do you scale Kinesis streams?
What are partition keys?
What is Kinesis Video Streams?
How do you transform data in Firehose?
What are Kinesis Analytics windowing functions?
How do you integrate Kinesis with Lambda?
What are Kinesis security best practices?
How do you monitor Kinesis?
What are common Kinesis patterns?

AWS Interview Questions - All Topics

AWS Data Engineer AWS Lambda AWS Redshift AWS S3 & Lake Formation AWS EMR & Glue AWS Step Functions AWS IAM & Cognito AWS SageMaker AWS CI/CD (CodePipeline) AWS Kinesis AWS Data Real-time Scenarios

1. What is Amazon Kinesis?

Amazon Kinesis is a platform for collecting, processing, and analyzing real-time streaming data at scale.

Kinesis Services:
âââ Kinesis Data Streams: Real-time data streaming
âââ Kinesis Data Firehose: Load streaming data to destinations
âââ Kinesis Data Analytics: SQL/Flink for stream processing
âââ Kinesis Video Streams: Video streaming

Use Cases:
âââ Real-time analytics
âââ Log and event data collection
âââ IoT data ingestion
âââ Clickstream analysis
âââ Social media feeds
âââ Gaming data processing

Architecture:
âââââââââââââââââââââââââââââââââââââââââââââââââââââââ
â                  Producers                           â
â  (Applications, IoT, Logs, Events)                  â
ââââââââââââââââââââââââ¬âââââââââââââââââââââââââââââââ
                       â
ââââââââââââââââââââââââ¼âââââââââââââââââââââââââââââââ
â            Kinesis Data Streams                      â
â  ââââââââââ ââââââââââ ââââââââââ ââââââââââ       â
â  âShard 1 â âShard 2 â âShard 3 â âShard N â       â
â  ââââââââââ ââââââââââ ââââââââââ ââââââââââ       â
ââââââââââââââââââââââââ¬âââââââââââââââââââââââââââââââ
                       â
ââââââââââââââââââââââââ¼âââââââââââââââââââââââââââââââ
â                  Consumers                           â
â  (Lambda, KCL Apps, Analytics, Firehose)            â
âââââââââââââââââââââââââââââââââââââââââââââââââââââââ

2. What are Kinesis Data Streams?

Kinesis Data Streams Features:
âââ Real-time data streaming
âââ Configurable retention (1-365 days)
âââ Multiple consumers per stream
âââ Replay capability
âââ Ordering within shard
âââ Encryption at rest

# Create Data Stream
import boto3
kinesis = boto3.client('kinesis')

kinesis.create_stream(
    StreamName='my-stream',
    ShardCount=4,
    StreamModeDetails={
        'StreamMode': 'PROVISIONED'  # or 'ON_DEMAND'
    }
)

# On-Demand mode
kinesis.create_stream(
    StreamName='my-stream-on-demand',
    StreamModeDetails={
        'StreamMode': 'ON_DEMAND'
    }
)

Data Stream Modes:
âââ Provisioned: Specify shard count
â   âââ 1 MB/sec write per shard
â   âââ 2 MB/sec read per shard
â   âââ 1,000 records/sec write per shard
â
âââ On-Demand: Auto-scales
    âââ Up to 200 MB/sec write
    âââ Up to 400 MB/sec read
    âââ Pay per GB ingested/retrieved

3. What is a Kinesis shard?

A shard is the base throughput unit of a Kinesis data stream.

Shard Characteristics:
âââ 1 MB/sec input (1,000 records/sec)
âââ 2 MB/sec output (5 reads/sec)
âââ Data ordered within shard
âââ 24-hour default retention
âââ Unique sequence number per record

Shard Structure:
âââââââââââââââââââââââââââââââââââââââââââââââââââââââ
â                     Stream                           â
âââââââââââââââââââââââââââââââââââââââââââââââââââââââ¤
â  Shard 1                                             â
â  Hash Range: 0 - 85070591730234615865843651857942052863
â  ââââââ¬âââââ¬âââââ¬âââââ¬âââââ¬âââââ                    â
â  â R1 â R2 â R3 â R4 â R5 â... â  (Ordered)        â
â  ââââââ´âââââ´âââââ´âââââ´âââââ´âââââ                    â
âââââââââââââââââââââââââââââââââââââââââââââââââââââââ¤
â  Shard 2                                             â
â  Hash Range: 85070591730234615865843651857942052864 - ...
â  ââââââ¬âââââ¬âââââ¬âââââ¬âââââ¬âââââ                    â
â  â R1 â R2 â R3 â R4 â R5 â... â  (Ordered)        â
â  ââââââ´âââââ´âââââ´âââââ´âââââ´âââââ                    â
âââââââââââââââââââââââââââââââââââââââââââââââââââââââ

# Describe stream (get shard info)
response = kinesis.describe_stream(StreamName='my-stream')
for shard in response['StreamDescription']['Shards']:
    print(f"Shard ID: {shard['ShardId']}")
    print(f"Hash Key Range: {shard['HashKeyRange']}")
    print(f"Sequence Number Range: {shard['SequenceNumberRange']}")

4. What is the Kinesis Client Library (KCL)?

KCL simplifies building consumer applications with automatic load balancing and checkpointing.

KCL Features:
âââ Automatic shard assignment
âââ Load balancing across workers
âââ Checkpointing (DynamoDB)
âââ Failure handling
âââ Lease management
âââ Enhanced fan-out support

KCL Architecture:
âââââââââââââââââââââââââââââââââââââââââââââââââââââââ
â              KCL Application                         â
âââââââââââââââââââââââââââââââââââââââââââââââââââââââ¤
â  Worker 1          Worker 2          Worker 3       â
â  âââââââââââ      âââââââââââ      âââââââââââ     â
â  âShard 1  â      âShard 2  â      âShard 3  â     â
â  âProcessorâ      âProcessorâ      âProcessorâ     â
â  âââââââââââ      âââââââââââ      âââââââââââ     â
â       â                â                â           â
â       ââââââââââââââââââ¼âââââââââââââââââ           â
â                        â                            â
â              âââââââââââ¼ââââââââââ                  â
â              â   DynamoDB        â                  â
â              â   (Checkpoints)   â                  â
â              âââââââââââââââââââââ                  â
âââââââââââââââââââââââââââââââââââââââââââââââââââââââ

# KCL 2.x Python Implementation
from amazon_kinesis_utils import kcl

class RecordProcessor:
    def initialize(self, initialization_input):
        self.shard_id = initialization_input.shard_id
        
    def process_records(self, process_records_input):
        for record in process_records_input.records:
            data = record.data.decode('utf-8')
            # Process record
            print(f"Processing: {data}")
        
        # Checkpoint after processing
        process_records_input.checkpointer.checkpoint()
    
    def shutdown(self, shutdown_input):
        if shutdown_input.reason == 'TERMINATE':
            shutdown_input.checkpointer.checkpoint()

# Run with MultiLangDaemon
# java -cp kcl-2.x.jar software.amazon.kinesis.multilang.MultiLangDaemon --properties-file kcl.properties

5. What is Kinesis Data Firehose?

Kinesis Data Firehose is a fully managed service to load streaming data into data stores.

Firehose Destinations:
âââ Amazon S3
âââ Amazon Redshift (via S3)
âââ Amazon OpenSearch
âââ Splunk
âââ HTTP Endpoints
âââ Third-party services (Datadog, MongoDB, etc.)

Features:
âââ Automatic scaling
âââ Data transformation (Lambda)
âââ Format conversion (Parquet, ORC)
âââ Data compression (GZIP, Snappy)
âââ Encryption
âââ Backup to S3

# Create Firehose Delivery Stream
firehose = boto3.client('firehose')

firehose.create_delivery_stream(
    DeliveryStreamName='my-firehose',
    DeliveryStreamType='DirectPut',  # or 'KinesisStreamAsSource'
    S3DestinationConfiguration={
        'RoleARN': 'arn:aws:iam::123456789012:role/FirehoseRole',
        'BucketARN': 'arn:aws:s3:::my-bucket',
        'Prefix': 'data/year=!{timestamp:yyyy}/month=!{timestamp:MM}/day=!{timestamp:dd}/',
        'ErrorOutputPrefix': 'errors/',
        'BufferingHints': {
            'SizeInMBs': 128,
            'IntervalInSeconds': 300
        },
        'CompressionFormat': 'GZIP',
        'EncryptionConfiguration': {
            'KMSEncryptionConfig': {
                'AWSKMSKeyARN': 'arn:aws:kms:...'
            }
        }
    }
)

# Put record to Firehose
firehose.put_record(
    DeliveryStreamName='my-firehose',
    Record={'Data': json.dumps({'event': 'click', 'timestamp': time.time()})}
)

6. What is Kinesis Data Analytics?

Kinesis Data Analytics processes and analyzes streaming data in real-time using SQL or Apache Flink.

Analytics Options:
âââ SQL-based: Simple SQL queries on streams
âââ Apache Flink: Complex stream processing

# SQL-based Analytics
CREATE OR REPLACE STREAM "DESTINATION_STREAM" (
    event_time TIMESTAMP,
    event_count INTEGER,
    total_amount DOUBLE
);

CREATE OR REPLACE PUMP "STREAM_PUMP" AS
INSERT INTO "DESTINATION_STREAM"
SELECT STREAM
    STEP("SOURCE_STREAM".ROWTIME BY INTERVAL '1' MINUTE) AS event_time,
    COUNT(*) AS event_count,
    SUM(amount) AS total_amount
FROM "SOURCE_STREAM"
GROUP BY STEP("SOURCE_STREAM".ROWTIME BY INTERVAL '1' MINUTE);

# Apache Flink Application (Python)
from pyflink.datastream import StreamExecutionEnvironment
from pyflink.table import StreamTableEnvironment

env = StreamExecutionEnvironment.get_execution_environment()
t_env = StreamTableEnvironment.create(env)

# Create Kinesis source
t_env.execute_sql("""
    CREATE TABLE kinesis_source (
        event_id STRING,
        event_type STRING,
        amount DOUBLE,
        event_time TIMESTAMP(3),
        WATERMARK FOR event_time AS event_time - INTERVAL '5' SECOND
    ) WITH (
        'connector' = 'kinesis',
        'stream' = 'my-stream',
        'aws.region' = 'us-east-1',
        'format' = 'json'
    )
""")

# Tumbling window aggregation
t_env.execute_sql("""
    SELECT 
        TUMBLE_START(event_time, INTERVAL '1' MINUTE) as window_start,
        event_type,
        COUNT(*) as event_count,
        SUM(amount) as total_amount
    FROM kinesis_source
    GROUP BY TUMBLE(event_time, INTERVAL '1' MINUTE), event_type
""")

7. How do you produce data to Kinesis?

Producer Options:

1. AWS SDK (PutRecord/PutRecords)
# Single record
kinesis.put_record(
    StreamName='my-stream',
    Data=json.dumps({'event': 'click', 'user': 'user123'}),
    PartitionKey='user123'  # Determines shard
)

# Batch records (up to 500)
records = [
    {'Data': json.dumps({'event': f'event_{i}'}), 'PartitionKey': f'key_{i % 4}'}
    for i in range(500)
]
response = kinesis.put_records(StreamName='my-stream', Records=records)

# Check for failures
if response['FailedRecordCount'] > 0:
    for i, record in enumerate(response['Records']):
        if 'ErrorCode' in record:
            print(f"Failed record {i}: {record['ErrorCode']}")

2. Kinesis Producer Library (KPL)
# High throughput with aggregation
from amazon_kpl import KinesisProducer

producer = KinesisProducer(
    stream_name='my-stream',
    region='us-east-1',
    aggregation_enabled=True,
    aggregation_max_count=100,
    record_max_buffered_time=1000
)

for i in range(10000):
    producer.put_record(
        data=json.dumps({'event_id': i}),
        partition_key=str(i % 10)
    )

producer.flush_sync()

3. Kinesis Agent
# /etc/aws-kinesis/agent.json
{
  "flows": [{
    "filePattern": "/var/log/app/*.log",
    "kinesisStream": "my-stream",
    "partitionKeyOption": "RANDOM"
  }]
}

8. How do you consume data from Kinesis?

Consumer Options:

1. GetRecords API (polling)
# Get shard iterator
response = kinesis.get_shard_iterator(
    StreamName='my-stream',
    ShardId='shardId-000000000000',
    ShardIteratorType='TRIM_HORIZON'  # LATEST, AT_TIMESTAMP, AT_SEQUENCE_NUMBER
)
shard_iterator = response['ShardIterator']

# Read records
while True:
    response = kinesis.get_records(
        ShardIterator=shard_iterator,
        Limit=100
    )
    
    for record in response['Records']:
        data = json.loads(record['Data'])
        print(f"Sequence: {record['SequenceNumber']}, Data: {data}")
    
    shard_iterator = response['NextShardIterator']
    time.sleep(0.2)  # Avoid throttling

2. Enhanced Fan-Out (push-based)
# Register consumer
response = kinesis.register_stream_consumer(
    StreamARN='arn:aws:kinesis:...:stream/my-stream',
    ConsumerName='my-consumer'
)
consumer_arn = response['Consumer']['ConsumerARN']

# Subscribe to shard
for event in kinesis.subscribe_to_shard(
    ConsumerARN=consumer_arn,
    ShardId='shardId-000000000000',
    StartingPosition={'Type': 'LATEST'}
)['EventStream']:
    if 'SubscribeToShardEvent' in event:
        for record in event['SubscribeToShardEvent']['Records']:
            print(json.loads(record['Data']))

3. Lambda Event Source
# Configure Lambda trigger
lambda_client.create_event_source_mapping(
    EventSourceArn='arn:aws:kinesis:...:stream/my-stream',
    FunctionName='my-function',
    BatchSize=100,
    StartingPosition='LATEST',
    ParallelizationFactor=10
)

9. What is enhanced fan-out?

Enhanced fan-out provides dedicated throughput per consumer with push-based delivery.

Standard vs Enhanced Fan-Out:

Standard (Shared):
âââ 2 MB/sec per shard (shared among consumers)
âââ 5 GetRecords calls/sec per shard
âââ Polling model (pull)
âââ 200ms+ latency

Enhanced Fan-Out:
âââ 2 MB/sec per consumer per shard (dedicated)
âââ Push-based (SubscribeToShard)
âââ ~70ms latency
âââ Higher cost

âââââââââââââââââââââââââââââââââââââââââââââââââââââââ
â                 Standard Fan-Out                     â
â                                                      â
â  Stream (Shard) ââââââ¬âââââââ 2 MB/sec total        â
â       â              â                               â
â       ââââââââââââââââ¼âââââââââââââââ               â
â       â              â              â               â
â  Consumer A    Consumer B    Consumer C             â
â  (share 2 MB/sec throughput)                        â
âââââââââââââââââââââââââââââââââââââââââââââââââââââââ

âââââââââââââââââââââââââââââââââââââââââââââââââââââââ
â               Enhanced Fan-Out                       â
â                                                      â
â  Stream (Shard) âââââââââââââââââ                   â
â       â                                              â
â       ââââââââââââ 2 MB/sec ââââ Consumer A         â
â       ââââââââââââ 2 MB/sec ââââ Consumer B         â
â       ââââââââââââ 2 MB/sec ââââ Consumer C         â
â  (each gets dedicated 2 MB/sec)                     â
âââââââââââââââââââââââââââââââââââââââââââââââââââââââ

# Register enhanced fan-out consumer
kinesis.register_stream_consumer(
    StreamARN='arn:aws:kinesis:us-east-1:123456789012:stream/my-stream',
    ConsumerName='my-enhanced-consumer'
)

10. How do you handle failures in Kinesis?

Failure Handling Strategies:

1. Producer Retries
def put_record_with_retry(stream, data, partition_key, max_retries=3):
    for attempt in range(max_retries):
        try:
            response = kinesis.put_record(
                StreamName=stream,
                Data=data,
                PartitionKey=partition_key
            )
            return response
        except kinesis.exceptions.ProvisionedThroughputExceededException:
            time.sleep(2 ** attempt)  # Exponential backoff
    raise Exception("Max retries exceeded")

# Handle partial failures in PutRecords
def put_records_with_retry(stream, records):
    remaining = records
    while remaining:
        response = kinesis.put_records(StreamName=stream, Records=remaining)
        if response['FailedRecordCount'] == 0:
            break
        remaining = [
            records[i] for i, r in enumerate(response['Records'])
            if 'ErrorCode' in r
        ]
        time.sleep(1)

2. Consumer Checkpointing
# KCL automatic checkpointing
def process_records(self, process_records_input):
    try:
        for record in process_records_input.records:
            self.process_single_record(record)
        process_records_input.checkpointer.checkpoint()
    except Exception as e:
        # Don't checkpoint - will reprocess on restart
        log.error(f"Error processing: {e}")

3. Dead Letter Queue
# Lambda DLQ configuration
lambda_client.create_event_source_mapping(
    EventSourceArn='arn:aws:kinesis:...',
    FunctionName='my-function',
    DestinationConfig={
        'OnFailure': {
            'Destination': 'arn:aws:sqs:...:dlq'
        }
    },
    MaximumRetryAttempts=3,
    BisectBatchOnFunctionError=True
)

11. What is data retention in Kinesis?

Retention Settings:
âââ Default: 24 hours
âââ Maximum: 365 days (8760 hours)
âââ Extended retention: Additional cost
âââ Allows replay from any point

# Increase retention
kinesis.increase_stream_retention_period(
    StreamName='my-stream',
    RetentionPeriodHours=168  # 7 days
)

# Decrease retention
kinesis.decrease_stream_retention_period(
    StreamName='my-stream',
    RetentionPeriodHours=24
)

# Start reading from specific timestamp
kinesis.get_shard_iterator(
    StreamName='my-stream',
    ShardId='shardId-000000000000',
    ShardIteratorType='AT_TIMESTAMP',
    Timestamp=datetime(2024, 1, 15, 10, 0, 0)
)

# Start from sequence number
kinesis.get_shard_iterator(
    StreamName='my-stream',
    ShardId='shardId-000000000000',
    ShardIteratorType='AT_SEQUENCE_NUMBER',
    StartingSequenceNumber='49637287329048...'
)

Use Cases for Extended Retention:
âââ Replay for debugging
âââ Re-process with updated logic
âââ Backfill new consumers
âââ Compliance requirements
âââ Disaster recovery

12. How do you scale Kinesis streams?

Scaling Options:

1. On-Demand Mode (auto-scaling)
kinesis.update_stream_mode(
    StreamARN='arn:aws:kinesis:...:stream/my-stream',
    StreamModeDetails={'StreamMode': 'ON_DEMAND'}
)

2. Provisioned Mode (manual scaling)
# Split shard (increase capacity)
kinesis.split_shard(
    StreamName='my-stream',
    ShardToSplit='shardId-000000000000',
    NewStartingHashKey='170141183460469231731687303715884105728'
)

# Merge shards (decrease capacity)
kinesis.merge_shards(
    StreamName='my-stream',
    ShardToMerge='shardId-000000000001',
    AdjacentShardToMerge='shardId-000000000002'
)

3. Update Shard Count
kinesis.update_shard_count(
    StreamName='my-stream',
    TargetShardCount=8,
    ScalingType='UNIFORM_SCALING'
)

Scaling Considerations:
âââ Scaling takes time (resharding)
âââ 24-hour cooldown between scaling operations
âââ Parent shards remain until data expires
âââ Consumers must handle shard changes
âââ Consider On-Demand for variable workloads

Capacity Planning:
âââ Write: 1 MB/sec or 1000 records/sec per shard
âââ Read: 2 MB/sec per shard (shared)
âââ Read: 2 MB/sec per consumer (enhanced fan-out)
âââ Shards needed = MAX(write_mb/1, write_records/1000, read_mb/2)

13. What are partition keys?

Partition keys determine which shard receives a record, enabling ordered processing.

Partition Key Concepts:
âââ MD5 hash maps key to shard
âââ Same key â same shard â ordering preserved
âââ Random keys â even distribution
âââ Hot partitions from uneven keys

# Good: Distributed partition keys
for order in orders:
    kinesis.put_record(
        StreamName='orders-stream',
        Data=json.dumps(order),
        PartitionKey=order['order_id']  # Random UUIDs
    )

# Good: Per-user ordering
for event in user_events:
    kinesis.put_record(
        StreamName='events-stream',
        Data=json.dumps(event),
        PartitionKey=event['user_id']  # Same user â same shard
    )

# Bad: Hot partition
for log in logs:
    kinesis.put_record(
        StreamName='logs-stream',
        Data=json.dumps(log),
        PartitionKey='logs'  # All records to one shard!
    )

# Explicit Hash Key (bypass MD5)
kinesis.put_record(
    StreamName='my-stream',
    Data=data,
    PartitionKey='ignored',
    ExplicitHashKey='0'  # Directly specify shard hash
)

Best Practices:
âââ Use high-cardinality keys for even distribution
âââ Use entity IDs for ordering requirements
âââ Monitor for hot shards (CloudWatch)
âââ Consider random suffix for hot keys
âââ Use explicit hash keys for precise control

14. What is Kinesis Video Streams?

Kinesis Video Streams captures, processes, and stores video streams for analytics and ML.

Video Streams Features:
âââ Secure video ingestion
âââ Durable storage
âââ Playback capabilities
âââ Integration with ML services
âââ WebRTC for real-time streaming
âââ Edge agent for IoT devices

Use Cases:
âââ Security camera footage
âââ Smart home devices
âââ Industrial monitoring
âââ Video analytics
âââ Computer vision ML

# Create Video Stream
kvs = boto3.client('kinesisvideo')

kvs.create_stream(
    StreamName='my-video-stream',
    DataRetentionInHours=24,
    MediaType='video/h264',
    Tags={'Application': 'SecurityCameras'}
)

# Get data endpoint
endpoint = kvs.get_data_endpoint(
    StreamName='my-video-stream',
    APIName='GET_MEDIA'
)

# Integration with Rekognition Video
rekognition = boto3.client('rekognition')
rekognition.create_stream_processor(
    Input={
        'KinesisVideoStream': {
            'Arn': 'arn:aws:kinesisvideo:...:stream/my-video-stream/...'
        }
    },
    Output={
        'KinesisDataStream': {
            'Arn': 'arn:aws:kinesis:...:stream/analysis-results'
        }
    },
    Name='face-detection-processor',
    Settings={
        'FaceSearch': {
            'CollectionId': 'my-face-collection',
            'FaceMatchThreshold': 90
        }
    },
    RoleArn='arn:aws:iam::...:role/RekognitionRole'
)

15. How do you transform data in Firehose?

Transformation Options:

1. Lambda Transformation
firehose.create_delivery_stream(
    DeliveryStreamName='transformed-firehose',
    ExtendedS3DestinationConfiguration={
        'RoleARN': role_arn,
        'BucketARN': bucket_arn,
        'ProcessingConfiguration': {
            'Enabled': True,
            'Processors': [{
                'Type': 'Lambda',
                'Parameters': [{
                    'ParameterName': 'LambdaArn',
                    'ParameterValue': 'arn:aws:lambda:...:function:transform'
                }, {
                    'ParameterName': 'BufferSizeInMBs',
                    'ParameterValue': '3'
                }, {
                    'ParameterName': 'BufferIntervalInSeconds',
                    'ParameterValue': '60'
                }]
            }]
        }
    }
)

# Lambda transformation function
def handler(event, context):
    output = []
    for record in event['records']:
        # Decode data
        data = base64.b64decode(record['data']).decode('utf-8')
        payload = json.loads(data)
        
        # Transform
        payload['processed_at'] = datetime.now().isoformat()
        payload['source'] = 'firehose'
        
        # Encode result
        output.append({
            'recordId': record['recordId'],
            'result': 'Ok',  # Ok, Dropped, ProcessingFailed
            'data': base64.b64encode(
                json.dumps(payload).encode('utf-8')
            ).decode('utf-8')
        })
    
    return {'records': output}

2. Format Conversion (Parquet/ORC)
'DataFormatConversionConfiguration': {
    'Enabled': True,
    'SchemaConfiguration': {
        'RoleARN': role_arn,
        'DatabaseName': 'my_database',
        'TableName': 'my_table',
        'Region': 'us-east-1'
    },
    'InputFormatConfiguration': {
        'Deserializer': {'OpenXJsonSerDe': {}}
    },
    'OutputFormatConfiguration': {
        'Serializer': {'ParquetSerDe': {'Compression': 'SNAPPY'}}
    }
}

16. What are Kinesis Analytics windowing functions?

Window Types:

1. Tumbling Window (fixed, non-overlapping)
SELECT STREAM
    TUMBLE_START(event_time, INTERVAL '1' MINUTE) as window_start,
    COUNT(*) as event_count,
    SUM(amount) as total_amount
FROM SOURCE_STREAM
GROUP BY TUMBLE(event_time, INTERVAL '1' MINUTE);

Time: |----1min----|----1min----|----1min----|
      [  Window 1  ][  Window 2  ][  Window 3  ]

2. Sliding Window (overlapping)
SELECT STREAM
    COUNT(*) OVER (
        PARTITION BY user_id
        ORDER BY event_time
        RANGE INTERVAL '5' MINUTE PRECEDING
    ) as events_last_5min
FROM SOURCE_STREAM;

3. Stagger Window (groups by key + time)
SELECT STREAM
    user_id,
    STEP(event_time BY INTERVAL '10' SECOND) as window_start,
    COUNT(*) as event_count
FROM SOURCE_STREAM
GROUP BY user_id, STEP(event_time BY INTERVAL '10' SECOND);

# Flink Windowing
t_env.execute_sql("""
    SELECT 
        user_id,
        TUMBLE_START(event_time, INTERVAL '1' MINUTE) as window_start,
        COUNT(*) as event_count
    FROM events
    GROUP BY 
        user_id,
        TUMBLE(event_time, INTERVAL '1' MINUTE)
""")

# Session Window (Flink)
t_env.execute_sql("""
    SELECT 
        user_id,
        SESSION_START(event_time, INTERVAL '30' MINUTE) as session_start,
        COUNT(*) as events_in_session
    FROM events
    GROUP BY 
        user_id,
        SESSION(event_time, INTERVAL '30' MINUTE)
""")

Search Tutorials