Overview
free

Course Setup and the Incremental Ladder
Why "Jobs to Clusters"
How to Use This Course
The Incremental Ladder (Step 0 -> Step 7)
The Course Lenses
Diagram Legend and Notation Types

What Is a High-Performance & Batch Computing System?
Batch vs Interactive: Throughput vs Latency
Workload Examples: What Clusters Are Asked to Do
Cluster vs Single-Node Multicore: Boundaries Change When You Scale Out

Workload Taxonomy
Resource-Bound Workloads as Scheduling Inputs
Job Shapes and Queue Dynamics
The Coupling Spectrum and Why It Dominates Design

Hardware and Cluster Basics
Nodes and Their Resources as the Execution Substrate
Racks and Failure Domains: How Correlated Failures Appear
Homogeneous vs Heterogeneous Fleets and the Complexity of Specialization

Control Planes vs Data Planes
Control Planes as the Decision Layer of a Cluster
Data Planes as the Throughput Path for Work and Data
Separating Concerns So Control Can Scale Without Data-Path Coupling

Diagramming Cluster & Batch Systems
Job Lifecycle Diagrams
Cluster Topology Diagrams
Task Graphs and Checkpoint Flows

Step 0 Parallel Computation Models (Conceptual)
Data Parallel, Task Parallel, Pipeline Parallel
Shared Memory vs Shared Nothing
Throughput vs Latency Parallelism

Step 0 Jobs, Tasks, and Resource Specifications
Jobs and Tasks
Resource Requests
Static vs Dynamic Needs

Step 0 Basic Job Scheduling Concepts
Queues, Priorities, Fairness
FCFS and Backfilling
Preemption and Gang Scheduling

Step 0 Cluster Resource Management
Resource Views
Node-Level vs Cluster-Level Decisions
Bin-Packing and Fragmentation

Step 0 Minimal Job Queue & Scheduler
Central Queue + Workers Pattern
Retries and Basic Failure Handling
First Observability

Batch vs Streaming vs Interactive
Batch Windows
When Batch Fits and When It Does Not
Workload-Mode Selection

DAGs and Job Graphs
Jobs as Stages
DAG Dependencies
Task Parallelism Within Stages

Common Batch Framework Concepts
Map/Reduce-Style Abstractions
Stages and Barriers
Drivers and Executors

Workload Characterization
ETL, Analytics, ML Training, Simulations
Stress Profiles
Many Small vs Few Large Jobs

Job Submission and Configuration
Job Specs
Retries and Timeouts
Templates and Common Patterns

First Batch Computing Environment
Single Cluster + One Framework
Standard Pipelines and Ad Hoc Jobs
Basic Monitoring

Data Partitioning and Locality
Partitioning Strategies
Co-Locating Compute with Data
Repartitioning and Shuffles

Embarrassingly Parallel Workloads
Independent Tasks
Minimal Coordination
Large Arrays of Small Tasks

Task Graphs and Dependencies
DAG Representation
Upstream and Downstream Semantics
Scheduling on Dependency Completion

Load Balancing and Stragglers
Skew and Straggler Causes
Dynamic Assignment and Speculation
Hotspot Monitoring

Coordinated Parallel Computations (Conceptual)
Barriers and Synchronization
Collectives Conceptually
HPC-Style vs Batch-Style Coordination

Designing for Parallel Efficiency
Task Granularity vs Overhead
Coordination vs Simplicity
Matching Models to Job Types

Storage Layers in Batch Systems
Local, Shared, Distributed Storage
Throughput, IOPS, Latency
Temporary vs Durable Storage

Data Locality and Movement
Move Compute to Data vs Data to Compute
Caching Strategies
Intermediate Data Handling

High-Performance I/O Patterns
Sequential vs Random Access
Parallel I/O and Striping
Throttling and Backpressure

Cluster Networking Basics
East-West vs North-South
Bandwidth, Latency, Oversubscription
Network Impact on Shuffle Workloads

Networking for HPC and Data-Intensive Workloads
High-Speed Interconnect Concepts
Topologies and Failure Domains
Identifying Network Bottlenecks

Storage/Network Aware Scheduling
Scheduling by Data Location
Balancing Network Load
Locality vs Queue Time

Failure Modes in Batch & HPC Systems
Node and Process Failures
Network Partitions and Slow Nodes
Framework and Controller Failures

Retry, Idempotency, and Determinism
Safe Retries
Idempotent Writes
Deterministic Replays

Checkpointing Concepts
Periodic State Saving
Job-Level vs Task-Level Checkpoints
Incremental vs Full Checkpoints

Recovery Strategies
Rolling Back to Checkpoints
Re-Run Tasks vs Re-Run Stages
Long-Running Job Recovery

Consistency and Output Semantics
At-Least-Once, At-Most-Once, and Effectively-Once Outputs
Partial Results Visibility
Finalization and Commit

Testing and Validating Fault Tolerance
Failure Injection in Test Environments
Chaos-Style Experiments for Batch
Recovery Observability

Capacity Planning for Batch Clusters
Estimating Compute and Storage Needs
Peak vs Average
Growth Planning

Utilization Metrics and Efficiency
Resource Utilization
Queue Wait and Turnaround Time
Fragmentation and Slack

Scheduling Policies for Cost and Fairness
Priorities and Fair Sharing
Preemption, Quotas, Deadlines
Service Classes and Batch Windows

Elastic and Cloud-Based Clusters
Autoscaling Workers
Spot and Preemptible Capacity
Hybrid Bursting

Chargeback, Showback, and Budgeting
Cost Attribution
Usage Reports and Budgets
Incentives for Efficient Jobs

Optimization Playbooks
Reducing Waste
Right-Sizing Jobs
Smoothing Peaks

Single vs Multi-Cluster Architectures
One Big Cluster vs Many
Isolation Strategies
Shared vs Dedicated Resources

Multi-Region and Hybrid Architectures
Regional Clusters
Cross-Region Data Movement
Hybrid On-Prem + Cloud

Heterogeneous Hardware Fleets
Scheduling Specialized Hardware
Partitioned Fleets vs Unified View
Hardware Lifecycle and Upgrades

Multi-Tenant Batch Platforms
Isolation Between Teams and Workloads
Policies, Quotas, and Enforcement
Fairness at Scale

Integration with Data & ML Platforms
Batch for ETL, Features, Training
Interfaces to Warehouses, Lakes, Model Platforms
Coordinated Schedules

Observability and SLOs for Clusters
Cluster-Level Metrics
Job-Level Metrics
SLO Design

End-to-End Job Lifecycle
Request and Plan
Run and Observe
Close and Record

Platform as a Product
Platform Positioning
Onboarding and Templates
Developer Experience Surfaces

Governance, Compliance, and Safety
Access Control for Data and Compute
Resource Safety Limits
Policies and Audit Logs

Reliability and Incident Management
Incident Types: Capacity Exhaustion, Scheduler Failures, Storage Outages
Response Playbooks: Stabilizing the Platform Under Load While Preserving Fairness and Trust
Post-Incident Improvement: Turning Outages into Durable Fixes in Scheduling, Capacity, and Governance

Reference Architectures and Maturity Models
Early Stage Reference: Simple Queue, Scripts, and a Single Cluster
Mid Stage Reference: Batch Framework, Locality-Aware Design, and Basic Autoscaling
Advanced Stage Reference: Multi-Cluster, Heterogeneous Fleets, Integrated Platforms, and Robust SLOs

/jobs-to-clusters/jobs-to-clusters

Scheduling by Data Location

Sign in to access this lesson.

Sign in Create account