Jobs To Clusters

How to Design High-Performance & Batch Computing Systems

52 modules

210 lessons

—

Part 1

Course Setup and the Incremental Ladder

Course Setup and the Incremental LadderSign in
Why "Jobs to Clusters"Sign in
How to Use This CourseSign in
The Incremental Ladder (Step 0 -> Step 7)Sign in
The Course LensesSign in
Diagram Legend and Notation TypesSign in

Part 2

What Is a High-Performance & Batch Computing System?

What Is a High-Performance & Batch Computing System?Sign in
Batch vs Interactive: Throughput vs LatencySign in
Workload Examples: What Clusters Are Asked to DoSign in
Cluster vs Single-Node Multicore: Boundaries Change When You Scale OutSign in

Part 3

Workload Taxonomy

Workload TaxonomySign in
Resource-Bound Workloads as Scheduling InputsSign in
Job Shapes and Queue DynamicsSign in
The Coupling Spectrum and Why It Dominates DesignSign in

Part 4

Hardware and Cluster Basics

Hardware and Cluster BasicsSign in
Nodes and Their Resources as the Execution SubstrateSign in
Racks and Failure Domains: How Correlated Failures AppearSign in
Homogeneous vs Heterogeneous Fleets and the Complexity of SpecializationSign in

Part 5

Control Planes vs Data Planes

Control Planes vs Data PlanesSign in
Control Planes as the Decision Layer of a ClusterSign in
Data Planes as the Throughput Path for Work and DataSign in
Separating Concerns So Control Can Scale Without Data-Path CouplingSign in

Part 6

Diagramming Cluster & Batch Systems

Diagramming Cluster & Batch SystemsSign in
Job Lifecycle DiagramsSign in
Cluster Topology DiagramsSign in
Task Graphs and Checkpoint FlowsSign in

Part 7

Step 0 Parallel Computation Models (Conceptual)

Step 0 Parallel Computation Models (Conceptual)Sign in
Data Parallel, Task Parallel, Pipeline ParallelSign in
Shared Memory vs Shared NothingSign in
Throughput vs Latency ParallelismSign in

Part 8

Step 0 Jobs, Tasks, and Resource Specifications

Step 0 Jobs, Tasks, and Resource SpecificationsSign in
Jobs and TasksSign in
Resource RequestsSign in
Static vs Dynamic NeedsSign in

Part 9

Step 0 Basic Job Scheduling Concepts

Step 0 Basic Job Scheduling ConceptsSign in
Queues, Priorities, FairnessSign in
FCFS and BackfillingSign in
Preemption and Gang SchedulingSign in

Part 10

Step 0 Cluster Resource Management

Step 0 Cluster Resource ManagementSign in
Resource ViewsSign in
Node-Level vs Cluster-Level DecisionsSign in
Bin-Packing and FragmentationSign in

Part 11

Step 0 Minimal Job Queue & Scheduler

Step 0 Minimal Job Queue & SchedulerSign in
Central Queue + Workers PatternSign in
Retries and Basic Failure HandlingSign in
First ObservabilitySign in

Part 12

Batch vs Streaming vs Interactive

Batch vs Streaming vs InteractiveSign in
Batch WindowsSign in
When Batch Fits and When It Does NotSign in
Workload-Mode SelectionSign in

Part 13

DAGs and Job Graphs

DAGs and Job GraphsSign in
Jobs as StagesSign in
DAG DependenciesSign in
Task Parallelism Within StagesSign in

Part 14

Common Batch Framework Concepts

Common Batch Framework ConceptsSign in
Map/Reduce-Style AbstractionsSign in
Stages and BarriersSign in
Drivers and ExecutorsSign in

Part 15

Workload Characterization

Workload CharacterizationSign in
ETL, Analytics, ML Training, SimulationsSign in
Stress ProfilesSign in
Many Small vs Few Large JobsSign in

Part 16

Job Submission and Configuration

Job Submission and ConfigurationSign in
Job SpecsSign in
Retries and TimeoutsSign in
Templates and Common PatternsSign in

Part 17

First Batch Computing Environment

First Batch Computing EnvironmentSign in
Single Cluster + One FrameworkSign in
Standard Pipelines and Ad Hoc JobsSign in
Basic MonitoringSign in

Part 18

Data Partitioning and Locality

Data Partitioning and LocalitySign in
Partitioning StrategiesSign in
Co-Locating Compute with DataSign in
Repartitioning and ShufflesSign in

Part 19

Embarrassingly Parallel Workloads

Embarrassingly Parallel WorkloadsSign in
Independent TasksSign in
Minimal CoordinationSign in
Large Arrays of Small TasksSign in

Part 20

Task Graphs and Dependencies

Task Graphs and DependenciesSign in
DAG RepresentationSign in
Upstream and Downstream SemanticsSign in
Scheduling on Dependency CompletionSign in

Part 21

Load Balancing and Stragglers

Load Balancing and StragglersSign in
Skew and Straggler CausesSign in
Dynamic Assignment and SpeculationSign in
Hotspot MonitoringSign in

Part 22

Coordinated Parallel Computations (Conceptual)

Coordinated Parallel Computations (Conceptual)Sign in
Barriers and SynchronizationSign in
Collectives ConceptuallySign in
HPC-Style vs Batch-Style CoordinationSign in

Part 23

Designing for Parallel Efficiency

Designing for Parallel EfficiencySign in
Task Granularity vs OverheadSign in
Coordination vs SimplicitySign in
Matching Models to Job TypesSign in

Part 24

Storage Layers in Batch Systems

Storage Layers in Batch SystemsSign in
Local, Shared, Distributed StorageSign in
Throughput, IOPS, LatencySign in
Temporary vs Durable StorageSign in

Part 25

Data Locality and Movement

Data Locality and MovementSign in
Move Compute to Data vs Data to ComputeSign in
Caching StrategiesSign in
Intermediate Data HandlingSign in

Part 26

High-Performance I/O Patterns

High-Performance I/O PatternsSign in
Sequential vs Random AccessSign in
Parallel I/O and StripingSign in
Throttling and BackpressureSign in

Part 27

Cluster Networking Basics

Cluster Networking BasicsSign in
East-West vs North-SouthSign in
Bandwidth, Latency, OversubscriptionSign in
Network Impact on Shuffle WorkloadsSign in

Part 28

Networking for HPC and Data-Intensive Workloads

Networking for HPC and Data-Intensive WorkloadsSign in
High-Speed Interconnect ConceptsSign in
Topologies and Failure DomainsSign in
Identifying Network BottlenecksSign in

Part 29

Storage/Network Aware Scheduling

Storage/Network Aware SchedulingSign in
Scheduling by Data LocationSign in
Balancing Network LoadSign in
Locality vs Queue TimeSign in

Part 30

Failure Modes in Batch & HPC Systems

Failure Modes in Batch & HPC SystemsSign in
Node and Process FailuresSign in
Network Partitions and Slow NodesSign in
Framework and Controller FailuresSign in

Part 31

Retry, Idempotency, and Determinism

Retry, Idempotency, and DeterminismSign in
Safe RetriesSign in
Idempotent WritesSign in
Deterministic ReplaysSign in

Part 32

Checkpointing Concepts

Checkpointing ConceptsSign in
Periodic State SavingSign in
Job-Level vs Task-Level CheckpointsSign in
Incremental vs Full CheckpointsSign in

Part 33

Recovery Strategies

Recovery StrategiesSign in
Rolling Back to CheckpointsSign in
Re-Run Tasks vs Re-Run StagesSign in
Long-Running Job RecoverySign in

Part 34

Consistency and Output Semantics

Consistency and Output SemanticsSign in
At-Least-Once, At-Most-Once, and Effectively-Once OutputsSign in
Partial Results VisibilitySign in
Finalization and CommitSign in

Part 35

Testing and Validating Fault Tolerance

Testing and Validating Fault ToleranceSign in
Failure Injection in Test EnvironmentsSign in
Chaos-Style Experiments for BatchSign in
Recovery ObservabilitySign in

Part 36

Capacity Planning for Batch Clusters

Capacity Planning for Batch ClustersSign in
Estimating Compute and Storage NeedsSign in
Peak vs AverageSign in
Growth PlanningSign in

Part 37

Utilization Metrics and Efficiency

Utilization Metrics and EfficiencySign in
Resource UtilizationSign in
Queue Wait and Turnaround TimeSign in
Fragmentation and SlackSign in

Part 38

Scheduling Policies for Cost and Fairness

Scheduling Policies for Cost and FairnessSign in
Priorities and Fair SharingSign in
Preemption, Quotas, DeadlinesSign in
Service Classes and Batch WindowsSign in

Part 39

Elastic and Cloud-Based Clusters

Elastic and Cloud-Based ClustersSign in
Autoscaling WorkersSign in
Spot and Preemptible CapacitySign in
Hybrid BurstingSign in

Part 40

Chargeback, Showback, and Budgeting

Chargeback, Showback, and BudgetingSign in
Cost AttributionSign in
Usage Reports and BudgetsSign in
Incentives for Efficient JobsSign in

Part 41

Optimization Playbooks

Optimization PlaybooksSign in
Reducing WasteSign in
Right-Sizing JobsSign in
Smoothing PeaksSign in

Part 42

Single vs Multi-Cluster Architectures

Single vs Multi-Cluster ArchitecturesSign in
One Big Cluster vs ManySign in
Isolation StrategiesSign in
Shared vs Dedicated ResourcesSign in

Part 43

Multi-Region and Hybrid Architectures

Multi-Region and Hybrid ArchitecturesSign in
Regional ClustersSign in
Cross-Region Data MovementSign in
Hybrid On-Prem + CloudSign in

Part 44

Heterogeneous Hardware Fleets

Heterogeneous Hardware FleetsSign in
Scheduling Specialized HardwareSign in
Partitioned Fleets vs Unified ViewSign in
Hardware Lifecycle and UpgradesSign in

Part 45

Multi-Tenant Batch Platforms

Multi-Tenant Batch PlatformsSign in
Isolation Between Teams and WorkloadsSign in
Policies, Quotas, and EnforcementSign in
Fairness at ScaleSign in

Part 46

Integration with Data & ML Platforms

Integration with Data & ML PlatformsSign in
Batch for ETL, Features, TrainingSign in
Interfaces to Warehouses, Lakes, Model PlatformsSign in
Coordinated SchedulesSign in

Part 47

Observability and SLOs for Clusters

Observability and SLOs for ClustersSign in
Cluster-Level MetricsSign in
Job-Level MetricsSign in
SLO DesignSign in

Part 48

End-to-End Job Lifecycle

End-to-End Job LifecycleSign in
Request and PlanSign in
Run and ObserveSign in
Close and RecordSign in

Part 49

Platform as a Product

Platform as a ProductSign in
Platform PositioningSign in
Onboarding and TemplatesSign in
Developer Experience SurfacesSign in

Part 50

Governance, Compliance, and Safety

Governance, Compliance, and SafetySign in
Access Control for Data and ComputeSign in
Resource Safety LimitsSign in
Policies and Audit LogsSign in

Part 51

Reliability and Incident Management

Reliability and Incident ManagementSign in
Incident Types: Capacity Exhaustion, Scheduler Failures, Storage OutagesSign in
Response Playbooks: Stabilizing the Platform Under Load While Preserving Fairness and TrustSign in
Post-Incident Improvement: Turning Outages into Durable Fixes in Scheduling, Capacity, and GovernanceSign in

Part 52

Reference Architectures and Maturity Models

Reference Architectures and Maturity ModelsSign in
Early Stage Reference: Simple Queue, Scripts, and a Single ClusterSign in
Mid Stage Reference: Batch Framework, Locality-Aware Design, and Basic AutoscalingSign in
Advanced Stage Reference: Multi-Cluster, Heterogeneous Fleets, Integrated Platforms, and Robust SLOsSign in

Course overview