Service To Serverless

How to Design Cloud Platforms

41 modules

169 lessons

—

Part 1

Foundations: What a Cloud Platform Is

Foundations: What a Cloud Platform IsSign in
Why "Service to Serverless"Sign in
How to Use This CourseSign in
The Incremental Ladder (Step 0 to Step 7)Sign in
The Course LensesSign in
Diagram Legend and Notation TypesSign in
From Datacenters to "As-a-Service" AbstractionsSign in
IaaS, PaaS, and FaaS as a Responsibility SpectrumSign in
Shared Responsibility as a Boundary ContractSign in

Part 2

Virtualization Fundamentals for a “Mini-Cloud”

Virtualization Fundamentals for a “Mini-Cloud”Sign in
Hypervisors as the First Isolation BoundarySign in
VMs, Images, and Snapshots as a Packaging and Lifecycle ModelSign in
Overcommit, Live Migration, and Early Storage BoundariesSign in

Part 3

Containers as the Density Layer (on VMs)

Containers as the Density Layer (on VMs)Sign in
Containers vs VMs: Isolation and Lifecycle TradeoffsSign in
Images, Layers, and Registries as Distribution BoundariesSign in
Manual Scheduling and Handcrafted Cluster Configs: What Can Fail TogetherSign in

Part 4

Baby SDN: Virtual Networks and Security Groups

Baby SDN: Virtual Networks and Security GroupsSign in
Virtual Networks, Subnets, Routing, and Internet EgressSign in
Security Groups as Coarse Firewall Rules and Policy Attachment PointsSign in
Load Balancers at a Conceptual Level: Service IPs and Failure MaskingSign in

Part 5

First Control Plane: API + UI for a Tiny Cloud

First Control Plane: API + UI for a Tiny CloudSign in
Create and Delete VMs and Networks via API: The First System of RecordSign in
Dashboard and CLI as Control-Plane Clients: Shaping Safe WorkflowsSign in
State Stores as "Source of Truth": Desired State, Drift, and RepairSign in

Part 6

IAM Fundamentals: Identities, Roles, Policies

IAM Fundamentals: Identities, Roles, PoliciesSign in
Users vs Service Identities: Who Can Act, and How You Attribute ActionsSign in
RBAC and Scopes: Mapping Roles and Permissions to ResourcesSign in
Policy Evaluation at a High Level: Enforcement Points and Failure ModesSign in

Part 7

Resource Hierarchies and Delegated Administration

Resource Hierarchies and Delegated AdministrationSign in
Orgs to Folders to Projects to Resources - The Governance TreeSign in
Permission Inheritance and Scoping - Minimizing Blast Radius by DefaultSign in
Delegated Administration - Operating at Scale Without Central BottlenecksSign in

Part 8

Auth, Federation, SSO, and Credential Strategy

Auth, Federation, SSO, and Credential StrategySign in
Federation with External IdPs (Conceptual): Identity Boundaries and TrustSign in
SSO to Console and APIs: Consistent Authentication PathsSign in
Short-Lived Credentials and Key Management (High Level): Reducing Standing AccessSign in

Part 9

Audit Logging and Governance Hooks

Audit Logging and Governance HooksSign in
Control-Plane Audit Logs: Who/What/Where/When, and Why It Matters OperationallySign in
SIEM Integration Concepts: Turning Events into Detection and ResponseSign in
Guardrails vs Hard Blocks: Governance Policies as Platform ContractsSign in

Part 10

Tenancy Models and Shared Responsibility

Tenancy Models and Shared ResponsibilitySign in
Physical vs Logical Tenancy: Choosing Where Isolation LivesSign in
Account and Project Boundaries: Scoping Identity and ResourcesSign in
Soft vs Hard Multitenancy: Tradeoffs in Cost, Risk, and OperabilitySign in

Part 11

Isolation Boundaries: Network, Compute, Storage

Isolation Boundaries: Network, Compute, StorageSign in
Network Isolation: VPC-Like Constructs, Peering, and Private ConnectivitySign in
Compute Isolation: Quotas, Noisy Neighbors, and Fairness ControlsSign in
Storage Isolation: Encryption and Per-Tenant Key Ideas (Conceptual)Sign in

Part 12

Multi-Tenant Data Planes and Blast Radius

Multi-Tenant Data Planes and Blast RadiusSign in
Shared Control Plane; Shared vs Per-Tenant Data Planes: Choosing BoundariesSign in
Designing Safe Shared Services: Gateways, Queues, and Databases (Conceptual)Sign in
Blast Radius Controls: Compartmentalization and Graceful DegradationSign in

Part 13

Compliance Zones and Regulated Tenants

Compliance Zones and Regulated TenantsSign in
Data Residency and Compliance Zones: Partitioning the PlatformSign in
Baselines and Blueprints per Tenant: Repeatable ControlsSign in
Evidence and Auditability: Proving What Happened and What Is EnforcedSign in

Part 14

Multitenancy in Serverless and Managed Services

Multitenancy in Serverless and Managed ServicesSign in
Hidden Sharing in Serverless Runtimes: Where Tenants MeetSign in
Fairness and Tenant SLOs in Shared Compute PoolsSign in
Isolation Constraints for Managed Services: What Cannot Be CustomizedSign in

Part 15

Cluster Managers and Scheduling Basics

Cluster Managers and Scheduling BasicsSign in
Node Pools and Capacity Pools: Defining Placement DomainsSign in
Binpacking, Anti-Affinity, and Guarantees: Scheduling Goals and Failure TradeoffsSign in
Queueing and Priorities: Who Gets Capacity Under ContentionSign in

Part 16

Declarative Control Planes and Reconciliation Loops

Declarative Control Planes and Reconciliation LoopsSign in
Desired vs Observed State: What Declarative Means OperationallySign in
Controllers and Reconcilers: Convergence, Retries, and BackoffSign in
Versioned APIs and Compatibility: Evolving a Platform SafelySign in

Part 17

Service Discovery and Load Balancing

Service Discovery and Load BalancingSign in
DNS and Service Registries: Naming as a Platform BoundarySign in
L4 vs L7 Load Balancing (Conceptual): Where Policy and Retries LiveSign in
Health Checks and Out-of-Rotation Behavior: Isolating Partial FailureSign in

Part 18

Deployments, Rollouts, and Runtime Management

Deployments, Rollouts, and Runtime ManagementSign in
Rolling, Blue-Green, and Canary: Change as a Controlled ExperimentSign in
Config as Data: Secrets, Config Maps, and Flags as BoundariesSign in
Draining, Pausing, and Rescheduling: Coordinating with Load and StateSign in

Part 19

Serverless as Higher-Order Orchestration

Serverless as Higher-Order OrchestrationSign in
Functions and Jobs plus Triggers: Execution as a Managed BoundarySign in
Event-Based Autoscaling: Signals, Backpressure, and Thundering HerdsSign in
Limits of Serverless Abstractions: What You Still Have to DesignSign in

Part 20

Observability at Platform Scale

Observability at Platform ScaleSign in
Metrics, Logs, Traces, and Events: Four Signals and What They AnswerSign in
Standardizing Telemetry Across Services: Consistency for OperatorsSign in
Cardinality and Observability Cost: When Visibility Becomes a Budget RiskSign in

Part 21

SLOs, SLIs, and Error Budgets

SLOs, SLIs, and Error BudgetsSign in
Platform SLOs vs Customer SLOs: Setting Realistic ContractsSign in
Selecting SLIs: Latency, Availability, Correctness, and What They HideSign in
Error Budgets: Decision Tools for Balancing Change and StabilitySign in

Part 22

Failure Domains and Resilient Topologies

Failure Domains and Resilient TopologiesSign in
Zones, Regions, and Global Control Planes: Naming Correlated FailureSign in
Multi-AZ and Multi-Region Patterns: Redundancy as a Boundary ChoiceSign in
Latency vs Resilience: Understanding What You Pay to Reduce Blast RadiusSign in

Part 23

Incident Response and On-Call for Platforms

Incident Response and On-Call for PlatformsSign in
On-Call Patterns for Shared Platforms: Routing and OwnershipSign in
Runbooks, Playbooks, and Automation: Scaling Response Without HeroicsSign in
Post-Incident Reviews and Learning Loops: Turning Incidents Into Design ChangesSign in

Part 24

Chaos Engineering and Failure Injection

Chaos Engineering and Failure InjectionSign in
Host, Network, and API Failure Modes: Choosing Experiments That MatterSign in
Validating Autoscaling, Failover, and Self-Healing: Measuring the Control LoopsSign in
Folding Results Back Into Design: Resilience as a Continuous RefactorSign in

Part 25

Capacity Planning Fundamentals

Capacity Planning FundamentalsSign in
Demand Modeling, Utilization, and Headroom: Translating Uncertainty into BuffersSign in
Compute, Storage, and Network Capacity: Understanding Independent BottlenecksSign in
Procurement and Buffer Strategy: Lead Time as a Failure DomainSign in

Part 26

Allocation, Reservations, and Overcommit

Allocation, Reservations, and OvercommitSign in
Reserved vs Best-Effort Resources: Setting Tenant ExpectationsSign in
CPU and Memory Overcommit Risks: Efficiency vs Correlated FailureSign in
Placement and Anti-Noisy-Neighbor Controls: Guardrails for FairnessSign in

Part 27

Metering, Pricing, and Billing Pipelines

Metering, Pricing, and Billing PipelinesSign in
Billing Units: Choosing What You Measure and What Customers Can PredictSign in
Metering Pipelines and Aggregation: Turning Events Into Durable UsageSign in
Invoices and Showback/Chargeback: Trust, Disputes, and CorrectionsSign in

Part 28

Cost Controls and Optimization

Cost Controls and OptimizationSign in
Budgets, Alerts, and Quotas: Cost as a Control Plane ContractSign in
Rightsizing, Autoscaling, and Capacity Optimization: Feedback Loops for WasteSign in
Reserved and Discount Program Patterns: Incentives and Lock-In Trade-offsSign in

Part 29

Sustainability and Efficiency as Platform Requirements

Sustainability and Efficiency as Platform RequirementsSign in
Energy and Carbon Considerations (Conceptual): Externalities as ConstraintsSign in
Hardware Refresh and Density Strategy: Keeping the Fleet EfficientSign in
"Cost Efficiency" as a Platform SLO: Operationalizing EfficiencySign in

Part 30

Cloud API Design Patterns

Cloud API Design PatternsSign in
Resource-Oriented APIs: Modeling the Platform as a Graph of ResourcesSign in
Idempotency, Pagination, Long-Running Operations: Building Safe ClientsSign in
Versioning and Deprecation: Changing Contracts Without Breaking TenantsSign in

Part 31

CLIs, SDKs, and Developer Experience

CLIs, SDKs, and Developer ExperienceSign in
CLI Command Structure and Auth UX: Avoiding Sharp EdgesSign in
SDK Design: Thin Wrappers vs Higher-Level AbstractionsSign in
Docs, Samples, and Golden Paths: Teaching the Intended WorkflowSign in

Part 32

Service Catalogs and Internal Marketplaces

Service Catalogs and Internal MarketplacesSign in
Service Catalogs and Templates: Productizing Internal CapabilitiesSign in
Provisioning Flows With Policy Checks: Self-Service With GuardrailsSign in
Tagging, Ownership Metadata, and Discovery: Making Operations TractableSign in

Part 33

External Marketplaces and Partner Ecosystems

External Marketplaces and Partner EcosystemsSign in
Third-Party Listings and Integrations: Expanding the Platform SafelySign in
Billing and Entitlement Integration: Turning Usage into AgreementsSign in
Trust and Security Vetting: Controlling Supply Chain RiskSign in

Part 34

Governance and Policy Engines

Governance and Policy EnginesSign in
Org-Wide Policies (Locations, Types, Sizes): Guardrails for SprawlSign in
Constraint Frameworks (Conceptual): Evaluating Policy at ScaleSign in
Governance With Good DX: Exceptions, Previews, and Safe DefaultsSign in

Part 35

Global Platforms: Regions, Zones, and Control Plane Consistency

Global Platforms: Regions, Zones, and Control Plane ConsistencySign in
Region/Zone Design: Partitioning for Availability and LatencySign in
Global APIs vs Per-Region Endpoints: Routing, Failover, and Contract BoundariesSign in
Consistency Models for Control Planes: What "Global State" Can MeanSign in

Part 36

Core Service Families: Compute, Storage, Network

Core Service Families: Compute, Storage, NetworkSign in
Compute Services: VMs, Containers, and Serverless as Products and BoundariesSign in
Storage Services: Block, Object, File, and Databases from a Platform ViewSign in
Network Services: Routing, Load Balancing, and Private ConnectivitySign in

Part 37

Data and AI Platforms as “Platforms on the Platform”

Data and AI Platforms as “Platforms on the Platform”Sign in
Data Warehouses, Lakes, and Streaming (Conceptual): Shared Services With Strong ContractsSign in
Managed ML Services Patterns: Multi-Tenant Training and Inference BoundariesSign in
Governance and Lineage Hooks: Observing Data Movement Across DomainsSign in

Part 38

Cloud Provider Security Posture

Cloud Provider Security PostureSign in
Provider Internal Security Responsibilities: Securing the Platform ItselfSign in
Tenant Isolation, Key Management, and Identity at Scale: Designing for Least TrustSign in
Threat Modeling and Red Teams: Testing the Boundaries You ClaimSign in

Part 39

Operating the Organization: Platform Teams and Rollouts

Operating the Organization: Platform Teams and RolloutsSign in
Platform Org Structures and Product Lines: Aligning Ownership With BoundariesSign in
Change Management, Rollout Waves, and Feature Flags: Reducing Correlated FailureSign in
Customer Comms: Status Pages, SLAs, and Public PostmortemsSign in

Part 40

Evolution and Next-Gen Platforms

Evolution and Next-Gen PlatformsSign in
Backward Compatibility: Introducing New Abstractions Without Breaking TenantsSign in
Deprecation and Migration Playbooks: Operationalizing Change Over YearsSign in
Long-Term Bets: Serverless, Edge, and the Next Boundary ShiftSign in

Part 41

Capstone: Design a Cloud Platform Slice

Capstone: Design a Cloud Platform SliceSign in
Capstone Problem Statement and ConstraintsSign in
Deliverables: Diagrams and a "Platform Spec" DocumentSign in
Self-Review and Evaluation Rubric: Checking Boundary Claims Against FailuresSign in

Course overview