State of Checkpoint/Restore in Kubernetes (now with GPUs)

12:00 bis 12:20 in Raum V3 (A301)

Adrian Reber

Abstract

Gestartet als “Forensic Container Checkpointing” in 2022 als Kubernetes Alpha Feature, ist Checkpoint/Restore inzwischen in Kubernetes ein Beta Feature und nun auch möglich mit containerd 2.x und CRI-O. Selbst wenn das Feature unter dem Namen “Forensic Container Checkpointing” in Kubernetes verfügbar ist, ist es nicht darauf beschränkt. In diesem Vortrag möchte ich auf die zusätzlichen Use Cases, wie Container Migration, Fehler Toleranz, Schnellere Start und optimierte Ressourcennutzung eingehen. Besonders in Kombination mit Container die GPUs nutzen eröffnet es die Möglichkeit die GPUs effizienter zu nutzen und Leerlauf zu verhindern (mit Live Demo).

Über mich

Adrian is a Senior Principal Software Engineer at Red Hat and is migrating processes at least since 2010. He started to migrate processes in a high performance computing environment and at some point he migrated so many processes that he got a PhD for that. Most of the time he is now migrating containers but occasionally he still migrates single processes.