.
AWS หรือ Amazon Web Services ได้ออกรายงานสรุปเหตุการณ์ขัดข้องครั้งใหญ่ ระหว่างวันที่ 19-20 ต.ค. 2025 ที่ผ่านมา ซึ่งส่งผลกระทบให้แอปพลิเคชันและเว็บไซต์จำนวนมากถึงกับ “ล่ม” ไปครึ่งโลก ทั้งบริการเกมต่างๆอย่าง Epic, Roblox เองก็ใช้งานไม่ได้ไประยะหนึ่งเลยทีเดียว หรือแม้กระทั่ง app ยอดฮิตอย่าง Canva ก็ถึงกับใช้งานไม่ได้เป็นวัน เราก็เลยขอเอามาย่อยให้อ่านเข้าใจง่ายๆ (หวังว่านะ) โดยไม่ต้องรู้ศัพท์เทคนิคมากนัก
.
=== เกริ่นถึง DNS กันก่อน ===
.
ก่อนจะเริ่มต้องอธิบายสักเล็กน้อยเกี่ยวกับ DNS หรือ Domain Name System คือระบบจัดการที่ทำหน้าที่เหมือนคนดูแลสมุดโทรศัพท์ของโลกอินเตอร์เนต ที่ทำหน้าที่แปลงชื่อเว็บที่มนุษย์จดจำได้ง่าย เช่น google .com, yahoo .com ให้เป็น IP Address ที่เซิฟเวอร์ใช้ในการสื่อสารกัน เจ้า DNS นี้ทำให้มนุษย์อย่างเราๆสามารถเข้าถึงเว็บไซต์ได้ง่ายขึ้น โดยไม่ต้องมาคอยจำ IP Address ที่จำได้ยากนั่นเอง
.
=== DynamoDB จุดเริ่มต้นความพัง ===
.
ที่นี้ในส่วนของการจัดเก็บข้อมูลหรือ DNS Record ของ AWS ชื่อว่า DNS Enactor จะใช้การเก็บในฐานข้อมูลที่เรียกว่า DynamoDB หรือ DDB ซึ่งตามปกติแล้วก็จะทำงานมาได้อย่างไม่มีปัญหาอะไร แต่จู่ๆเมื่อวันที่ 19 ต.ค. ที่ผ่านมา ลูกค้าและบริการ AWS ภายในพบอัตราข้อผิดพลาดของ DDB API เพิ่มขึ้น และไม่สามารถสร้างการเชื่อมต่อใหม่กับ DDB ได้ ส่งผลให้เกิดปัญหาที่ซับซ้อนระหว่าง Enactor 2 ตัว โดย Enactor ตัวแรก เกิดความล่าช้าอย่างมากในการอัปเดต Record ในขณะที่ Enactor ตัวที่ 2 ทำงานปกติ และอัปเดต Record สำเร็จ จึงสั่งให้ล้างข้อมูลเก่าทิ้ง
.
ตรงนี้จะเห็นว่าสิ่งที่เกิดขึ้นคือ DNS Enactor 1 ยังทำงานไม่จบ แต่ DNS Enactor 2 สั่งล้างข้อมูลแล้ว ทำให้เกิดการวนเขียนซ้ำและลบไปมาแข่งกันไม่หยุด หรือ Race Condition ส่งผลให้่ข้อมูล DNS ว่างเปล่า และตามมาด้วยทุกบริการของ AWS และของลูกค้าที่ต้องพึ่งพา DDB ไม่สามารถหาทางเชื่อมต่อกับฐานข้อมูลได้ (เพราะต้องใช้ DNS ชี้มาที่ DDB) จนทำให้บริการอื่นๆพังตามไปด้วยเป็นโดมิโน่
.
วิศวกร AWS ต้องเข้ามาจัดการแก้ปัญหา แม้ว่าจะสามารถแก้ไขปัญหา DNS ของ DynamoDB ได้ในเวลาไม่กี่ชั่วโมงหลังเกิดเหตุ แต่ความเสียหายได้แพร่กระจายต่อไปยังบริการอื่นๆ ต่อ
.
=== EC2 ความพังต่อเนื่อง ===
.
ต่อมา EC2 หรือ Elastic Compute Cloud ซึ่งเป็นบริการเซิร์ฟเวอร์เสมือนหรือ Virtual Server ยอดนิยมของ AWS ที่มักจะใช้ Host บริการต่างๆแบบหลากหลาย ได้ประสบภาวะ “ทำงานหนักเกินไปจนล่ม” เพราะระบบพยายามที่จะต่ออายุ (Lease) กับเซิร์ฟเวอร์ที่ขาดไปในช่วงที่ DDB ล่มจากด้านบนเป็นเวลาหลายชั่วโมง ทำให้การเปิดใช้งานเซิร์ฟเวอร์ EC2 ใหม่ล้มเหลว หรือถ้าเปิดขึ้นได้ก็ประสบปัญหาในการเชื่อมต่อเครือข่าย และระบบเครือข่ายก็ทำงานช้าจนตามไม่ทัน ทำให้เซิร์ฟเวอร์ที่เพิ่งเปิดใหม่ ไม่มีอินเทอร์เน็ตใช้ หรือ เชื่อมต่อไม่ได้ แล้วระบบก็พยายามทำแบบนี้ไปเรื่อยๆ จนเกิดการแออัดของ Lease จำนวนมหาศาลที่เปิดขึ้นมาใหม่
.
=== ไปสุดที่ Network Load Balancer ===
.
Network Load Balancer หรือ NLB ทำหน้าที่เหมือน “ผู้ดูแลการเชื่อมต่อ” คอยจัดสรรการเชื่อมต่อของ EC2 ข้างบน ที่นี้พอเกิดปัญหาที่ว่า ระบบอีกตัวของ NLB ที่ชื่อ Healtch Checker ที่คอยทำหน้าที่ตรวจสอบว่า EC2 พร้อมมั้ยในการเชื่อมต่อ แต่ปัญหาด้านบน EC2 ก็อยู่ในสภาพไม่พร้อมแบบวนลูป คีอเดินเครื่อง, เชื่อมต่อไม่ได้, ปิดตัว และสร้างใหม่อีก ทำให้ความจุของระบบโดยรวมลดลง ลูกค้าจึงพบข้อผิดพลาดในการเชื่อมต่อที่สูงขึ้นอย่างมากตลอดทั้งวัน จนวิศวกรของ AWS ต้องเข้ามาจัดการแบบแมนนวลโดยการปิดระบบ AZ Failover ทิ้ง
.
=== ทุกอย่างที่เหลือก็ล่มตาม ===
.
จากปัญหาด้านบน ลูกค้า AWS จึงพบข้อผิดพลาดในการเชื่อมต่อที่สูงขึ้นอย่างมากตลอดทั้งวัน ผลกระทบต่อเนื่องเหล่านี้ทำให้บริการอื่นของ AWS เช่น Lambda, Amazon Connect, Fargate และระบบอื่นๆ ทำงานผิดปกติไปตามๆกัน จนเกิดปัญหาที่ผู้ใช้งานอย่างเราๆ ได้สัมผัสไปนั่นเอง กินเวลาไปากกว่า 15 ชั่วโมง
.
ทาง AWS ได้กล่าวขออภัยต่อลูกค้า และยืนยันว่าได้เริ่มมาตรการป้องกันปัญหาซ้ำแล้ว โดยได้ปิดระบบจัดการ DNS ของ DynamoDB ที่มีปัญหาทั่วโลกเพื่อทำการแก้ไขอย่างละเอียด นอกจากนี้ยังมีการปรับปรุง NLB และสร้างตัวเทสสำหรับระบบ EC2 ใหม่เพื่อให้มั่นใจว่าจะไม่เกิดการล่มต่อเนื่องลักษณะนี้ขึ้นอีกในอนาคต
——————————-
GGKeyStore ร้านขายเกมและบัตรเติมเกม ราคาถูก รับของทันที เปิด 24 ชั่วโมง เชื่อถือได้ 100% สมาชิกกว่า 200,000 คน ขายไปแล้วกว่า 800,000 คีย์
AWS เผยสาเหตุหลักจากบั๊กในระบบฐานข้อมูล ส่งผลให้บริการและเกมหลายอย่างทั่วโลกล่มเมื่อสัปดาห์ก่อน




