Banner

Cloudflare แจงสาเหตุล่มครั้งใหญ่เมื่อคืนนี้ว่า “ไม่ได้โดนแฮก” แต่เพราะคิวรี่ฐานข้อมูลผิดจนระบบล่ม

.
เมื่อวานนี้ทุกคนน่าจะได้อยุ่ในเหตุการณ์ที่บริการเว็บใหญ่ๆอย่าง X, Canva, ChatGPT รวมถึงบริการเกมเช่น Riot ล่มพร้อมกันทั่วโลก ซึ่งสาเหตุก็รู้กันแล้วว่าเพราะ Cloudflare ผู้ให้บริการเครือข่ายรายใหญ่ทั้ง CDN, Bot management และอื่นๆอีกมากมาย เกิดการ “ล่ม” และด้วยความที่ Cloudflare เป็นผู้ให้บริการรายใหญ่อันดับต้นๆของโลกดันล่มเสียเอง ส่งผลให้ผู้ใช้งานอินเทอร์เน็ตจำนวนมากเจอปัญหาเข้าเว็บไซต์ไม่ได้ หน้าจอขึ้นแจ้งเตือน Error 500 หรือ Gateway Timeout เต็มไปหมด ซึ่งตอนนี้ Cloudflare ก็ได้ออกรายงานอธิบายสาเหตุและที่มาที่ไปแล้ว
.
เอาแบบรวบรัดสั้นๆเลยคือ Cloudflare “ไม่ได้” ถูกโจมตีทางไซเบอร์ ไม่ใช่แฮกเกอร์ และไม่มีใครมาแกล้งยิงระบบแต่อย่างใด แต่เป็นปัญหาที่เกิดจาก “การอัปเดตระบบภายใน” ที่ผิดพลาด
.
คุณ Matthew Prince ผู้บริหารของ Cloudflare เขียนในรายงานว่า เรื่องทั้งหมดเกิดจากความผิดพลาดทางเทคนิคเล็กๆ ที่ส่งผลกระทบใหญ่โตต่อกันเป็นทอดๆ เหมือนโดมิโน่ล้ม โดยเรื่องทั้งหมดถ้าเรียงลำดับเกิดขึ้นดังนี้
.
ในตอนแรกทีมงานพยายามจะปรับปรุงระบบฐานข้อมูล โดยการเข้าไปแก้ไขการตั้งค่าเรื่อง “สิทธิ์การเข้าถึงข้อมูล” เพื่อให้ระบบจัดการได้ดีขึ้น ซึ่งเป็นเรื่องทั่วไปในการดูแลรักษาระบบและทำเป็นประจำอยุ่แล้ว แต่วันก่อน การแก้ไขเจ้ากรรมนั้นดันไปทำให้ระบบดึงข้อมูลออกมาผิดพลาด กลายเป็นการ “ดึงข้อมูลซ้ำๆ” ออกมาจำนวนมหาศาลแทน
.
ปัญหาต่อมาคือ ข้อมูลที่ซ้ำซ้อนพวกนี้ ถูกส่งไปรวมอยู่ใน “ไฟล์สำหรับจัดการบอท” ซึ่งปกติไฟล์นี้จะมีการกำหนดขนาดคงที่ไว้ที่ 200 ฟีเจอร์ และสร้างทุกๆ 5 นาที ซึ่งในการทำงานปกติจะใช้ที่ราวๆ ขนาด 60 ฟีเจอร์เท่านั้น แต่รอบนี้ไฟล์ดันบวมเบิ้มขึ้นหลายเท่า เพราะข้อมูลขยะที่ซ้ำกัน ส่งผลให้พอเกินกำหนด Memory Limit ปุ้ป ระบบก็เกิดอาการ Panic ทันทีจากการ unhandle error และต่อมาก็รวนและน๊อคไปเลย
.
ปัญหาคือ ตอนแรกทีมงาน Cloudflare เข้าใจผิดนึกว่าโดนโจมตีด้วย DDoS หรือ Distributed Denial of Service เพราะ กราฟการใช้งานและ Error พุ่งสูงขึ้นเหมือนโดนยิง DDoS แถมระบบก็ไม่ได้ล่มสนิททีเดียว แต่มีอาการ “ติดๆ ดับๆ” เพราะการสร้างไฟล์ที่กล่าวไปด้านบนทุกๆ 5 นาที ทำให้บางครั้งระบบกลับมาดี บางครั้ง จนทำให้ทีมงานเสียเวลาหาสาเหตุว่าเกิดจากการโจมตีแทน
.
แต่พอตรวจสอบเจอว่าต้นเหตุคือไฟล์ข้อมูลที่ผิดพลาด ทีมงานก็จัดการหยุดการสร้างไฟล์นั้น และเอาไฟล์เวอร์ชั่นเก่าก่อนหน้าที่สถานะปกติกลับมาใช้แทน จากนั้นก็รีสตาร์ทระบบ หลังจากนั้นทุกอย่างจึงค่อยๆกลับมาใช้งานได้ตามปกติในช่วงเย็น
.
หากใครสงสัยว่า ทำไมหลังแก้ไขแล้ว ระบบถึงกลับมาช้ามากเป็นชั่วโมง ให้ลองนึกภาพว่า หากเราต่อเลโก้ใหญ่ๆขึ้นมาชุดนึง การเอามือปัดให้เลโก้ชุดนั้นพังกระจายใช้เวลาไม่ถึงวินาที แต่การเอากลับมาต่อใหม่ให้เหมือนเดิม ใช้เวลามากกว่าหลายเท่า ซึ่งกรณีนี้ก็เป็นเช่นเดียวกัน
.
คุณ Matthew บอกว่า การล่มครั้งนี้ถือเป็นเหตุการณ์ระบบล่มที่รุนแรงที่สุดของ Cloudflare นับตั้งแต่ปี 2019 แม้ที่ผ่านมาจะเคยเจอปัญหาอยู่บ้าง เช่น เข้าหน้า Dashboard ไม่ได้ หรือฟีเจอร์ใหม่ๆ ใช้งานไม่ได้ชั่วคราว แต่ตลอด 6 ปีกว่าที่ผ่านมา Cloudflare ไม่เคยเจอปัญหาไหนที่ทำให้ระบบหยุดชะงักได้ขนาดนี้มาก่อน
.
คุณ Matthew ย้ำว่าเหตุการณ์เช่นนี้เป็นเรื่องที่ยอมรับไม่ได้ เพราะ Cloudflare ออกแบบระบบมาให้มีความทนทานสูงเพื่อให้ข้อมูลไหลเวียนได้ต่อเนื่องเสมอ ซึ่งทุกครั้งที่เกิดปัญหาในอดีต จะเป็นบทเรียนให้ทีมงานพัฒนาระบบให้แกร่งขึ้นกว่าเดิม และขออภัยอย่างสูงสำหรับความวุ่นวายที่เกิดขึ้นบนโลกอินเทอร์เน็ตในวันก่อน
.
คุณ Matthew บอกว่าจากการล่มครั้งนี้ จะยกระดับความเข้มงวดในการตรวจสอบไฟล์การตั้งค่าที่ระบบ Cloudflare สร้างขึ้นเอง ให้มีมาตรฐานความปลอดภัยสูงระดับเดียวกับที่ใช้ตรวจสอบข้อมูลที่ส่งมาจากผู้ใช้งานภายนอก พร้อมเพิ่ม Kill switches แบบสั่งการทั่วโลกให้ครอบคลุมฟีเจอร์ต่างๆ มากขึ้น เพื่อให้สามารถสั่งปิดการทำงานได้ทันทีหากเกิดปัญหา รวมถึงจำกัดการทำงานของระบบบันทึกข้อมูลความผิดพลาดหรือรายงาน Error ต่างๆ ไม่ให้ใช้ทรัพยากรเครื่องมากเกินไปจนทำให้ระบบหลักล่ม
.
——————————-
GGKeyStore ร้านเติมเกม Steam, PSN, Nintendo, Roblox, DMM, DLsite, เติมเกมญี่ปุ่น, ไอดีเกม, เกมแท้ราคาถูก รับของทันที

Source: https://www.facebook.com/sheapgamer/posts/pfbid08T3maiSfCaEWVr7CdaDbLGNr78H9MEhqbjXiouxFXgvAtapxv13pML9Cz3Vo3Fhkl