Cloudflare ล่มอีก! บทเรียนราคาแพงจากการ 'ทดสอบบน Production' ชี้ปัญหาซ้ำซากในการ Deploy ระบบ

Cloudflare ระบุในรายงานหลังเหตุการณ์ว่า การล่มครั้งล่าสุดมีต้นกำเนิดจากการเริ่มทยอยปรับใช้การเปลี่ยนแปลงกับ React Server Components (RSC) เพื่อเพิ่มบัฟเฟอร์ขนาด 1 MB สำหรับแก้ไขช่องโหว่ CVE-2025-55182 ระหว่างการทยอยปรับใช้บน Production (Prod) กลับพบว่าเครื่องมือทดสอบไม่รองรับขนาดบัฟเฟอร์ที่เพิ่มขึ้น จึงมีการตัดสินใจปิดใช้งานเครื่องมือดังกล่าวทั่วโลก ส่งผลให้กลไกการทยอยปรับใช้ถูกข้ามไป

การดำเนินการเช่นนี้เป็นผลมาจากเหตุการณ์ที่ Cloudflare เคยประสบมาก่อนหน้านี้ เมื่อ FL2 proxy ที่พัฒนาด้วย Rust เกิดหยุดทำงานเมื่อพบไฟล์อินพุตที่เสียหาย ในครั้งนี้ การปิดใช้งานเครื่องมือทดสอบได้สร้างเงื่อนไขใน FL1 proxy ที่ใช้ Lua เป็นหลัก ทำให้พบค่า NIL (Null) และส่งผลให้คำขอที่ผ่านพรอกซีนี้เริ่มล้มเหลวด้วยข้อผิดพลาด HTTP 500 อย่างไรก็ตาม ข้อดีคือปัญหานี้ได้รับการตรวจจับและแก้ไขได้ค่อนข้างรวดเร็ว ซึ่งต่างจากเหตุการณ์ FL2 proxy ล่มครั้งก่อนที่ใช้เวลาในการวินิจฉัยและแก้ไขนานกว่า

นอกจากปัญหาเชิงระบบของ Cloudflare ในการทดสอบโค้ดและการตรวจสอบการตั้งค่าก่อนที่จะ ‘ทดสอบบน Production’ แล้ว เหตุการณ์นี้ยังเป็นคำเตือนสำคัญสำหรับองค์กรอื่น ๆ ที่คิดว่าการ ‘ปรับใช้แบบเร่งด่วนบน Prod’ ไม่ใช่เรื่องใหญ่ หลายบริษัทต้องเผชิญกับสถานการณ์ที่การทดสอบและการพัฒนาเกิดขึ้นบน Staging แต่การ ‘Staging จริง’ กลับเกิดขึ้นบน Production ซึ่งเมื่อเกิดปัญหาขึ้น ลูกค้าที่ไม่พอใจจะสร้างความเดือดร้อนอย่างมาก


🏷️ หมวดหมู่: News, Rants, deployment

🔗 อ่านบทความฉบับเต็ม: hackaday