Những lý do data center có thể bị sập, bàn về vụ VNG

25/09/2018

"Data center" - được hiểu là trung tâm dữ liệu, nơi tập trung nhiều thành phần tài nguyên mật độ cao (hardware, software...) làm chức năng lưu trữ, xử lý toàn bộ dữ liệu hệ thống với khả năng sẵn sàng và độ ổn định cao. Hiểu đơn giản là nơi đặt rất nhiều máy chủ (server) của một hoặc nhiều công ty.

 

Những lý do có thể làm sập data center:

 

Lỗi con người

Con người là nguyên nhân gây ra đa số tội lỗi trên đời, và trong môi trường data center cũng thế. Những sai sót trong bảo trì, bảo dưỡng hoặc chỉ đơn giản là những hành vi vô tình cũng có thể khiến cả một mạng lưới server trong data center "lên đường". Uptime Institute, hiệp hội đề ra các chuẩn cho data center toàn cầu, ước tính 70% số lần "sập" data center là do lỗi con người.
Một số lỗi có thể dễ dàng kể tới như:

  1. Đánh dấu cáp không rõ ràng, rút nhầm cắm, cắm nhầm cáp
  2. Thiếu sự huấn luyện trong tình huống khẩn cấp, dẫn tới việc kĩ thuật viên không biết phải làm sao cho đúng quy trình
  3. Bố trí server không hợp lý
  4. Lỡ tắt công tác của hệ thống khẩn cấp
  5. Chỉnh nhiệt độ nhầm lẫn giữa độ C và độ F
  6. Tháo dây nguồn làm server chết
  7. Lỗi do hệ thống điện

 

 

Trong mọi data center đều có ít nhất một nguồn điện dự phòng, thậm chí chỉ một vài máy chủ nhỏ đặt ngay tại công ty cũng đã có đường điện riêng và luôn được đảm bảo liên tục nhờ máy phát rồi. Các trung tâm dữ liệu cỡ lớn đôi khi còn có 2-3 máy phát khổng lồ sẵn sàng hoạt động khi có sự cố mất lưới điện với thời gian sập gần như bằng 0. Một số nơi có sẵn hầm dầu để cấp cho máy phát trong trường hợp mất điện kéo dài.
Nhưng cũng có một số tình huống hiếm gặp khi mà máy phát dự phòng cũng bị hư hỏng. Các máy phát này cần phải được chạy thử và bảo trì liên tục để khi có sự cố thì chúng có thể hoạt động ngon lành. Nhưng ai mà biết được, nhiều khi xui quá thì cũng đành chịu. Xui nhất là 2-3 máy phát điện cùng hỏng một lúc.

 

Lỗi do hệ thống mạng

 

Hệ thống mạng của một số trung tâm dữ liệu thiếu chuyên nghiệp rất thường bị gián đoạn, bản thân mình gặp tình trạng này khá nhiều ở nhiều công ty. Các server khi đó vẫn chạy ngon lành, nhưng do chúng không thể giao tiếp với nhau và / hoặc không thể gửi dữ liệu ra khỏi data center để đi vào thế giới Internet nên sự cố cũng không khác nào việc server bị sập: người dùng không truy cập được, hoạt động của công ty bị gián đoạn, khách hàng phàn nàn, hàng không thể xuất kho...
Với lỗi do hệ thống mạng, sự cố thường sẽ được khắc phục nhanh chóng hơn so với các sự cố về điện hay phần cứng.

 

Lỗi do hệ thống làm mát

Máy tính anh em chạy lâu cũng có thể bị nóng, trong khi các server phải chạy gần như 24/7 không nghỉ phút nào. Chúng lại được đặt gần nhau nên lượng nhiệt tỏa ra càng nhiều hơn. Một số server chạy tính toán nặng thì CPU và GPU sẽ nóng lên rất nhiều. Những cái quạt tản nhiệt gắn lên mainboard hay lên thùng server là không đủ, người ta còn phải kiếm nhiều cách khác để làm mát server cũng như không khí xung quanh, chẳng hạn như Microsoft có một data center dưới biển và Facebook có data center dòng chất lỏng để tản nhiệt. Nhiệt độ lý tưởng cho data center là 8 độ C.

 

Khi hệ thống làm mát gặp sự cố, các server dễ quá nhiệt trong thời gian ngắn và tự ngừng mọi hoạt động để đảm bảo tính an toàn. Đây cũng là một thứ cần để tâm và hay được kiểm trang kỹ càng, thậm chí dùng cả mô hình khí động học để mô phòng tình huống hệ thống hỏng thì sao nữa kìa.

Thiên tai, lũ lụt

Đây cũng là lý do mà các nhà cung cấp dịch vụ data center không bao giờ dám mạnh mồm tuyên bố dịch vụ của họ luôn chạy 100% thời gian, cùng lắm là chỉ dám cam kết 99,99% mà thôi (hay như Amazon có dịch vụ lưu trữ S3 cam kết tới 99,99999999% thời gian luôn online). Những thiên tai lớn có thể xảy ra khiến mạng, điện bị đứt và khi đó data center cũng sẽ mất nhiều thời gian khắc phục sự cố.

 

Bàn chút về sự cố của VNG

Như anh em cũng biết rồi đấy, gần cả ngày chủ nhật vừa qua, toàn bộ dịch vụ của VNG như ZingMP3, Zing, Baomoi, Zalo, ZaloPay đều lên đường. Một số trang web sử dụng hệ thống quản lý nội dung đặt tại data center của VNG và những khách hàng thuê máy chủ của VNG cũng dính sự cố dây chuyền cực kì nghiêm trọng. Tới tối một số dịch vụ mới chạy lên, và phải sáng hôm qua Zalo mới bắt đầu chạy trở lại.
Mình có biết rằng VNG có vài data center, một cái ở Hà Nội, và một cái đặt tại Công viên phần mềm Quang Trung ở quận 12, TP.HCM. Cái ở Quang Trung là cái gặp sự cố hôm qua, và có vẻ như nó là nơi đặt tất cả những dịch vụ cốt lõi sống còn của Zing.

Thường thì khi thiết lập các hệ thống lớn chục triệu, trăm triệu người dùng, người ta sẽ thiết lập thêm một thứ gọi là DR Site. DR viết tắt cho chữ Disaster Recovery, tức bạn sẽ khôi phục sau thảm họa như thế nào. Người ta thường thiết lập từ 2 DR Site trở lên, ví dụ một cái ở Hà Nội một cái ở TP.HCM để lỡ cái ở TP.HCM có bị nổ tung thì dịch vụ vẫn có thể chạy tiếp như bình thường, lưu lượng sẽ dc chuyển hướng ra Hà Nội. Mấy ông kiểu Facebook, Google thì DR Site khắp nơi, xuyên suốt nhiều quốc gia, nhiều châu lục.Trong trường hợp của VNG, có vẻ như thiết lập nhiều DR Site đã không hiệu quả hoặc không chạy được như kỳ vọng nên mới dẫn tới tình trạng như trên. Chắc là VNG cũng không đến nỗi không làm DR Site, có điều họ gặp sự cố nào đó nên hệ thống dự phòng không chạy lên hoặc do họ không thiết lập dự phòng cho các dịch vụ cốt lõi của họ.

Ngoài ra, sự cố về máy phát điện cũng có thể là nguyên nhân khiến các server bị sập trong thời gian dài. Không phải công ty lớn là không mắc sai lầm, mọi thứ đều có thể diễn ra.

Cuối cùng, mình cũng nghi ngờ rằng bởi vì vụ cúp điện này mà server / nơi lưu trữ dữ liệu cũng bị ảnh hưởng, có thể là chết server, chết ổ lưu trữ hay cái gì đó tương tự. 

Những tình huống như trên cũng là lý do vì sao chúng ta phải nên tìm hiểu về những dịch vụ hosting, các dịch vụ giá rẻ hay miễn phí sẽ không đảm bảo an toàn dữ liệu và dễ gặp rắc rối hơn. Mình sẽ ưu tiên sử dụng các cloud server từ những tên tuổi lớn như Amazon Web Services, Google Cloud, Digital Ocean nếu có thể. Còn nếu phải đặt server trong nước, mình sẽ chấp nhận chi tiền nhiều chút để đổi lại sự ổn định trong hoạt động.

 

Theo Duy Luân, tinhte.vn.

123

123

123

123

123
123