Bài học rút ra chính
- Sự cố kỹ thuật của Facebook thật không may, nhưng sự cố có thể đã được giải quyết nhanh hơn nhiều nếu nó không dựa vào quá nhiều hệ thống được kết nối với nhau.
- Không có cách nào để ngăn chặn lỗi hệ thống hoàn toàn, nhưng có nhiều cách để làm cho chúng ít xảy ra hơn.
- Có kế hoạch dự phòng khi (không phải nếu, khi) hệ thống bị lỗi có thể tạo ra sự khác biệt giữa 'khó chịu' và 'thảm họa.'
Sự cố Facebook gần đây cho thấy các hệ thống được kết nối với nhau có thể bị lỗi như thế nào và tại sao chúng ta không nên sử dụng chúng cho mọi thứ.
Mất Facebook, WhatsApp và Instagram trong vài giờ vào thứ Hai là điều bất tiện, gây thiệt hại cho các doanh nghiệp và trong một số trường hợp, gần như là thảm họa. Theo Facebook, tất cả là do thay đổi cấu hình đối với các bộ định tuyến điều phối mạng của họ.
Đó là một lời giải thích hợp lý, nhưng thực tế là một lỗi duy nhất như vậy có thể khiến không chỉ Facebook mà các hệ thống thuộc sở hữu của Facebook khác phải dừng lại là một điều đáng báo động.
Một lần thay đổi cấu hình bộ định tuyến sai đã khiến nhiều dịch vụ, và thậm chí cả tai nghe VR, ngừng hoạt động hoàn toàn. Trên hết, bằng sự thừa nhận của chính Facebook, nó cũng có tác động phân tầng đối với cách các trung tâm dữ liệu của công ty giao tiếp, khiến tất cả các dịch vụ của họ ngừng hoạt động.
"Việc phụ thuộc vào các hệ thống được kết nối với nhau mang theo rủi ro cố hữu về hệ thống hoặc thậm chí là lỗi dịch vụ", Francesco Altomare, kỹ sư kinh doanh kỹ thuật cấp cao tại GlobalDots, cho biết trong một cuộc phỏng vấn qua email với Lifewire, "Để đối phó với rủi ro khó khăn này, các công ty sử dụng nguyên tắc SRE (Kỹ thuật độ tin cậy của hệ thống), cũng như các công cụ khác, tất cả đều giải quyết các mức độ dự phòng khác nhau được tích hợp trong mọi lớp của cơ sở hạ tầng của hệ thống."
Điều gì có thể đi sai
Cần lưu ý rằng khi một hệ thống như vậy bị lỗi, nó thường đòi hỏi một cơn bão hoàn hảo xảy ra sự cố. Nó không giống như một ngôi nhà của những quân bài đang chờ rơi xuống mà giống như một cổng thoát nhiệt lộ ra trên một trạm vũ trụ có kích thước bằng một mặt trăng nhỏ.
Hầu hết các công ty đều thực hiện các bước để cố gắng và đảm bảo rằng điều có thể khiến mọi thứ trở nên hỗn loạn sẽ không bao giờ xảy ra - nhưng bất kể, điều đó có thể xảy ra.
"Thất bại không mong muốn là một phần của công việc kinh doanh và có thể phát sinh do sơ suất của nhân viên, lỗi trong mạng của nhà cung cấp dịch vụ internet hoặc thậm chí các dịch vụ lưu trữ đám mây đang gặp sự cố", Sally Stevens, đồng sáng lập FastPeopleSearch, cho biết trong một cuộc phỏng vấn qua email.
"… Miễn là các bước cần thiết để bảo vệ hệ thống - chẳng hạn như bản sao lưu, bộ định tuyến tại chỗ và quyền truy cập theo cấp - được thực hiện, những lỗi này rất khó xảy ra." Mặc dù ngay cả với một đội quân phá két, chiếc lynchpin vẫn có thể bị hỏng.
Nếu hệ thống điều khiển những thứ như hình thức tiếp xúc chính, thiết bị, cửa ra vào, v.v., không thành công, kết quả có thể rất đáng kể. Từ bất tiện nhẹ đến thảm khốc, tùy thuộc vào mức độ tin cậy của các cá nhân và công ty.
"Ngoài ra còn có nguy cơ tin tặc xâm nhập vào hệ thống từ bất kỳ thiết bị nào được bảo vệ kém nhất, chẳng hạn như tủ lạnh và lò nướng bánh", Stevens nói thêm, "có thể dẫn đến đánh cắp dữ liệu và ransomware."
Cách chúng ta có thể chuẩn bị
Không có cách nào để đảm bảo rằng một hệ thống sẽ không bao giờ bị lỗi, nhưng có những bước có thể được thực hiện để giảm khả năng xảy ra lỗi hoặc giải quyết lỗi một cách suôn sẻ hơn. Sự kết hợp của hai phương pháp kết hợp giữa các phương pháp dự phòng và các biện pháp đối phó với các kế hoạch dự phòng và hệ thống dự phòng sẽ là lý tưởng.
"Để loại bỏ những nguy cơ này do các sản phẩm và dịch vụ của bên thứ ba tạo ra được xử lý hiệu quả, các vai trò và nhiệm vụ liên quan đến Quản lý Rủi ro của Bên thứ ba phải được vạch ra nghiêm ngặt", Daniela Sawyer, người sáng lập và giám đốc công nghệ của FindPeopleFast, cho biết, trong một cuộc phỏng vấn qua email, "Để phát triển mạnh mẽ trong môi trường mới này, các nhà quản lý rủi ro phải nắm được các phần thiết yếu của một hệ sinh thái phức tạp như vậy".
Những gì đã xảy ra với Facebook, WhatsApp và Instagram thật không may, nhưng cũng hy vọng sẽ mở mang tầm mắt. Những người dựa vào các hệ thống được kết nối với nhau phải hiểu rằng điều đúng nếu sai có thể phá vỡ mọi thứ. Và các biện pháp phải được thực hiện (hoặc xem xét kỹ lưỡng và tinh chỉnh) để làm cho những gián đoạn như vậy ít xảy ra hơn và ít tác động hơn.
Trong trường hợp của Facebook, vấn đề của nó không phải là sự cố của bộ định tuyến, mà là do gần như toàn bộ hệ sinh thái của nó được kết nối với mọi thứ khác. Do đó, với việc Facebook (dịch vụ) ngừng hoạt động, Facebook (công ty) đã phải dành nhiều thời gian và năng lượng hơn để tổ chức và giải quyết vấn đề. Nếu nó không sử dụng một hệ thống được kết nối sâu rộng như vậy hoặc có sẵn các kế hoạch dự phòng để đối phó với sự cố như vậy, nó có thể sẽ mất ít thời gian hơn rất nhiều để khắc phục.