Loading...

Bắt đầu với SRE (Site Reliability Engineering) cùng Google qua 04 nội dung

Để bắt đầu với SRE (Site Reliability Engineering), Google khuyên bạn nên thực hiện 4 điều này trước tiên

Làm thế nào để bắt đầu với SRE là một điều khó khăn đối với nhiều doanh nghiệp có ý định áp dụng, các chuyên gia đề xuất rằng mục tiêu và mục đích của việc giới thiệu SRE nên được thiết lập trước, sau đó mới hành động. Và họ đã đưa ra 4 mẹo SRE để bắt đầu như sau:

Đầu tiên, hãy đặt mục tiêu cấp dịch vụ (SLO – Service Level Objective). Doanh nghiệp có thể bắt đầu bằng cách xác định SLO, thảo luận SRE, các đơn vị vận hành, phát triển và bảo trì CNTT cùng nhau để thảo luận về các mục tiêu trạng thái mong đợi của dịch vụ chung, sau đó mở rộng định nghĩa về chỉ số mức dịch vụ (SLI – Service Level Indicator) để quyết định rằng cơ chế giám sát cần thu thập dữ liệu hệ thống. Các chỉ số hoạt động nào để thiết lập dữ liệu hoạt động nào của hệ thống được quan sát.

Thứ hai, thiết lập khả năng phát triển kỹ thuật phần mềm mạnh mẽ của SRE. Vì SRE phát triển các công cụ bảo trì và thiết kế các cơ chế bảo trì tự động từ quan điểm của kỹ thuật phần mềm, nên tổ chức cần những tài năng kỹ thuật phát triển phần mềm mạnh mẽ. Các chuyên gia nhắc nhở rằng các kỹ sư SRE không chỉ là kỹ sư hệ thống hoặc quản trị viên hệ thống mà họ tập trung vào việc phát triển các công cụ SRE theo cách thức kỹ thuật phần mềm.

Thứ ba, lãnh đạo cao nhất của doanh nghiệp cần hỗ trợ mạnh mẽ và hỗ trợ đầy đủ cho việc thực hành SRE. Khi ngân sách lỗi (Error Budget) mà SRE nắm được đang tiến đến điểm tới hạn, cần phải phán đoán cách điều chỉnh trạng thái hoạt động của hệ thống hoặc giải phóng chức năng mới để đảm bảo tính ổn định của dịch vụ. Các chuyên gia cho rằng ban lãnh đạo cao nhất của doanh nghiệp cần trao cho SRE quyền ra quyết định liên quan, chẳng hạn như quyền phát hành các chức năng mới, để đảm bảo sự ổn định của hệ thống. Nếu không, nhóm SRE sẽ trở thành nhóm vận hành và bảo trì chung. .

Và lời khuyên thứ tư là hãy xây dựng một vòng lặp phản hồi hoàn hảo. Nếu một sự cố xảy ra, sau khi hoàn thành phân tích nguyên nhân gốc rễ của vấn đề, SRE cần phản hồi các hành động cải tiến cho nhóm chịu trách nhiệm, chẳng hạn như cung cấp phản hồi cho bộ phận phát triển phần mềm rằng chất lượng phần mềm cần được cải thiện, để tránh sự cố tương tự sẽ xảy ra một lần nữa.

Đối với những doanh nghiệp nhập khẩu SRE từ lâu có thể chú ý đến hai đặc điểm gần giống với SRE và AI, thứ nhất, cả hai đều hướng đến dữ liệu và đưa ra phán đoán bằng cách thu thập dữ liệu, thứ hai, cả hai đều dựa trên tự động hóa như mục tiêu. Các chuyên gia nói rằng do các đặc điểm tương tự, SRE có không gian tốt để sử dụng AI và có cơ hội giải quyết các vấn đề về bảo trì và vận hành thông qua học máy, chẳng hạn như phát hiện bất thường và quản lý năng lực. Nếu doanh nghiệp muốn sử dụng AI để tự động phát hiện các điều kiện bất thường của hệ thống, sau khi tích lũy một lượng dữ liệu sự kiện bất thường nhất định, doanh nghiệp có thể sử dụng dữ liệu đó để đào tạo mô hình phát hiện bất thường.

Nguồn: Internet