Q:
บริษัท จะเพิ่มเวลาทำงานได้สูงสุดอย่างไร
A:การให้บริการไอทีและการดำเนินงานเป็นสิ่งสำคัญอย่างชัดเจน ผู้ผลิตระบบได้คิดมากกับเรื่องนี้มาก คอมพิวเตอร์ทางการเงินที่สำคัญบางเครื่องทำงานอย่างต่อเนื่องมานานหลายปี มีเรื่องราวบนอินเทอร์เน็ตเกี่ยวกับคอมพิวเตอร์ Novell Netware 3 ที่ปิดตัวลงหลังจาก 16 ปี ในการพิจารณา uptime เครือข่ายมาตรฐานสำหรับ "Five 9s" หรือความพร้อมใช้งาน 99.999% การบรรลุเวลาที่ใช้งานได้สูงสุดเป็นการพิจารณาที่สำคัญสำหรับการให้บริการด้านไอที
เวลาในการทำงานสูงสุดทำได้อย่างไร? การจัดการที่ดีเป็นกุญแจสำคัญ องค์การระหว่างประเทศเพื่อการมาตรฐาน (ISO) สร้างกรอบการทำงานสำหรับการจัดการเครือข่ายที่เรียกว่า FCAPS ซึ่งย่อมาจาก:
- การจัดการข้อผิดพลาด
- การจัดการการตั้งค่า
- การจัดการบัญชี
- การจัดการประสิทธิภาพ
- การจัดการความปลอดภัย
ปัญหาเกี่ยวกับส่วนประกอบของเครือข่ายแต่ละรายการนั้นได้รับการจัดการทั้งเชิงรุกและเชิงรุกโดยใช้รุ่นนี้ ความผิดปกติจะถูกตรวจสอบโดยใช้การเตือนภัยและการแจ้งเตือนเหตุการณ์ สิ่งเหล่านี้รวบรวมโดยตัวแทนของโปรโตคอลเช่น SNMP (โปรโตคอลการจัดการเครือข่ายระบบ) หรือโซลูชันที่เป็นกรรมสิทธิ์อื่น ๆ เกณฑ์ที่ปรับแต่งได้อาจทำให้เกิดสัญญาณเตือนและแม้กระทั่งสร้างตั๋วที่สิ้นสุดโดยอัตโนมัติในคิวของเจ้าหน้าที่ตรวจสอบในศูนย์ข้อมูล เครือข่ายผู้ให้บริการขนาดใหญ่อาจมีแผนกแยกต่างหากเพื่อจัดการกับแกนหลักการกระจายหรือการเข้าถึงเลเยอร์ของเครือข่าย การวิเคราะห์สาเหตุของความพยายามในการแยกและกำหนดปัญหาที่สำคัญหลังจากเหตุการณ์สำคัญ
กระบวนการที่คล้ายกันใช้สำหรับการจัดการระบบ ผู้ให้บริการอินเทอร์เน็ต (ISP) และศูนย์โฮสติ้งที่มีการจัดการจ้างผู้ดูแลระบบเพื่อตรวจสอบและจัดการความมีชีวิตของเซิร์ฟเวอร์ระบบจัดเก็บข้อมูลหรืออุปกรณ์อื่น ๆ ยกตัวอย่างเช่นกระบวนการส่วนบุคคลบนเครื่อง Windows หรือ Linux สามารถดูและควบคุมผ่านโปรแกรมการจัดการส่วนติดต่อผู้ใช้แบบกราฟิก (GUI) ในลักษณะเดียวกับโปรโตคอลเครือข่าย
การเฝ้าระวังจากระยะไกลและการกำหนดค่าของส่วนประกอบเครือข่ายและระบบให้ความสามารถแบบเรียลไทม์เพื่อเพิ่มเวลาใช้งานสูงสุดของระบบ ซึ่งรวมถึงการเปลี่ยนแปลงการกำหนดค่าการรวบรวมตัวบ่งชี้ประสิทธิภาพหลักหรือการนำการปรับปรุงด้านความปลอดภัยมาใช้
วิธีหนึ่งในการดูเวลาทำงานและความทนทานของระบบใด ๆ ก็คือกับรุ่นที่ IBM เรียกว่า RAS: ความน่าเชื่อถือความพร้อมใช้งานและความสามารถในการให้บริการ เพื่อให้มั่นใจว่า RAS มีการพัฒนาวิธีการมากมาย เหล่านี้รวมถึงความซ้ำซ้อนการสำรองข้อมูลแหล่งจ่ายไฟสำรอง (UPS) ส่วนประกอบแบบถอดเปลี่ยนได้และการอัปเดตอัตโนมัติ การเปลี่ยนแปลงและการบำรุงรักษาตามแผนให้โอกาสในการแก้ไขหรือปรับปรุงปัญหาที่ทราบโดยไม่ต้องรบกวนผู้ใช้
ในที่สุดระบบและเครือข่ายจะล้มเหลว ความซ้ำซ้อนเป็นหนึ่งในกุญแจสู่ความยืดหยุ่นของระบบ สิ่งนี้สามารถใช้ได้กับฮาร์ดแวร์ซอฟต์แวร์หรือข้อมูล ผู้รับผิดชอบในการตรวจสอบความน่าเชื่อถือในเครือข่ายหรือระบบซอฟต์แวร์จะค้นหาสิ่งที่อาจถือว่าเป็นจุดล้มเหลวเดียว (SPOF) เครือข่ายทั้งหมดไหลผ่านสวิตช์หรือสายเคเบิลเส้นเดียวหรือไม่ กระบวนการทั้งหมดเกิดขึ้นบนเซิร์ฟเวอร์ lone หรือไม่? มีชุดข้อมูลวิกฤติเพียงชุดเดียวหรือไม่ หากไม่มีความซ้ำซ้อน บริษัท จะสามารถสูญเสียสิ่งที่อาจต้องใช้เวลาหลายปีกว่าจะพัฒนา
การเพิ่มช่วงเวลาใช้งานสูงสุดเป็นความพยายามที่“ เหนือทุกอย่าง” แนวปฏิบัติที่ดีที่สุดได้รับการพัฒนาผ่านประสบการณ์และความร่วมมือหลายทศวรรษ โซลูชั่นใหม่กำลังดำเนินการอย่างต่อเนื่องเช่นเครือข่ายการรักษาตัวเองการจำลองเสมือนการวิเคราะห์ข้อมูลและสถาปัตยกรรมที่ได้รับการปรับปรุง ไม่มีวิธีการเดียวที่จะตอบปัญหาทั้งหมดที่เกิดขึ้นในระบบที่ซับซ้อน ทุก บริษัท พยายามที่จะใช้ทรัพยากรไอทีให้เกิดประโยชน์สูงสุดในวงจรชีวิตของอุปกรณ์เมื่อมีการใช้งาน