服务器代维护服务项目中的定期硬件故障检测

服务器常见故障有哪些？硬件故障。常见的服务器硬件故障包括磁盘损坏、电池故障等。软件问题。比如操作系统崩溃，未知程序错误。病毒破坏。威胁病毒加密，删除服务数据等。无法控制的力量。由于设备浸水，火烧，倒塌等原因造成的损坏和数据丢失。误操作。人员操作失误导致的数据丢失，如格式化、删除、覆盖等。

如何减少或避免服务器故障？

1.定期维护和保养。服务器硬件的性能受到使用寿命的影响。定期维护设备可以及时发现各种可能出现故障的情况。例如，硬盘读写缓慢、异常噪音、硬盘在阵列中脱机是即将出现故障的前兆。2.定制服务器紧急计划。可以定制一套紧急计划，如备份服务器、紧急电源、冗余内存等。服务器停止运行时，可以立即启用紧急计划，避免影响业务。3.软件定期更新。服务器中的操作系统和软件可以定期更新，以保护安全，避免病毒攻击。4.建立事件日志。严格监控操作人员和操作内容，尽可能实现自动化。

如何恢复故障？虽然服务器故障是可以预防的，但是不可控制的，故障是不可避免的。故障发生后如何恢复？1、发生故障时，应先启用应急机制，备份服务器上线，更换故障服务器。2.检查故障并进行维护。3.如果服务器上的数据被破坏，应关闭服务器，备份服务器数据，进行专业数据恢复操作，恢复服务器数据。

HPDL380服务器RAID信息丢失案例共享！本次共享的服务器是HPDL380系列，存储器是由6个73GBSAS硬盘构成的RAID5，操作系统是WINDOWS2003SERVER，主要作为企业部门内部的文件服务器应用，主机(UPS)在发生故障之前多次发生事故主机意外断电导致RAID模块损坏(包括RAID管理信息丢失和RAID模块硬件损坏)并不少见。一般来说，RAID创建后，其管理模块的信息不会再发生变化，但这部分信息毕竟属于可修改的信息，意外断电很容易导致这部分信息被篡改甚至丢失，多次断电甚至可能导致RAID卡上的元件损坏，从而导致主机失去RAID管理多个物理硬盘的中间模块。在这种情况下，RAID模块的死机现象很可能是由RAID卡硬件损坏引起的(经HP售后技术人员验证确认)，此时通过正常渠道无法获得6个硬盘中的数据，只能由第三方提供的数据恢复服务来解决。

资料恢复过程如何？

1.首先对用户提供的6个SAS硬盘进行严格的物理检查，6个硬盘读取状态良好。2.分别镜像用户故障RAID组中的6个硬盘，目标存储是具有冗余功能的阵列存储，以确保绝对数据安全；3.镜像完成后，对生成的6个备份文件进行RAID结构分析，根据文件系统存储规则，确定6个硬盘构建RAID5的盘序、数据块大小和检查方式，在虚拟环境中重建RAID组。4.逻辑检查构建的RAID中的数据，确保重构RAID所应用的参数正确后，完全验证用户最关心的数据。5.用户确认数据恢复结果完全达到预期(数据恢复到故障前状态)后，将所有用户业务数据转移到用户存储，数据恢复完成。

尽量保证机房供电稳定，减少电源异常对主机和存储的影响；最好为重要服务器和存储配置不间断电源，以确保核心业务系统在机房意外断电时能够继续保持一定时间的正常工作，从而为企业寻求应急解决方案，赢得宝贵的时间；长期服务的服务器应定期检查安全状况，评估其整体运行状态，决定是否进行硬件和系统的全面升级，同时制定突发数据灾害的应急处理方案，减少数据灾害造成的业务损失。服务器作为一种高速运行和长时间运行的设备，故障相对较多，但我们可以在使用过程中尽可能减少或避免服务器故障，或者在服务器故障后选择数据恢复方法来保护服务器中的数据，减少损失。

相关推荐