در هر زیرساختی که بر پایه سرورهای فیزیکی بنا شده باشد، پایداری ذخیرهسازی نقش تعیینکنندهای در عملکرد کلی سیستم دارد. هاردها در سرور HP به دلیل حجم پردازش بالا، دمای بالا، تعداد زیاد I/O و فشارهای پیدرپی، همیشه در معرض فرسودگی قرار دارند. از طرف دیگر، خرابی یک هارد میتواند باعث از دست رفتن اطلاعات، ایجاد فشار بر روی باقی دیسکها در RAID و حتی توقف سرویسهای حساس شود. به همین دلیل، یکی از مهمترین وظایف مدیر شبکه، بررسی سلامت هارد سرور بهصورت دائمی است. خوشبختانه HP iLO ابزاری کامل و دقیق برای مشاهده وضعیت لحظهای هاردها، هشدارها، خطاها و پیشبینی خرابی در اختیار ما قرار میدهد.
در این مقاله بهصورت کاملاً عملی توضیح میدهیم که چطور سلامت هارد سرور را در HP iLO بررسی کنیم، از چه بخشهایی باید گزارش بگیریم، چه ارورهایی نشانهی خطر هستند و چطور بفهمیم هارد در آستانه خرابی است. این مقاله بهگونهای نوشته شده که برای مدیران تازهکار و متخصصان حرفهای هر دو کاربردی باشد.
iLO در سرورهای HP تقریباً مثل یک «داشبورد سلامت سختافزار» عمل میکند. شما حتی اگر سیستمعامل سرور بالا نیاید، از طریق iLO میتوانید وضعیت دقیق هر هارد را ببینید. یکی از بخشهای مهم مدیریت نگهداری سرور، تحلیل سلامت هارد سرور از همین پنل iLO است. امکانات iLO برای بررسی وضعیت دیسکها شامل مشاهده وضعیت Real-Time، بررسی وضعیت RAID، تحلیل خطاهای Smart، مانیتورینگ دما و رویدادهای مربوط به کنترلر است.
هارد دیسکها به مرور زمان دچار فرسودگی میشوند. اگر سلامت هارد سرور HP را به صورت منظم کنترل نکنید، احتمال دارد یک دیسک ناگهان Fail شود و ساختار RAID را تحت فشار قرار دهد. این موضوع برای دیتابیسها، سیستمهای حساس و محیطهای مجازیسازی مثل ESXi خطرناک است. مورد دیگر، افزایش دماست که باعث کاهش عمر دیسکها میشود. HP iLO دقیقاً مواردی مثل افزایش دما، افت سرعت چرخش، خطاهای Smart، بدسکتور، نرخ Read/Write غیرعادی و Delayed Write را نشان میدهد.

برای بررسی سلامت هارد سرور ابتدا وارد صفحه iLO میشویم. کافی است آیپی iLO را در مرورگر باز کنید، سپس با یوزر Administrator وارد شوید. بعد از ورود، از منوی سمت چپ به بخش Storage بروید. در این قسمت تمام اطلاعات مربوط به هاردها، کنترلر، درایوهای فیزیکی و Logical Drive ها نمایش داده میشود.
مسیر کلی به این صورت است:
Information → Storage
یا در نسخههای جدیدتر:
System Information → Storage → Smart Storage
براساس مدل سرور (مثلاً DL380 Gen9 یا DL380 Gen10) ظاهر پنل کمی متفاوت است، اما اصول کلی یکسان است.
در صفحه Storage اولین چیزی که باید ببینید، وضعیت کلی هر هارد است. هر هارد سه وضعیت اصلی میتواند داشته باشد:
اگر وضعیت Predicted Failure را مشاهده کردید، یعنی هارد هنوز کار میکند اما کنترلر تخمین زده که در آینده نزدیک به مشکل میخورد. در این شرایط باید فوراً از دیتا بکاپ بگیرید و هارد را تعویض کنید.
از داخل همین صفحه، میتوانید ظرفیت، مدل، سرعت چرخش (RPM)، شماره پارت و حتی میزان استفاده (Wear Level) را مشاهده کنید. Wear Level در SSDها اهمیت بیشتری دارد چون عمر آنها بر اساس تعداد نوشتنهاست.
سلامت هارد سرور فقط به وضعیت خود دیسک وابسته نیست، بلکه RAID هم باید سالم باشد. کنترلرهای HP Smart Array در iLO وضعیت RAID را دقیقاً نمایش میدهند. در بخش Array Configuration باید موارد زیر را چک کنید:
اگر Logical Drive در حالت OK نباشد، یعنی یک یا چند دیسک دچار مشکل شدهاند یا آرایه RAID در حالت حساس قرار دارد. اگر Rebuild در حال انجام باشد، به هیچ وجه سرور را ریستارت نکنید. همچنین باید دما و سرعت فنها را چک کنید چون هنگام ریبیلد فشار زیادی به دیسکها وارد میشود.
Smart یا Self-Monitoring ویژگیایست که به صورت خودکار خطاهای هارد را ثبت میکند. در HP iLO میتوانید وضعیت Smart هر هارد را به صورت جداگانه مشاهده کنید. خطاهای Smart معمولاً نشاندهنده شروع خرابی هستند.
مهمترین خطاهای Smart که باید به آنها حساس باشید:
اگر یکی از این موارد در iLO با مقدار زیاد دیده شود، سلامت هارد سرور شما در خطر است و باید سریعاً اقدام کنید.

دما یکی از مهمترین عوامل خرابی هارد است. HP iLO دمای لحظهای هر هارد را نمایش میدهد. دمای مناسب معمولاً بین 25 تا 45 درجه است. اگر دما از 50 درجه بالاتر باشد، احتمال خراب شدن هارد بسیار زیاد میشود.
در این حالت باید موارد زیر را بررسی کنید:
در بسیاری از دیتاسنترهای کوچک، دما عامل اصلی کاهش سلامت هارد سرور است و فقط با تنظیم گردش هوا میتوان عمر هارد را چند برابر کرد.
در HP iLO بخشی به نام IML Logs یا Integrated Management Log وجود دارد که یکی از مهمترین منابع تشخیص خرابی هارد است. این لاگها شامل تمام رویدادهای مرتبط با هارد هستند، از جمله:
اگر سلامت هارد سرور ضعیف باشد، معمولاً پیامهای هشدار را در همین بخش میبینید. این گزارشها بسیار دقیق هستند و حتی میتوانند نشاندهنده مشکلاتی باشند که هنوز در سطح RAID ظاهر نشدهاند.
اگر از VMware ESXi یا Hyper-V استفاده میکنید، ممکن است هارد در لایه سیستمعامل هیچ هشدار ندهد اما در iLO مشکل وجود داشته باشد. علت این است که سیستمعامل فقط Logical Drive را میبیند، ولی iLO وضعیت دیسکهای فیزیکی را نشان میدهد. بنابراین، در محیطهای مجازی، بررسی سلامت هارد سرور از طریق iLO اهمیت بیشتری دارد.
اگر بخواهید تست عمیقتری انجام دهید، میتوانید از SSA یا Smart Storage Administrator استفاده کنید که معمولاً از طریق Intelligent Provisioning قابل اجراست. در این ابزار میتوانید تست کامل سطح هاردها، وضعیت RAID و Smart را انجام دهید.
مراحل کلی:
تست SSA معمولاً زمانبر است اما اطلاعات دقیقی ارائه میدهد.
یکی از بزرگترین مشکلات مدیران شبکه، تشخیص زودهنگام خرابی هارد است. iLO سه شاخص کلیدی برای تشخیص زودهنگام در اختیار شما قرار میدهد.
اول، هشدار Smart. این هشدار معمولاً چند روز یا چند هفته قبل از خرابی واقعی ظاهر میشود.
دوم، کند شدن عملکرد RAID هنگام Read/Write.
سوم، افزایش دما و سرعت چرخش فنها.
اگر این سه مورد را همزمان مشاهده کردید، حتی اگر وضعیت هارد OK باشد، بهتر است برای جلوگیری از آسیب، دیسک را تعویض کنید.
چند نشانه بسیار مهم وجود دارد که اگر در HP iLO یا لاگهای سیستم مشاهده کردید، باید فوراً اقدام کنید:
این موارد اگر نادیده گرفته شوند، میتوانند منجر به Fail شدن کامل دیسک شوند.
iLO4
دارای رابط سادهتر، اما Smart Storage کامل
گزارشهای کمتر نسبت به نسخههای جدیدتر
iLO5
جزئیات دقیقتر Smart Metrics
نمایش Wear Level SSD
نمایش اطلاعات بیشتر از کنترلر
iLO6
بسیار پیشرفتهتر
دارای بخش مجزا برای Drive Health
نمایش Real-Time Performance
تحلیل هوشمند خطاهای Smart
هرچه نسخه iLO جدیدتر باشد، دقت بررسی سلامت هارد سرور بیشتر است.
سلامت هارد سرور یکی از حیاتیترین موارد نگهداری سرورهاست و HP iLO به عنوان یک ابزار کامل و لحظهای، بهترین روش برای بررسی وضعیت درایوها، کنترلر و RAID است. با استفاده از بخشهای Storage، Smart، Temperature، IML Logs و SSA میتوانید قبل از بروز خرابی، مشکلات را تشخیص دهید. توصیه میشود سلامت هارد سرور را حداقل ماهی یکبار بررسی کنید، به هشدارهای Smart حساس باشید و در صورت مشاهده Predicted Failure، فوراً هارد را تعویض کنید.