چطور سلامت هارد سرور را در HP iLO بررسی کنیم؟

چطور سلامت هارد سرور را در HP iLO بررسی کنیم؟

در هر زیرساختی که بر پایه سرورهای فیزیکی بنا شده باشد، پایداری ذخیره‌سازی نقش تعیین‌کننده‌ای در عملکرد کلی سیستم دارد. هاردها در سرور HP به دلیل حجم پردازش بالا، دمای بالا، تعداد زیاد I/O و فشارهای پی‌درپی، همیشه در معرض فرسودگی قرار دارند. از طرف دیگر، خرابی یک هارد می‌تواند باعث از دست رفتن اطلاعات، ایجاد فشار بر روی باقی دیسک‌ها در RAID و حتی توقف سرویس‌های حساس شود. به همین دلیل، یکی از مهم‌ترین وظایف مدیر شبکه، بررسی سلامت هارد سرور به‌صورت دائمی است. خوشبختانه HP iLO ابزاری کامل و دقیق برای مشاهده وضعیت لحظه‌ای هاردها، هشدارها، خطاها و پیش‌بینی خرابی در اختیار ما قرار می‌دهد.

در این مقاله به‌صورت کاملاً عملی توضیح می‌دهیم که چطور سلامت هارد سرور را در HP iLO بررسی کنیم، از چه بخش‌هایی باید گزارش بگیریم، چه ارورهایی نشانه‌ی خطر هستند و چطور بفهمیم هارد در آستانه خرابی است. این مقاله به‌گونه‌ای نوشته شده که برای مدیران تازه‌کار و متخصصان حرفه‌ای هر دو کاربردی باشد.

iLO در سرورهای HP تقریباً مثل یک «داشبورد سلامت سخت‌افزار» عمل می‌کند. شما حتی اگر سیستم‌عامل سرور بالا نیاید، از طریق iLO می‌توانید وضعیت دقیق هر هارد را ببینید. یکی از بخش‌های مهم مدیریت نگهداری سرور، تحلیل سلامت هارد سرور از همین پنل iLO است. امکانات iLO برای بررسی وضعیت دیسک‌ها شامل مشاهده وضعیت Real-Time، بررسی وضعیت RAID، تحلیل خطاهای Smart، مانیتورینگ دما و رویدادهای مربوط به کنترلر است.

هارد دیسک‌ها به مرور زمان دچار فرسودگی می‌شوند. اگر سلامت هارد سرور HP را به صورت منظم کنترل نکنید، احتمال دارد یک دیسک ناگهان Fail شود و ساختار RAID را تحت فشار قرار دهد. این موضوع برای دیتابیس‌ها، سیستم‌های حساس و محیط‌های مجازی‌سازی مثل ESXi خطرناک است. مورد دیگر، افزایش دماست که باعث کاهش عمر دیسک‌ها می‌شود. HP iLO دقیقاً مواردی مثل افزایش دما، افت سرعت چرخش، خطاهای Smart، بدسکتور، نرخ Read/Write غیرعادی و Delayed Write را نشان می‌دهد.

سلامت هارد سرور hp

برای بررسی سلامت هارد سرور ابتدا وارد صفحه iLO می‌شویم. کافی است آی‌پی iLO را در مرورگر باز کنید، سپس با یوزر Administrator وارد شوید. بعد از ورود، از منوی سمت چپ به بخش Storage بروید. در این قسمت تمام اطلاعات مربوط به هاردها، کنترلر، درایوهای فیزیکی و Logical Drive ها نمایش داده می‌شود.

مسیر کلی به این صورت است:
Information → Storage
یا در نسخه‌های جدیدتر:
System Information → Storage → Smart Storage

براساس مدل سرور (مثلاً DL380 Gen9 یا DL380 Gen10) ظاهر پنل کمی متفاوت است، اما اصول کلی یکسان است.

در صفحه Storage اولین چیزی که باید ببینید، وضعیت کلی هر هارد است. هر هارد سه وضعیت اصلی می‌تواند داشته باشد:

  • OK
  • Predicted Failure
  • Failed

اگر وضعیت Predicted Failure را مشاهده کردید، یعنی هارد هنوز کار می‌کند اما کنترلر تخمین زده که در آینده نزدیک به مشکل می‌خورد. در این شرایط باید فوراً از دیتا بکاپ بگیرید و هارد را تعویض کنید.

از داخل همین صفحه، می‌توانید ظرفیت، مدل، سرعت چرخش (RPM)، شماره پارت و حتی میزان استفاده (Wear Level) را مشاهده کنید. Wear Level در SSDها اهمیت بیشتری دارد چون عمر آن‌ها بر اساس تعداد نوشتن‌هاست.

سلامت هارد سرور فقط به وضعیت خود دیسک وابسته نیست، بلکه RAID هم باید سالم باشد. کنترلرهای HP Smart Array در iLO وضعیت RAID را دقیقاً نمایش می‌دهند. در بخش Array Configuration باید موارد زیر را چک کنید:

  • وضعیت Logical Drive
  • وضعیت Array
  • وضعیت Rebuild
  • وجود Degraded RAID
  • وجود Array در حالت Rebuilding
  • وجود هاردهای Missing

اگر Logical Drive در حالت OK نباشد، یعنی یک یا چند دیسک دچار مشکل شده‌اند یا آرایه RAID در حالت حساس قرار دارد. اگر Rebuild در حال انجام باشد، به هیچ وجه سرور را ریستارت نکنید. همچنین باید دما و سرعت فن‌ها را چک کنید چون هنگام ریبیلد فشار زیادی به دیسک‌ها وارد می‌شود.

Smart یا Self-Monitoring ویژگی‌ایست که به صورت خودکار خطاهای هارد را ثبت می‌کند. در HP iLO می‌توانید وضعیت Smart هر هارد را به صورت جداگانه مشاهده کنید. خطاهای Smart معمولاً نشان‌دهنده شروع خرابی هستند.

مهم‌ترین خطاهای Smart که باید به آن‌ها حساس باشید:

  • Reallocated Sector Count
  • Pending Sector Count
  • Uncorrectable Error Count
  • Power-On Hours خیلی بالا
  • Abnormal Temperature

اگر یکی از این موارد در iLO با مقدار زیاد دیده شود، سلامت هارد سرور شما در خطر است و باید سریعاً اقدام کنید.

بررسی سلامت هارد سرور در HP iLO

دما یکی از مهم‌ترین عوامل خرابی هارد است. HP iLO دمای لحظه‌ای هر هارد را نمایش می‌دهد. دمای مناسب معمولاً بین 25 تا 45 درجه است. اگر دما از 50 درجه بالاتر باشد، احتمال خراب شدن هارد بسیار زیاد می‌شود.

در این حالت باید موارد زیر را بررسی کنید:

  • گردوغبار داخل کیس
  • مسدود شدن مسیر هوا
  • خرابی فن
  • باز بودن درب رک
  • فاصله کم بین سرورها در رک

در بسیاری از دیتاسنترهای کوچک، دما عامل اصلی کاهش سلامت هارد سرور است و فقط با تنظیم گردش هوا می‌توان عمر هارد را چند برابر کرد.

در HP iLO بخشی به نام IML Logs یا Integrated Management Log وجود دارد که یکی از مهم‌ترین منابع تشخیص خرابی هارد است. این لاگ‌ها شامل تمام رویدادهای مرتبط با هارد هستند، از جمله:

  • Disk Failure
  • Disk Predictive Failure
  • RAID Degraded
  • Physical Drive Missing
  • Drive Timeout
  • Controller Cache Error

اگر سلامت هارد سرور ضعیف باشد، معمولاً پیام‌های هشدار را در همین بخش می‌بینید. این گزارش‌ها بسیار دقیق هستند و حتی می‌توانند نشان‌دهنده مشکلاتی باشند که هنوز در سطح RAID ظاهر نشده‌اند.

اگر از VMware ESXi یا Hyper-V استفاده می‌کنید، ممکن است هارد در لایه سیستم‌عامل هیچ هشدار ندهد اما در iLO مشکل وجود داشته باشد. علت این است که سیستم‌عامل فقط Logical Drive را می‌بیند، ولی iLO وضعیت دیسک‌های فیزیکی را نشان می‌دهد. بنابراین، در محیط‌های مجازی، بررسی سلامت هارد سرور از طریق iLO اهمیت بیشتری دارد.

اگر بخواهید تست عمیق‌تری انجام دهید، می‌توانید از SSA یا Smart Storage Administrator استفاده کنید که معمولاً از طریق Intelligent Provisioning قابل اجراست. در این ابزار می‌توانید تست کامل سطح هاردها، وضعیت RAID و Smart را انجام دهید.

مراحل کلی:

  1. Restart
  2. ورود به Intelligent Provisioning
  3. انتخاب Smart Storage Administrator
  4. اجرای Diagnostic Test روی هارد

تست SSA معمولاً زمان‌بر است اما اطلاعات دقیقی ارائه می‌دهد.

یکی از بزرگ‌ترین مشکلات مدیران شبکه، تشخیص زودهنگام خرابی هارد است. iLO سه شاخص کلیدی برای تشخیص زودهنگام در اختیار شما قرار می‌دهد.
اول، هشدار Smart. این هشدار معمولاً چند روز یا چند هفته قبل از خرابی واقعی ظاهر می‌شود.
دوم، کند شدن عملکرد RAID هنگام Read/Write.
سوم، افزایش دما و سرعت چرخش فن‌ها.
اگر این سه مورد را هم‌زمان مشاهده کردید، حتی اگر وضعیت هارد OK باشد، بهتر است برای جلوگیری از آسیب، دیسک را تعویض کنید.

چند نشانه بسیار مهم وجود دارد که اگر در HP iLO یا لاگ‌های سیستم مشاهده کردید، باید فوراً اقدام کنید:

  • کند شدن ناگهانی عملکرد
  • پیغام RAID Degraded
  • تعداد زیاد Bad Sector
  • صدای غیرعادی هارد
  • افت سرعت هنگام بوت ماشین‌های مجازی

این موارد اگر نادیده گرفته شوند، می‌توانند منجر به Fail شدن کامل دیسک شوند.

iLO4
دارای رابط ساده‌تر، اما Smart Storage کامل
گزارش‌های کمتر نسبت به نسخه‌های جدیدتر

iLO5
جزئیات دقیق‌تر Smart Metrics
نمایش Wear Level SSD
نمایش اطلاعات بیشتر از کنترلر

iLO6
بسیار پیشرفته‌تر
دارای بخش مجزا برای Drive Health
نمایش Real-Time Performance
تحلیل هوشمند خطاهای Smart

هرچه نسخه iLO جدیدتر باشد، دقت بررسی سلامت هارد سرور بیشتر است.

سلامت هارد سرور یکی از حیاتی‌ترین موارد نگهداری سرورهاست و HP iLO به عنوان یک ابزار کامل و لحظه‌ای، بهترین روش برای بررسی وضعیت درایوها، کنترلر و RAID است. با استفاده از بخش‌های Storage، Smart، Temperature، IML Logs و SSA می‌توانید قبل از بروز خرابی، مشکلات را تشخیص دهید. توصیه می‌شود سلامت هارد سرور را حداقل ماهی یک‌بار بررسی کنید، به هشدارهای Smart حساس باشید و در صورت مشاهده Predicted Failure، فوراً هارد را تعویض کنید.

محصول با موفقیت به سبد خرید اضافه شد.
تماس با ما