چطور بفهمیم علت خاموش شدن سوئیچ سیسکو از قطع برق بوده یا نرم‌افزاری؟ (بررسی لاگ Boot و Crash Info)

علت خاموش شدن سوئیچ سیسکو از قطع برق بوده یا نرم‌افزاری؟

خاموش شدن ناگهانی سوئیچ سیسکو یکی از اتفاقات آزاردهنده در شبکه است که می‌تواند کل سیستم را مختل کند و باعث قطعی سرویس‌ها شود. در شبکه‌های سازمانی که سوئیچ‌های لایه ۲ و لایه ۳ مسئول توزیع ترافیک هستند، دانستن علت خاموشی برای جلوگیری از تکرار حادثه بسیار مهم است. در این مقاله بررسی می‌کنیم که چطور می‌توان تشخیص داد علت خاموش شدن سوئیچ از قطع برق و پاور بوده یا ناشی از یک مشکل نرم‌افزاری مثل کرش، باگ سیستم‌عامل یا ریست شدن توسط ادمین.

تشخیص علت دقیق خاموشی سوئیچ باعث می‌شود تیم شبکه بتواند تصمیم درستی برای پیشگیری بگیرد. اگر مشکل از برق یا پاور باشد باید منبع تغذیه بررسی و پایدارسازی شود. اگر مشکل نرم‌افزاری باشد باید نسخه سیستم‌عامل سوئیچ آپدیت شود یا کانفیگ‌ها اصلاح شوند. در غیر این صورت احتمال تکرار مشکل و افزایش زمان Downtime وجود دارد.

سوئیچ‌های سیسکو، میکروتیک و سایر برندهای معتبر ابزارهای عیب‌یابی داخلی دارند. مهم‌ترین ابزار در این زمینه لاگ‌های Boot و فایل‌های Crash Info هستند. این داده‌ها در حافظه سوئیچ ذخیره می‌شوند و به مدیر شبکه امکان می‌دهند زمان و دلیل ریست شدن دستگاه را تحلیل کند.

لاگ Boot در واقع گزارشی از زمان و نحوه راه‌اندازی دستگاه است. این لاگ‌ها نشان می‌دهند که سوئیچ به چه دلیلی آخرین بار روشن شده است. پیام‌هایی مثل System restarted by power-on یا Power cycle نشان می‌دهد که دستگاه بعد از قطع و وصل برق بوت شده است. در مقابل پیام‌هایی مثل System restarted by reload یا Reload command issued by console نشان می‌دهد که ادمین دستگاه را ریست کرده یا یک دستور نرم‌افزاری باعث راه‌اندازی مجدد شده است.

علت خاموش شدن سوئیچ سیسکو از قطع برق بوده یا نرم‌افزاری؟ بررسی لاگ Boot و Crash Info

فایل‌های Crash Info گزارشی از خطاهای نرم‌افزاری هستند که باعث کرش شدن سوئیچ شده‌اند. این فایل‌ها معمولاً شامل Stack Trace، وضعیت حافظه و علت احتمالی هستند. اگر علت خاموشی دستگاه یک باگ در IOS یا سیستم‌عامل باشد در این فایل‌ها ثبت می‌شود. بررسی این اطلاعات به تیم پشتیبانی کمک می‌کند تا تصمیم بگیرد نسخه نرم‌افزار را ارتقا دهد یا باگ را به سازنده گزارش کند.

برای تشخیص علت خاموش شدن سوئیچ باید مراحل زیر را طی کنید:

  1. اتصال به سوئیچ از طریق Console یا SSH
  2. اجرای دستور show version برای مشاهده uptime و دلیل آخرین Reload
  3. بررسی خروجی show logging برای دیدن پیام‌های syslog قبل از خاموشی
  4. مشاهده فایل‌های Crash Info با دستور dir crashinfo: و سپس more crashinfo:<filename>
  5. مقایسه زمان بوت با زمان‌های ثبت شده در مانیتورینگ شبکه

با این مراحل می‌توان تا حد زیادی مشخص کرد که مشکل از قطع برق، خرابی پاور یا یک خطای نرم‌افزاری بوده است.

در شبکه‌های بزرگ که چندین سوئیچ در لایه‌های مختلف وجود دارند، تشخیص سریع علت خاموشی اهمیت بالایی دارد. اگر علت خاموش شدن سوئیچ از قطع برق بوده باشد، باید بررسی شود که آیا UPS به درستی کار کرده است یا خیر. گاهی هم مشکل از کابل برق یا اتصالات رک است. اگر مشکل نرم‌افزاری باشد، باید بررسی شود که آیا این مشکل فقط در یک دستگاه اتفاق افتاده یا در کل شبکه مشترک است. این تحلیل کمک می‌کند تا اقدامات پیشگیرانه مثل به‌روزرسانی سیستم‌عامل، استفاده از پاور افزونه یا طراحی Redundant انجام شود.

گاهی خروجی دستور show version پیام‌هایی نشان می‌دهد که نیاز به تفسیر دارند. برای مثال:

  • System restarted by power-on → نشان‌دهنده قطع برق
  • System restarted by reload → نشان‌دهنده ریست نرم‌افزاری
  • System restarted by crash → نشان‌دهنده مشکل نرم‌افزاری و نیاز به بررسی Crash Info

با تحلیل این پیام‌ها می‌توان تصمیم گرفت که آیا نیاز به تعویض پاور یا ارتقای نرم‌افزار است.

یک نمونه کاربردی را بررسی کنیم. فرض کنید سوئیچ شما ناگهان خاموش شده و دوباره بالا آمده است. ابتدا با دستور زیر علت آخرین ریست را می‌بینیم:

show version | include reason

سپس با دستور زیر به سراغ Crash Info می‌رویم:

dir crashinfo:
more crashinfo:crashinfo_1

این فایل را بررسی می‌کنیم تا ببینیم چه خطایی ثبت شده است. اگر خطا مربوط به Memory Allocation یا CPU Exception باشد، احتمالاً یک باگ نرم‌افزاری باعث کرش شده است.

در میکروتیک نیز می‌توان از قسمت Log در Winbox یا دستور log print در ترمینال استفاده کرد تا ببینیم قبل از خاموشی چه رویدادی رخ داده است. اگر پیغام kernel failure یا watchdog restart دیده شود، مشکل نرم‌افزاری است.

پس از تشخیص علت، مهم است که اقدامات پیشگیرانه انجام دهید:

  • اگر مشکل از برق بوده است استفاده از UPS یا تعویض کابل برق
  • اگر مشکل نرم‌افزاری بوده ارتقا به آخرین نسخه سیستم‌عامل
  • فعال کردن مانیتورینگ Syslog برای ثبت رویدادها
  • پیکربندی SNMP Trap برای دریافت هشدار در زمان ریست شدن دستگاه

این اقدامات کمک می‌کند تا دفعات بعدی مشکل سریع‌تر شناسایی شود.

روش بررسی Boot Log سریع‌ترین راه تشخیص علت خاموشی است اما گاهی اطلاعات کافی ارائه نمی‌دهد. بررسی Crash Info دقیق‌تر است اما نیاز به دانش فنی بیشتری دارد. استفاده همزمان از هر دو روش بهترین نتیجه را می‌دهد و دید کامل‌تری نسبت به وضعیت سوئیچ فراهم می‌کند.

نوع پیام در لاگمعنیاقدام پیشنهادی
Power cycleقطع برق یا پاوربررسی UPS و کابل برق
Reload commandریست نرم‌افزاری توسط ادمینبررسی تغییرات اخیر
Watchdog timeoutخطای نرم‌افزاریارتقای سیستم‌عامل
Crash info generatedکرش نرم‌افزاریارسال لاگ به پشتیبانی سازنده
Environmental shutdownدمای بالا یا خطای پاوربررسی فن و پاور سوئیچ

این جدول به مدیر شبکه کمک می‌کند بدون صرف زمان طولانی علت خاموشی را تشخیص دهد.

چطور بفهمم سوئیچ به دلیل قطع برق خاموش شده است؟
با بررسی پیام Power cycle در خروجی show version.

آیا Crash Info همیشه تولید می‌شود؟
نه، فقط زمانی که سوئیچ دچار کرش نرم‌افزاری شود.

چطور Crash Info را ذخیره کنم؟
می‌توانید خروجی آن را با ترمینال ذخیره یا در یک فایل syslog جمع‌آوری کنید.

آیا باگ نرم‌افزاری بدون به‌روزرسانی دوباره رخ می‌دهد؟
بله، اگر نسخه IOS یا سیستم‌عامل قدیمی باشد احتمال تکرار خطا زیاد است.

چقدر طول می‌کشد تا علت خاموشی پیدا شود؟
اگر لاگ‌ها کامل باشند معمولاً در چند دقیقه می‌توان علت را تشخیص داد.

آیا UPS همیشه از خاموشی جلوگیری می‌کند؟
اگر ظرفیت کافی داشته باشد بله، در غیر این صورت با طولانی شدن قطعی برق سوئیچ خاموش می‌شود.

چه زمانی باید پاور سوئیچ تعویض شود؟
اگر چند بار پیام power failure در لاگ‌ها دیده شود.

آیا reboot دستی در لاگ ثبت می‌شود؟
بله، با عبارت reload command مشخص می‌شود.

آیا سوئیچ‌های لایه ۳ بیشتر کرش می‌کنند؟
نه لزوماً، اما به دلیل پیچیدگی بیشتر کانفیگ احتمال باگ نرم‌افزاری کمی بیشتر است.

آیا می‌توان لاگ‌ها را پاک کرد؟
بله اما توصیه نمی‌شود چون برای تحلیل مشکلات آینده مفید هستند.

تشخیص علت خاموش شدن سوئیچ با بررسی لاگ Boot و Crash Info یکی از مهم‌ترین وظایف تیم شبکه است. با تحلیل درست این داده‌ها می‌توان فهمید که خاموشی ناشی از مشکل سخت‌افزاری مثل قطع برق و پاور بوده یا خطای نرم‌افزاری باعث ریست شده است. اجرای درست مراحل بررسی، نگهداری لاگ‌ها و انجام اقدامات پیشگیرانه باعث افزایش پایداری شبکه و کاهش زمان قطعی خواهد شد.

محصول با موفقیت به سبد خرید اضافه شد.
تماس با ما