خاموش شدن ناگهانی سوئیچ سیسکو یکی از اتفاقات آزاردهنده در شبکه است که میتواند کل سیستم را مختل کند و باعث قطعی سرویسها شود. در شبکههای سازمانی که سوئیچهای لایه ۲ و لایه ۳ مسئول توزیع ترافیک هستند، دانستن علت خاموشی برای جلوگیری از تکرار حادثه بسیار مهم است. در این مقاله بررسی میکنیم که چطور میتوان تشخیص داد علت خاموش شدن سوئیچ از قطع برق و پاور بوده یا ناشی از یک مشکل نرمافزاری مثل کرش، باگ سیستمعامل یا ریست شدن توسط ادمین.
تشخیص علت دقیق خاموشی سوئیچ باعث میشود تیم شبکه بتواند تصمیم درستی برای پیشگیری بگیرد. اگر مشکل از برق یا پاور باشد باید منبع تغذیه بررسی و پایدارسازی شود. اگر مشکل نرمافزاری باشد باید نسخه سیستمعامل سوئیچ آپدیت شود یا کانفیگها اصلاح شوند. در غیر این صورت احتمال تکرار مشکل و افزایش زمان Downtime وجود دارد.
سوئیچهای سیسکو، میکروتیک و سایر برندهای معتبر ابزارهای عیبیابی داخلی دارند. مهمترین ابزار در این زمینه لاگهای Boot و فایلهای Crash Info هستند. این دادهها در حافظه سوئیچ ذخیره میشوند و به مدیر شبکه امکان میدهند زمان و دلیل ریست شدن دستگاه را تحلیل کند.
لاگ Boot در واقع گزارشی از زمان و نحوه راهاندازی دستگاه است. این لاگها نشان میدهند که سوئیچ به چه دلیلی آخرین بار روشن شده است. پیامهایی مثل System restarted by power-on یا Power cycle نشان میدهد که دستگاه بعد از قطع و وصل برق بوت شده است. در مقابل پیامهایی مثل System restarted by reload یا Reload command issued by console نشان میدهد که ادمین دستگاه را ریست کرده یا یک دستور نرمافزاری باعث راهاندازی مجدد شده است.

فایلهای Crash Info گزارشی از خطاهای نرمافزاری هستند که باعث کرش شدن سوئیچ شدهاند. این فایلها معمولاً شامل Stack Trace، وضعیت حافظه و علت احتمالی هستند. اگر علت خاموشی دستگاه یک باگ در IOS یا سیستمعامل باشد در این فایلها ثبت میشود. بررسی این اطلاعات به تیم پشتیبانی کمک میکند تا تصمیم بگیرد نسخه نرمافزار را ارتقا دهد یا باگ را به سازنده گزارش کند.
برای تشخیص علت خاموش شدن سوئیچ باید مراحل زیر را طی کنید:
با این مراحل میتوان تا حد زیادی مشخص کرد که مشکل از قطع برق، خرابی پاور یا یک خطای نرمافزاری بوده است.
در شبکههای بزرگ که چندین سوئیچ در لایههای مختلف وجود دارند، تشخیص سریع علت خاموشی اهمیت بالایی دارد. اگر علت خاموش شدن سوئیچ از قطع برق بوده باشد، باید بررسی شود که آیا UPS به درستی کار کرده است یا خیر. گاهی هم مشکل از کابل برق یا اتصالات رک است. اگر مشکل نرمافزاری باشد، باید بررسی شود که آیا این مشکل فقط در یک دستگاه اتفاق افتاده یا در کل شبکه مشترک است. این تحلیل کمک میکند تا اقدامات پیشگیرانه مثل بهروزرسانی سیستمعامل، استفاده از پاور افزونه یا طراحی Redundant انجام شود.
گاهی خروجی دستور show version پیامهایی نشان میدهد که نیاز به تفسیر دارند. برای مثال:
با تحلیل این پیامها میتوان تصمیم گرفت که آیا نیاز به تعویض پاور یا ارتقای نرمافزار است.
یک نمونه کاربردی را بررسی کنیم. فرض کنید سوئیچ شما ناگهان خاموش شده و دوباره بالا آمده است. ابتدا با دستور زیر علت آخرین ریست را میبینیم:
show version | include reason
سپس با دستور زیر به سراغ Crash Info میرویم:
dir crashinfo:
more crashinfo:crashinfo_1
این فایل را بررسی میکنیم تا ببینیم چه خطایی ثبت شده است. اگر خطا مربوط به Memory Allocation یا CPU Exception باشد، احتمالاً یک باگ نرمافزاری باعث کرش شده است.
در میکروتیک نیز میتوان از قسمت Log در Winbox یا دستور log print در ترمینال استفاده کرد تا ببینیم قبل از خاموشی چه رویدادی رخ داده است. اگر پیغام kernel failure یا watchdog restart دیده شود، مشکل نرمافزاری است.
پس از تشخیص علت، مهم است که اقدامات پیشگیرانه انجام دهید:
این اقدامات کمک میکند تا دفعات بعدی مشکل سریعتر شناسایی شود.
روش بررسی Boot Log سریعترین راه تشخیص علت خاموشی است اما گاهی اطلاعات کافی ارائه نمیدهد. بررسی Crash Info دقیقتر است اما نیاز به دانش فنی بیشتری دارد. استفاده همزمان از هر دو روش بهترین نتیجه را میدهد و دید کاملتری نسبت به وضعیت سوئیچ فراهم میکند.
| نوع پیام در لاگ | معنی | اقدام پیشنهادی |
|---|---|---|
| Power cycle | قطع برق یا پاور | بررسی UPS و کابل برق |
| Reload command | ریست نرمافزاری توسط ادمین | بررسی تغییرات اخیر |
| Watchdog timeout | خطای نرمافزاری | ارتقای سیستمعامل |
| Crash info generated | کرش نرمافزاری | ارسال لاگ به پشتیبانی سازنده |
| Environmental shutdown | دمای بالا یا خطای پاور | بررسی فن و پاور سوئیچ |
این جدول به مدیر شبکه کمک میکند بدون صرف زمان طولانی علت خاموشی را تشخیص دهد.
چطور بفهمم سوئیچ به دلیل قطع برق خاموش شده است؟
با بررسی پیام Power cycle در خروجی show version.
آیا Crash Info همیشه تولید میشود؟
نه، فقط زمانی که سوئیچ دچار کرش نرمافزاری شود.
چطور Crash Info را ذخیره کنم؟
میتوانید خروجی آن را با ترمینال ذخیره یا در یک فایل syslog جمعآوری کنید.
آیا باگ نرمافزاری بدون بهروزرسانی دوباره رخ میدهد؟
بله، اگر نسخه IOS یا سیستمعامل قدیمی باشد احتمال تکرار خطا زیاد است.
چقدر طول میکشد تا علت خاموشی پیدا شود؟
اگر لاگها کامل باشند معمولاً در چند دقیقه میتوان علت را تشخیص داد.
آیا UPS همیشه از خاموشی جلوگیری میکند؟
اگر ظرفیت کافی داشته باشد بله، در غیر این صورت با طولانی شدن قطعی برق سوئیچ خاموش میشود.
چه زمانی باید پاور سوئیچ تعویض شود؟
اگر چند بار پیام power failure در لاگها دیده شود.
آیا reboot دستی در لاگ ثبت میشود؟
بله، با عبارت reload command مشخص میشود.
آیا سوئیچهای لایه ۳ بیشتر کرش میکنند؟
نه لزوماً، اما به دلیل پیچیدگی بیشتر کانفیگ احتمال باگ نرمافزاری کمی بیشتر است.
آیا میتوان لاگها را پاک کرد؟
بله اما توصیه نمیشود چون برای تحلیل مشکلات آینده مفید هستند.
تشخیص علت خاموش شدن سوئیچ با بررسی لاگ Boot و Crash Info یکی از مهمترین وظایف تیم شبکه است. با تحلیل درست این دادهها میتوان فهمید که خاموشی ناشی از مشکل سختافزاری مثل قطع برق و پاور بوده یا خطای نرمافزاری باعث ریست شده است. اجرای درست مراحل بررسی، نگهداری لاگها و انجام اقدامات پیشگیرانه باعث افزایش پایداری شبکه و کاهش زمان قطعی خواهد شد.