المقدمة
يوضح هذا المستند كيفية أستكشاف أخطاء إعادة التشغيل وإصلاحها، والتي يتم تشغيلها بسبب EZprmSER_CheckError في موجه خدمات التجميع 5500 (ASR5500).
المتطلبات الأساسية
المتطلبات
توصي Cisco بأن تكون لديك معرفة بالمواضيع التالية:
- معرفة الأجهزة ب ASR5500
- StarOS
المكونات المستخدمة
لا يقتصر هذا المستند على إصدارات برامج ومكونات مادية معينة.
تم إنشاء المعلومات الواردة في هذا المستند من الأجهزة الموجودة في بيئة معملية خاصة. بدأت جميع الأجهزة المُستخدمة في هذا المستند بتكوين ممسوح (افتراضي). إذا كانت شبكتك قيد التشغيل، فتأكد من فهمك للتأثير المحتمل لأي أمر.
المشكلة
بعد اكتشاف خطأ في ذاكرة وحدة معالجة الشبكة (NPU)، قد يؤدي ذلك إلى حدوث خطأ في تجزئة NPUMGR مع هذا التوقيع.
Fatal Signal 11: Segmentation fault
PC: [0d8e2647/X] EZprmSER_CheckError()
Faulty address: 0x272e95d4
Signal from: kernel
Signal detail: address not mapped to object
Process: card=7 cpu=1 arch=X pid=16579 argv0=npumgr
Crash time: 2017-Oct-03+01:02:32 UTC
Recent errno: 115 Operation now in progress
Build_number: 67999
Stack (22120@0x0xffc3a000):
[0d8e2647/X] EZprmSER_CheckError() sp=0xffc3aaf0
[0d78c348/X] EZapiPrm_SERCheckError() sp=0xffc3ab14
[004f4ba5/X] aresEZevents_MemSErr_Handler() sp=0xffc3ad94
[004f688b/X] aresEZevents_Handler() sp=0xffc3f104
[0d77206c/X] EZdev_ISRTask() sp=0xffc3f138
[0c25eb02/X] sn_loop_run() sp=0xffc3f5e8
[0bf451c5/X] main() sp=0xffc3f658
ويمكن ملاحظة إعادة التشغيل هذه على كل من بطاقات معالجة البيانات (DPC) وبطاقات الإدخال/الإخراج للإدارة (MIO).
يمكن تلخيص الأحداث التي أدت إلى إعادة التشغيل كما يلي:
- تم الكشف عن خطأ ذاكرة (خطأ ECC أحادي البت) على وحدة المعالجة المركزية.
- تقوم NPU بمقاطعة برنامج التشغيل غير المباشر الذي تم اكتشاف خطأ في الذاكرة.
- يحاول Npumgr فحص الذاكرة بحثا عن الخطأ ثم إعادة التشغيل من رمز Npudriver.
ستتم إعادة تشغيل وحدة المعالجة المركزية (NPU) في أي وقت يتم ملاحظة خطأ التماثل (أو الذاكرة) على وحدة المعالجة المركزية (NPU) لبطاقة - وهذا مماثل لتفاعل العقدة عند إعادة تشغيل مهمة NPUMGR أيضا. بما أن مشغل إعادة التشغيل معروف بأنه مقاطعة NPU لخطأ الذاكرة الملاحظ، فإن إعادة التشغيل هذه تعتبر خطأ مؤقت في الجهاز.
لاحظ أن الأشعة الكونية أو التفريغ الإلكتروستاتيكي يمكن أن يتسبب في تقلب شيء ما في الذاكرة - هذا ما يوجد لدى ECC لتصحيحه.
إذا واجهت خطأ ECC واحد في إحدى البطاقات، فإنه في الواقع حدث متوقع.
إذا كانت البطاقة تحتوي على أكثر من خطأ ECC واحد في غضون شهر، فيشتبه في أن البطاقة بها مشكلة في الجهاز.
الحل
cisco يوصي أن يراقب البطاقة، واستبدل إن يرى إصدار مماثل على البطاقة في شهر.
يتم تشغيل الحدث أثناء إعادة التشغيل السريع لخطأ الذاكرة في NPU أثناء إجراء مجموعة بيانات لتصحيح خطأ التجزئة هذا.
يقوم معرف تصحيح الأخطاء من Cisco CSCvu44031 بإصلاح خطأ التقسيم.