简介
本文档介绍如何排除因聚合服务路由器5500(ASR5500)中的EZprmSER_CheckError而触发的npumgr重新启动故障。
先决条件
要求
Cisco 建议您了解以下主题:
使用的组件
本文档不限于特定的软件和硬件版本。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。
问题
检测到网络处理单元(NPU)内存错误后,可能会导致NPUMGR分段故障。
Fatal Signal 11: Segmentation fault
PC: [0d8e2647/X] EZprmSER_CheckError()
Faulty address: 0x272e95d4
Signal from: kernel
Signal detail: address not mapped to object
Process: card=7 cpu=1 arch=X pid=16579 argv0=npumgr
Crash time: 2017-Oct-03+01:02:32 UTC
Recent errno: 115 Operation now in progress
Build_number: 67999
Stack (22120@0x0xffc3a000):
[0d8e2647/X] EZprmSER_CheckError() sp=0xffc3aaf0
[0d78c348/X] EZapiPrm_SERCheckError() sp=0xffc3ab14
[004f4ba5/X] aresEZevents_MemSErr_Handler() sp=0xffc3ad94
[004f688b/X] aresEZevents_Handler() sp=0xffc3f104
[0d77206c/X] EZdev_ISRTask() sp=0xffc3f138
[0c25eb02/X] sn_loop_run() sp=0xffc3f5e8
[0bf451c5/X] main() sp=0xffc3f658
在数据处理卡(DPC)和管理输入/输出(MIO)卡上都可以看到此重新启动。
导致重新启动的事件可总结如下:
- 在NPU上检测到内存错误(单位ECC错误)。
- NPU中断检测到内存错误的npumgr驱动程序。
- Npumgr尝试扫描内存中是否存在错误并从npudriver代码重新启动。
NPU将在NPU上发现卡的奇偶校验(或内存)错误时重新启动 — 这与npumgr任务重新启动时的节点反应类似。由于重新启动的触发器已知是观察到的内存错误的NPU中断,因此此重新启动被视为暂时硬件错误。
请注意,宇宙射线或静电放电可能导致位在内存中翻转 — 这正是ECC需要纠正的。
如果您在其中一个卡中遇到一个ECC错误,则实际上是预期事件。
如果一个卡在一个月内出现多个ECC错误,则怀疑该卡存在硬件问题。
解决方案
思科建议监控卡,如果在一个月内卡上出现类似问题,请更换。
在执行数据收集以调试此分段故障时,在快速npu重新启动期间触发事件以恢复NPU上的内存错误。
Cisco Bug ID CSCvu44031正在修复分段故障。