El conjunto de documentos para este producto aspira al uso de un lenguaje no discriminatorio. A los fines de esta documentación, "no discriminatorio" se refiere al lenguaje que no implica discriminación por motivos de edad, discapacidad, género, identidad de raza, identidad étnica, orientación sexual, nivel socioeconómico e interseccionalidad. Puede haber excepciones en la documentación debido al lenguaje que se encuentra ya en las interfaces de usuario del software del producto, el lenguaje utilizado en función de la documentación de la RFP o el lenguaje utilizado por un producto de terceros al que se hace referencia. Obtenga más información sobre cómo Cisco utiliza el lenguaje inclusivo.
Cisco ha traducido este documento combinando la traducción automática y los recursos humanos a fin de ofrecer a nuestros usuarios en todo el mundo contenido en su propio idioma. Tenga en cuenta que incluso la mejor traducción automática podría no ser tan precisa como la proporcionada por un traductor profesional. Cisco Systems, Inc. no asume ninguna responsabilidad por la precisión de estas traducciones y recomienda remitirse siempre al documento original escrito en inglés (insertar vínculo URL).
Este documento proporciona una breve explicación y soluciones para los problemas comunes de hardware y arquitectura de los switches Nexus de Cisco serie 7000 que ejecutan el software del sistema Cisco NX-OS.
Nota: El formato exacto del syslog y de los mensajes de error que este documento describe puede variar levemente. La variación depende de la versión de software que se ejecuta en Supervisor Engine.
La prueba de control de columna falla para el Supervisor Nexus 7000:
Nexus7000# show module internal exceptionlog module 5
...
System Errorcode : 0x418b0022 Spine control test failed
Error Type : Warning
PhyPortLayer : 0x0
Port(s) Affected : none
Error Description : Module 10 Spine Control Bus test Failed
...
11) SpineControlBus E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 1597800
Last test execution time ----> Mon May 27 21:57:17 2013
First test failure time -----> Sun Nov 20 00:30:55 2011
Last test failure time ------> Mon May 27 21:57:17 2013
Last test pass time ---------> Mon May 27 21:56:47 2013
Total failure count ---------> 33
Consecutive failure count ---> 1
Last failure reason ---------> Spine control test failed
Este problema está relacionado con el ID de bug de Cisco CSCuc72466. Consulte Preguntas frecuentes sobre Nexus 7000: ¿Cuál es la acción recomendada cuando falla la prueba SpineControlBus?.
Los errores NVRAM aparecen en los eventos de diagnóstico:
Nexus7000#show diagnostic events
1) Event:E_DEBUG, length:97, at 9664 usecs after Wed Dec 5 01:03:42 2012
[103] Event_ERROR: TestName->NVRAM TestingType->health monitoring module->5
Result->fail Reason->
#show diagnostic result module 5 test NVRAM detail
4) NVRAM-------------------------> E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 52596
Last test execution time ----> Wed Dec 5 01:03:41 2012
First test failure time -----> Tue Dec 4 23:28:45 2012
Last test failure time ------> Wed Dec 5 01:03:42 2012
Last test pass time ---------> Tue Dec 4 23:23:41 2012
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> Bad blocks found on nvram
Éste es un problema de hardware, una falla de Supervisor Engine o un problema transitorio.
Ingrese el comando show diagnostic output module 5 test NVRAM detail para ver los resultados del comando test.
Uno o todos ellos se ven en el Supervisor 2/Supervisor 2E:
DEVICE_TEST-2-COMPACT_FLASH_FAIL: Module 5 has failed test CompactFlash
20 times on device Compact Flash due to error The compact flash power test failed.
Test results: (. = Pass, F = Fail, I = Incomplete,
U = Untested, A = Abort, E = Error disabled)
7) CompactFlash E
Error code ------------------> DIAG TEST ERR DISABLE
Total run count -------------> 23302
Last test execution time ----> Sun Apr 13 10:07:30 2014
First test failure time -----> Sun Apr 13 00:37:41 2014
Last test failure time ------> Sun Apr 13 10:07:40 2014
Last test pass time ---------> Sun Apr 13 00:07:41 2014
Total failure count ---------> 20
Consecutive failure count ---> 20
Last failure reason ---------> The compact flash power test
failed
Next Execution time ---------> Sun Apr 13 10:37:30 2014
Causa raíz
Los supervisores Nexus 7000 de segunda generación se suministran con dos flash eUSB idénticos para obtener redundancia. Los parpadeos proporcionan un repositorio para bootflash, configuraciones y otra información pertinente. Estos dos parpadeos se reconfiguran como una matriz de matriz redundante de discos independientes (RAID) 1 que implementa la duplicación interna. Con la redundancia, un Supervisor puede funcionar con la pérdida de uno de los parpadeos pero no ambos.
Hay algunas instancias en el campo donde uno o ambos parpadeos son marcados como malos por el software RAID en un periodo de varios meses o años en servicio. Un reinicio/reinicio de la placa vuelve a descubrir que estos destellos fallidos están sanos en el siguiente arranque.
Complete estos pasos para verificar si se trata o no de un problema de hardware:
La tarjeta de línea informa una falla de diagnóstico debido a una falla de prueba de PortLoopback 10 veces consecutivamente:
DIAG_PORT_LB-2-PORTLOOPBACK_TEST_FAIL Module:16 Test:PortLoopback
failed 10 consecutive times. Faulty module:Module 16 affected ports:5,7
Error:Loopback test failed. Packets lost on the LC at the Queueing engine ASIC
MODULE-4-MOD_WARNING Module 16 (serial: XXXX) reported warning on
ports 16/5-16/5 (Ethernet) due to Loopback test failed.
Packets lost on the LC at the Queueing engine ASIC in device 78
(device error 0x41830059)
Causa raíz
Este es un mensaje de advertencia y en la mayoría de los casos indica un problema de hardware con el puerto.
Verifique el ID de bug Cisco CSCtn81109 y el ID de bug Cisco CSCti95293 primero, ya que podría ser un problema de software.
Vuelva a colocar el módulo primero para reiniciar la tarjeta y vuelva a ejecutar las pruebas de integridad del hardware de arranque. Si las pruebas de diagnóstico todavía muestran fallas para la misma tarjeta, reemplace la tarjeta.
Recargue la tarjeta en el momento oportuno y recopile los resultados de estos comandos:
Alternativamente, puede volver a ejecutar sólo esta prueba específica y no necesita recargar la tarjeta. Este ejemplo muestra el módulo 16:
show diagnostic result module 16
diagnostic clear result module all
(config)# no diagnostic monitor module 16 test 5
(config)# diagnostic monitor module 16 test 5
diagnostic start module 16 test 5
show diagnostic result module 16 test 5
Estos errores aparecen y existe una posible recarga del módulo:
2013 Mar 27 00:40:23 DC3-7000-PRODD2-A23 MODULE-4-MOD_WARNING
Module 9 (serial: XXX) reported warning on ports 9/1-9/3 (Unknown)
due to BE2 Arbiter experienced an error in device 65 (device error 0xc410f613)
Causa raíz
Se trata de una falla de hardware causada por errores de paridad o problemas de hardware en la tarjeta secundaria.
Defecto de software conocido adicional
Id. de error de Cisco CSCtb98876
Estos errores aparecen en el módulo:
%MODULE-4-MOD_WARNING: Module # (Serial number: XXXX) reported warning
Ethernet#/# due to chico serdes sync loss in device DEV_SKYTRAIN
(device error 0xc9003600)
Causa raíz
Estos errores indican que hay un problema de pérdida de sincronización entre el módulo # y el Xbar/ASIC. En la mayoría de los casos, la causa es una falla de hardware del módulo.
Si su versión de Cisco NS-OX es anterior a la 6.1(4) y el mensaje no aparece de forma continua, puede verse afectada por el ID de bug de Cisco CSCud91672. La causa del defecto es que la configuración de los servidores NX-OS es diferente de la configuración de diagnóstico en los dos canales entre SKT <—>SAC.
Recopile el resultado de estos comandos:
Actualice el switch a la versión 6.1(4) o posterior de NS-OX para aislar la causa del defecto.
Realice esta prueba para confirmar si la tarjeta es defectuosa en lugar de la ranura xbar o del chasis:
El módulo N7K-F248XP-25 falla en las pruebas PrimaryBootROM y SecondaryBootROM:
show module internal exceptionlog module 1 | i Error|xception
********* Exception info for module 1 ********
exception information --- exception instance 1 ----
Error Description : Secondary BootROM test failed
exception information --- exception instance 2 ----
Error Description : Primary BootROM test failed
Causa raíz
Esto suele verse debido a la corrupción del archivo BIOS o a la falla de hardware de la tarjeta de línea.
El ID de bug Cisco CSCuf82089 agrega código para mostrar información más descriptiva sobre tales fallas para un mejor diagnóstico. Por ejemplo, muestra un componente fallido en lugar de un valor nulo actual.
En algunos casos, el problema es causado por la corrupción del BIOS en el módulo. Ingrese el comando install module X bios forced para resolver esto. Tenga en cuenta que este comando puede afectar potencialmente al servicio. La recomendación es ejecutarla sólo durante una ventana de mantenimiento.
Complete estos pasos para resolver el problema:
Nexus7000# install module 1 bios forced
Warning: Installing Bios forcefully...!
Warning: Please do not remove or power off the module at this time
Upgrading primary bios
Started bios programming .... please wait
[# 0% ]
BIOS install failed for module 1, Error=0x40710027(BIOS flash-type verify failed)
BIOS is OK ...
Please try the command again...
Este error se ve en la plataforma:
%PLATFORM-4-MOD_TEMPFAIL: Module-2 temperature sensor 7 failed
Causa raíz
Este es un problema intermitente con el bloque de temperatura/voltaje en el ASIC bajo ciertas condiciones debido a la temporización interna del ASIC. El Id. de bug Cisco CSCtw79052 describe la causa conocida de este problema.
Este es un problema de temporización entre el ASIC que atrapa la temperatura internamente y el software que muestra el bit válido. El problema es que puede alcanzar cualquiera de las 12 instancias de Clipper. No hay un detonante particular para este problema y es intermitente. Este problema no afecta al servicio y surge porque la lógica de lectura de temperatura tiene un problema que requiere más reintentos en el controlador.
Recopile el resultado de estos comandos y verifique con el ID de bug de Cisco CSCtw79052:
El C7010-FAB-1 se encuentra en estado apagado y estos errores aparecen:
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is CLOSE
%PLATFORM-3-EJECTOR_STAT_CHANGED: Ejectors' status in slot 13 has changed,
Left Ejector is OPEN, Right Ejector is OPEN
%PLATFORM-2-XBAR_REMOVE: Xbar 3 removed (Serial number XXX)
Xbar Ports Module-Type Model Status
--- ----- ----------------------------------- ------------------ ----------
3 0 Fabric Module N/A powered-dn
?
Xbar Power-Status Reason
--- ------------ ---------------------------
3 powered-dn failure(powered-down) since maximum number of bringups were exceeded
Alternativamente, aparecen errores ASIC xbar:
%MODULE-4-MOD_WARNING: Module 15 (serial: XXX) reported warning due to
X-bar Interface ASIC Error in device 70 (device error 0xc4600248)
%OC_USD-SLOT15-2-RF_CRC: OC2 received packets with CRC error from MOD 15
through XBAR slot 3/inst 2
Causa raíz
Este problema se debe a un módulo xbar instalado incorrectamente o a una ranura de chasis defectuosa.
Se observa uno o más de estos síntomas de fallo del ventilador:
%PLATFORM-5-FAN_STATUS: Fan module 3 (Serial number XXX)
Fan3(fab_fan1) current-status is FAN_FAIL
Nexus 7000#show environment fan
Fan3(fab_fan1) N7K-C7010-FAN-F 1.1 Failure (Failed Fanlets: 2 6 7 8 9 10 14 15 )
Fan4(fab_fan2) N7K-C7010-FAN-F 1.1 Ok
...
#show hardware
----------------------------------
Chassis has 4 Fan slots
----------------------------------
Fan3(fab_fan1) failed
Model number is N7K-C7010-FAN-F
...
Causa raíz
En la mayoría de los casos, se trata de una falla en la ranura del ventilador o del chasis.
Se observan alarmas por los cambios de capacidad, a veces con mucha frecuencia.
%PLATFORM-2-PS_CAPACITY_CHANGE: Power supply PS2 changed its capacity.
possibly due to On/Off or power cable removal/
2013 Oct 17 17:06:40 ... last message repeated 14 times
Causa raíz
Este problema se debe a un cable de alimentación defectuoso o desconectado o a una falla en la fuente de alimentación.
Verifique la salida del comando show env power detail e investigue el estado de la fuente de alimentación. En esta salida de ejemplo, ambos acordes están conectados pero el segundo muestra solamente una capacidad de 1200 W en lugar de 3000 W y debe ser para 220 V CA en el N7K-AC-6.0KW. La fuente de alimentación ha probado correctamente. Sustituya la fuente de alimentación.
PS_2 total capacity: 4200 W Voltage:50Vchord 1 capacity: 3000 W chord 1
connected to 110v AC chord 2 capacity: 1200 W chord 2 connected to 220v AC
Esta alerta aparece en la plataforma:
%PLATFORM-5-PS_STATUS: PowerSupply 3 current-status is PS_FAIL
%PLATFORM-2-PS_FAIL: Power supply 3 failed or shut down (Serial number xxxxx)
Causa raíz
Esta alerta se debe a un cable de alimentación defectuoso o desconectado o a una falla en la fuente de alimentación.
Referencias
Redundancia de fuente de alimentación de Cisco Nexus serie 7000
Estas alarmas aparecen para la fuente de alimentación FEX:
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Module 1: Runtime diag detected major event:
Voltage failure on power supply: 1
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 System minor alarm on power
supply 1: failed
%SATCTRL-FEX104-2-SOHMS_DIAG_ERROR: FEX-104 Recovered: System minor alarm
on power supply 1: failed
Compruebe si hay problemas de hardware y de alimentación. Si tiene un problema de software, los mensajes de error continúan incluso después de intercambiar hardware.
Los métodos para resolver estos problemas incluyen:
Revise y conteste estas preguntas para ayudar a definir las circunstancias del fallo:
Recopile la salida de estos comandos para investigar las fallas:
Defecto de software conocido
Id. de bug Cisco CSCtr77620
Las fuentes de alimentación de emergencia N7K-AC-6.0KW se informan como Fallo / Cierre, pero el switch funciona correctamente y se observa una salida real distinta a 0 para la fuente de alimentación con problema.
Causa raíz
En una fuente con ambas entradas activas, cuando se desconecta, se vuelve a conectar y se vuelve a desconectar una entrada en un plazo de 1,5 segundos, la fuente puede bloquear una falla de voltaje bajo y NX-OS puede señalar la fuente de alimentación como defectuosa. En otra variación, en una fuente con dos entradas, elimine una entrada y espere de 20 a 30 segundos. El suministro puede configurar de forma intermitente la alarma de falla interna y NX-OS informa que la fuente de alimentación ha fallado.
El ID de bug Cisco CSCty78612 realiza cambios en el firmware de las unidades de fuente de alimentación para solucionar el problema.
El ID de bug Cisco CSCuc86262 agrega una mejora de software para recuperarse de estas falsas fallas. NX-OS supervisa ahora de forma autónoma el estado de la unidad de fuente de alimentación (PSU) y lo modifica según el estado adecuado si el estado informado difiere del estado real.
Ingrese el comando show env power detail y verifique el resultado real para verificar la falla falsa:
Nexus7000# show env power
Power Supply:
Voltage: 50 Volts
Power Actual Total
Supply Model Output Capacity Status
(Watts ) (Watts )
------- ------------------- ----------- ----------- --------------
1 N7K-AC-6.0KW 0 W 0 W Shutdown
2 N7K-AC-6.0KW 3888 W 6000 W Fail/Shut
El estado Fail/Close erróneo se borra cuando se apaga/enciende la PSU.
El Id. de error de Cisco CSCty78612 realiza cambios en el firmware de la PSU. El software se ha mejorado a través del ID de bug de Cisco CSCuc86262 que se recupera de notificaciones de falla/cierre falsas con la corrección de los bits falsos si la fuente de alimentación en tiempo de ejecución funciona normalmente. NX-OS Versiones 5.2(9), 6.1(3), 6.2(2) y posteriores presentan la mejora que evita una RMA.
Parte de los paquetes de gran tamaño se descartan cuando hay una alta velocidad de paquetes IP con una longitud mayor que la MTU configurada en la interfaz de salida del paquete.
Causa raíz
Debe ocurrir lo siguiente. Cuando el sistema recibe un paquete IP con una longitud mayor que la MTU configurada en la interfaz de salida del paquete, el sistema envía este paquete al plano de control, que se encarga de la fragmentación. En NX-OS 4.1.3 y versiones posteriores, se aplica un limitador de velocidad a dichos paquetes perforados. Esto lo limita a un máximo de 500 pps de forma predeterminada.
Este es un defecto de software conocido en Cisco bug ID CSCsu01048.
Aparece el error "USER-2-SYSTEM_MSG FIPS self-test failure in DCOS_rand - netstack".
Causa raíz
Siempre que se genera un número aleatorio, se ejecuta la prueba automática del generador de números aleatorios condicionales (CRNG). Si la prueba falla, se registra un mensaje de syslog. Esto se hace de acuerdo con la recomendación de las Normas Federales de Procesamiento de la Información (FIPS). Sin embargo, el impacto de esto es inofensivo ya que el número aleatorio se genera de nuevo.
Hay dos tipos de generadores de números aleatorios (RNG) en NX-OS:
Según FIPS, todos los RNG deben implementar la prueba condicional del generador de números aleatorios (CRNGT). La prueba compara el número aleatorio generado con el anterior. Si los números son iguales, se genera un mensaje syslog y se genera otro número aleatorio.
La prueba se ejecuta para garantizar que el número aleatorio sea único. No hay impacto funcional al regenerar el número.
Este mensaje es inofensivo para el funcionamiento del sistema. Desde Cisco NX-OS versión 5.2x y posteriores, la gravedad del mensaje se reduce de 2, por lo que ya no se ve con la configuración de registro predeterminada. Este registro se produce como parte de las autopruebas internas de NX-OS para diversas funciones en el switch.
Este es un defecto de software conocido en Cisco bug ID CSCtn70083.
Revisión | Fecha de publicación | Comentarios |
---|---|---|
1.0 |
15-May-2015 |
Versión inicial |