Introducción
Este documento describe un problema encontrado en los puertos Fibre Channel (FC) del Cisco Multilayer Data Switch (MDS) serie 9000 y proporciona una solución al problema.
Problema
Se muestra este registro de eventos de enlace:
*************** Port Config Link Events Log ***************
---- ------ ----- ----- ------
Time PortNo Speed Event Reason
---- ------ ----- ----- ------
...
Jul 28 00:46:39 2012 00670297 fc11/25 --- DOWN LR Rcvd B2B
El mensaje LR Rcvd B2B (o Link failure Link Reset failed nonempty recv queue) indica que el dispositivo conectado al puerto transmite un Link Reset (LR) al MDS, pero el MDS no responde con una Link Reset Response (LRR) debido a la congestión interna en el puerto. El puerto tiene paquetes en cola que se reciben del dispositivo conectado, pero el MDS no puede entregarlos al puerto de salida apropiado. Dado que todavía están en cola en el puerto de ingreso, el MDS no puede enviar un LRR y el link falla.
Estos mensajes de error acompañan al registro de eventos anterior:
%PORT-2-IF_DOWN_LINK_FAILURE: %$VSAN 93%$
Interface fc11/25 is down (Link failure)
%PORT-5-IF_DOWN_LINK_FAILURE: %$VSAN 100%$
Interface fc5/32 is down (Link failure Link Reset
failed nonempty recv queue)
Nota: Este escenario se da bajo la suposición de que el número de créditos de memoria intermedia que el MDS otorga al dispositivo FC es tres, y que los paquetes del dispositivo FC se conmutan al puerto FC de salida.
MDS
FC Port FC Port
(Egress) Arbiter (Ingress) FC device
-------- ------- --------- ---------
1) <------- FC packet 1
2) <--- Grant Request
3) Grant------------>
4) <---------------FC packet 1
5) R_Rdy--------> Tx B2B=3
6) <------- FC packet 2 Tx B2B=2
7) <---- Grant Request
8) <------- FC packet 3 Tx B2B=1
9) <---- Grant Request
10) <------- FC packet 4 Tx B2B=0
11) <---- Grant Request
12) Time lapses - Variable depending on attached HBA type
13) <--------Link Reset(LR)
14) Start 90ms "LR Rcvd B2B" timer
15) "LR Rcvd B2B" timer expires
16) <--------NOS-------->
Explicación
Esta sección explica el resultado anterior:
- El dispositivo FC transmite en un paquete FC al puerto de ingreso, destinado al puerto de egreso.
- El puerto de la tarjeta de línea de ingreso (LC) MDS determina el índice de destino (DI) y transmite la solicitud de otorgamiento al árbitro (Bellagio2) en el supervisor activo.
- El árbitro devuelve un Grant al puerto de ingreso, que le da permiso para transmitir el paquete FC 1 al puerto de egreso a través de la XBAR.
- La LC de ingreso transmite el paquete FC 1 a través de XBAR al puerto de egreso. Esto hace que el búfer de ingreso esté disponible.
- El puerto de ingreso transmite un R_RDY al dispositivo FC, que repone el crédito.
Nota: Los primeros cinco pasos son típicos cuando no hay congestión. Suponga en este punto que las colas de puerto de salida están llenas y no pueden recibir más paquetes.
- El dispositivo FC transmite el paquete FC 2 al puerto de ingreso, destinado al puerto de egreso.
- El puerto LC de ingreso de MDS determina el ID y transmite la solicitud de otorgamiento al árbitro (Bellagio2) en el supervisor activo.
- El dispositivo FC transmite el paquete FC 3 al puerto de ingreso, destinado al puerto de egreso.
- El puerto LC de ingreso de MDS determina el ID y transmite la solicitud de otorgamiento al árbitro (Bellagio2) en el supervisor activo.
- El dispositivo FC transmite el paquete FC 4 al puerto de ingreso, destinado al puerto de egreso.
- El puerto LC de ingreso de MDS determina el ID y transmite la solicitud de otorgamiento al árbitro (Bellagio2) en el supervisor activo.
- Intervalos de tiempo, que varían en función del tipo de HBA conectado.
- Después de algún tiempo en Tx B2B=0, el dispositivo FC inicia la recuperación de pérdida de crédito y transmite un Link Reset (LR).
- Cuando el puerto de ingreso recibe el LR, verifica sus búferes de ingreso y determina que hay al menos un paquete en cola. Luego inicia un temporizador B2B LR Rcvd de 90 ms.
- Si se reciben las subvenciones y los tres paquetes FC se transmiten al puerto de salida, se cancela el temporizador LR Rcvd B2B y se devuelve una respuesta de restablecimiento de link (LRR) al dispositivo FC. En este caso, sin embargo, el puerto de salida permanece congestionado y los tres paquetes FC permanecen en cola en el puerto de ingreso. El temporizador LR Rcvd B2B caduca y un LRR no se transmite de vuelta al dispositivo FC.
- Tanto el puerto de ingreso como el dispositivo FC inician una falla de link a través de la transmisión de una secuencia no operativa.
Solución
Si el link falló con un LR Rcvd B2B o un mensaje de Link Failure Link Reset failed nonempty recv queue, entonces el puerto que falló no es la causa del drenaje lento y sólo fue afectado por el puerto lento/atascado. Para identificar el puerto lento/atascado que causó la falla del link, complete estos pasos:
- Determine si hay más de un link que falla debido al problema mencionado anteriormente. Si falla más de un link aproximadamente al mismo tiempo, el problema puede surgir porque todos los puertos intentan transmitir paquetes a un puerto de salida común.
- Verifique la base de datos de zonificación VSAN para ver con qué dispositivos está zonificado el dispositivo FC adyacente. Asigne estos a los puertos E de salida o F locales. Para mapear a egress E, los puertos utilizan el comando show fspf internal route vsan <vsan> domain <dom>. Para mapear a los puertos F locales, utilice el comando show flogi database vsan <vsan>. Si hay más de un link que falla con el mensaje LR Rcvd B2B, combine los puertos egress E o local F encontrados y verifique si hay solapamientos. Las solapamientos son causas probables de puertos lentos/atascados.
- Compruebe los puertos del paso 2 para ver si hay indicios de drenaje lento. Pueden citarse como ejemplo:
- Pérdida de crédito (AK_FCP_CNTR_CREDIT_LOSS / FCP_SW_CNTR_CREDIT_LOSS)
- 100 ms Tx B2B Cero (AK_FCP_CNTR_TX_WT_AVG_B2B_ZERO / FCP_SW_CNTR_TX_WT_AVG_B2B_ZERO)
- Descartes de tiempo de espera (AK_FCP_CNTR_LAF_TOTAL_TIMEOUT_FRAMES / THB_TMM_TOLB_TIMEOUT_DROP_CNT / F16_TMM_TOLB_TIMEOUT_DROP_CNT)
- Si determina que el puerto lento es un puerto E de salida, continúe con la solución de problemas de drenaje lento en el switch adyacente indicado por la interfaz de salto siguiente FSPF.
- Si determina que el puerto lento/atascado es un link FCIP o un canal de puerto, verifique los links FCIP para detectar señales de retransmisiones IP u otros problemas, como fallas de link. Ingrese el comando show ips stats all para verificar si hay problemas.
Opciones de Configuración
Estas son dos opciones de configuración del sistema posibles:
Información Relacionada