Introdução
Este documento descreve a causa dos Tempos limite do Watchdog em roteadores Cisco e explica como resolvê-los.
Pré-requisitos
Requisitos
Os leitores deste documento devem estar cientes destes tópicos:
Componentes Utilizados
As informações neste documento são baseadas nestas versões de software e hardware:
Observação: este documento não se aplica aos switches Cisco Catalyst ou plataformas MGX, mas apenas aos roteadores Cisco.
As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a sua rede estiver ativa, certifique-se de que entende o impacto potencial de qualquer comando.
Conventions
Para obter mais informações sobre convenções de documento, consulte as Convenções de dicas técnicas Cisco.
Identificar Tempos Limite do Watchdog
Os processadores Cisco possuem cronômetros que protegem contra determinados tipos de suspensões. A CPU reinicia periodicamente um cronômetro de vigilante. O cronômetro de vigilante basicamente controla o tempo de cada processo. Se o cronômetro não for reiniciado, uma armadilha ocorre. Se um processo for mais longo do que deve ser, o temporizador watchdog é usado para escapar desse processo.
Isso só ocorre se algo der errado. Com base na situação, o roteador pode se redefinir ou se recuperar da falha e gerar uma mensagem de erro nos logs de console, que se parece com esta:
*** Watch Dog Timeout ***
PC = 0x6022536C, SP = 0x00000000
or
%SYS-2-WATCHDOG: Process aborted on watchdog timeout, process = Exec
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
Se você não desligar e religar o roteador ou recarregá-lo manualmente, a saída do comando show version será semelhante a esta:
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 09:26:24 UTC Mon Mar 27 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
...
Se você tiver a saída de um comando show version do seu dispositivo Cisco, poderá usar o Cisco CLI Analyzer para exibir problemas potenciais e correções. Para usar o Cisco CLI Analyzer, você deve ser um cliente registrado, estar conectado e com o JavaScript habilitado.
Troubleshooting
A causa-raiz do timeout do watchdog pode estar relacionada a hardware ou software. Aqui estão os sintomas comuns através dos quais você pode identificar a origem do problema:
-
Se um roteador que está operando adequadamente há meses de repente começar a ser recarregado a cada 20 minutos, ou se ele reinicializar continuamente e você não puder mais acessá-lo, o problema provavelmente está relacionado ao hardware. Esse também é o caso se um novo módulo tiver sido instalado recentemente, e o roteador travar pelo intervalo de vigilante depois.
-
Se o roteador começar a travar após uma alteração de configuração ou uma alteração na versão do software Cisco IOS, é provavelmente um problema relacionado ao software.
A primeira etapa para solucionar esse tipo de problema é identificar o tipo de timeout de vigilante encontrado. Existem dois tipos de Timeouts de Watchdog:
-
O Software Watchdog Timeout, que, apesar do nome, sempre está relacionado ao hardware
-
O timeout de vigilante do processo, que em geral é relativo ao software
Intervalo de vigilante do software
Esse tempo limite é causado por um loop infinito no nível de interrupção ou por um problema de hardware. Aqui estão algumas indicações desse tipo de tempo limite:
-
Os logs do console contêm estas linhas:
*** de Tempo Limite de Cão de Observação de ***
PC = 0x6022536C, SP = 0x00000000
-
A saída do comando show version relata o motivo da recarga como um "temporizador watchdog expirado":
Router#show version
...
Router uptime is 1 hour, 47 minutes
System restarted by watchdog timer expired at 06:30:24 UTC Mon Jan 28 2000
System image file is "flash:c3640-is-mz.113-7-T.bin", booted via flash
-
Nenhum arquivo crashinfo é gerado. Consulte Recuperando informações do arquivo Crashinfo para obter detalhes.
Na maioria das vezes, essas mensagens indicam um problema de hardware com a placa principal do processador ou com um dos módulos.
Depois de identificar um timeout de vigilante de software, a próxima etapa é verificar o Resumo de notificação de campo do produto para sua plataforma e todos os componentes instalados nesse sistema para problemas de hardware críticos conhecidos. Por exemplo, há uma notificação de campo para o Cisco 3600 Series Router: Cisco 3600 T1/E1 PRI Module Watchdog Timeouts. Verifique os Avisos de Campo antes de continuar com a solução de problemas.
Se um novo módulo tiver sido instalado recentemente, você deverá primeiro tentar removê-lo para verificar se é o motivo do timeout de watchdog. Se o tempo limite do watchdog persistir, tente recolocar todos os componentes removíveis.
Se o tempo limite do watchdog continuar neste ponto, não haverá avisos de campo para o hardware e, se nenhum módulo novo tiver sido instalado recentemente, substitua a placa principal do processador. Em plataformas avançadas, a placa do processador é uma placa separada (como o NPE-400 ou o RSP8). Em plataformas de extremidade baixa (Cisco 1700, 2500, 4000, 2600, 3600 e assim por diante), a placa-mãe não pode ser enviada separadamente. Nesse caso, você tem que substituir o próprio chassi.
Intervalo de vigilante do processo
Esse timeout é gerado por um loop infinito durante o processo. Aqui estão algumas indicações desse tempo limite:
-
Os logs do console contêm estas linhas:
%SYS-2-WATCHDOG: Process aborted on watchdog timeout,
process = Exec
*** System received a Software forced crash ***
signal = 0x17, code = 0x24, context= 0x60ceca60
-
A saída do comando show version relata o travamento como um "travamento forçado por software":
Router#show version
...
Router uptime is 2 days, 21 hours, 30 minutes
System restarted by error - Software-forced crash,
PC 0x316EF90 at 20:22:37 edt
System image file is "flash:c2500-is-l.112-15a.bin",
booted via flash
-
Um arquivo crashinfo é gerado para as plataformas que o suportam.
É mais provável que esse problema seja um bug do software Cisco IOS.
Se você tiver a saída de um comando show stacks do seu dispositivo Cisco, poderá usar o Cisco CLI Analyzer para exibir problemas potenciais e correções. Para usar o Cisco CLI Analyzer, você deve ser um cliente registrado, estar conectado e com o JavaScript habilitado.
No entanto, o sistema ficou preso em um loop antes do recarregamento. Portanto, o rastreamento de pilha não precisa ser necessariamente relevante. Você pode atualizar para a versão mais recente do software Cisco IOS em sua versão de treinamento para eliminar todos os problemas conhecidos do Process Watchdog. Se um travamento ainda ocorrer após a atualização, colete o máximo de informações possível (consulte Troubleshooting de Travamentos do Roteador) e entre em contato com o representante de suporte técnico.
Mensagens de Erro Relacionadas ao Tempo Limite do Watchdog
Há outras mensagens de erro do console relacionadas aos timers do watchdog. Não confunda essas mensagens com um travamento do timer do watchdog. Certifique-se de verificar o significado dessas mensagens de erro com a ajuda do Error Message Decoder (somente clientes registrados) . Esta ferramenta fornece uma explicação detalhada de muitas mensagens de erro e recomenda ações para resolvê-las.
Considere esta mensagem:
%SYS-2-WATCHDOG: Process aborted on watchdog timeout,
process = [chars]
Essa mensagem indica que o processo especificado foi executado por muito tempo e que o processador não foi abandonado. O sistema encerrou o processo indicado. Com base na sua configuração, isso pode levar a um travamento do sistema. Se a mensagem ocorrer apenas uma vez, você não precisará executar nenhuma ação. No entanto, se ocorrer novamente, você deverá tratá-lo como um Process Watchdog Timeout e tomar as medidas necessárias.
Informações a serem coletadas se você abrir um pedido de serviço de TAC
Se você ainda precisar de assistência após seguir as etapas de solução de problemas acima e quiser abrir uma solicitação de serviço (somente clientes registrados) com o Cisco TAC, certifique-se de incluir as seguintes informações: |
- Troubleshooting realizado antes da abertura da solicitação de serviço.
- saída show technical-support (no modo enable, se possível).
- mostrar registro de saída ou capturas de tela do console, se disponível.
- execute-on slot [slot #] show tech para o slot que sofreu o travamento da placa de linha.
- O arquivo crashinfo (se estiver disponível e ainda não tiver sido incluído na saída show technical-support).
Anexe os dados coletados à sua requisição de serviço em um texto não compactado e simples (.txt). Você pode anexar informações à sua requisição de serviço ao fazer o upload dela com a Ferramenta TAC Service Request Tool (somente para clientes registrados). Se você não puder acessar a ferramenta de solicitação de serviço, poderá enviar as informações em um anexo de e-mail para attach@cisco.com com o número da solicitação de serviço na linha de assunto da mensagem. Observação: não recarregue nem ligue e desligue manualmente o roteador antes de coletar as informações acima, a menos que seja necessário solucionar um problema de travamento de placa de linha no Cisco 12000 Series Internet Router, pois isso pode causar a perda de informações importantes necessárias para determinar a causa raiz do problema. |
Informações Relacionadas