Guide de dépannage des erreurs de parité

Options de téléchargement

PDF (122.0 KB)
Consulter à l'aide d'Adobe Reader sur un grand nombre d'appareils
ePub (89.5 KB)
Consulter à l’aide de différentes applications sur iPhone, iPad, Android ou Windows Phone
Mobi (Kindle) (85.8 KB)
Consulter sur un appareil Kindle ou à l’aide d’une application Kindle sur plusieurs appareils

Mis à jour:21 mars 2019

ID du document:116135

Langage exempt de préjugés

Dans le cadre de la documentation associée à ce produit, nous nous efforçons d’utiliser un langage exempt de préjugés. Dans cet ensemble de documents, le langage exempt de discrimination renvoie à une langue qui exclut la discrimination en fonction de l’âge, des handicaps, du genre, de l’appartenance raciale de l’identité ethnique, de l’orientation sexuelle, de la situation socio-économique et de l’intersectionnalité. Des exceptions peuvent s’appliquer dans les documents si le langage est codé en dur dans les interfaces utilisateurs du produit logiciel, si le langage utilisé est basé sur la documentation RFP ou si le langage utilisé provient d’un produit tiers référencé. Découvrez comment Cisco utilise le langage inclusif.

À propos de cette traduction

Cisco a traduit ce document en traduction automatisée vérifiée par une personne dans le cadre d’un service mondial permettant à nos utilisateurs d’obtenir le contenu d’assistance dans leur propre langue. Il convient cependant de noter que même la meilleure traduction automatisée ne sera pas aussi précise que celle fournie par un traducteur professionnel.

Contenu

Introduction

Fond

Erreurs logicielles

Erreurs dures

Messages d'erreur courants

Processeur

RAM

ASIC

Dernières avancées

Processeur

RAM

ASIC

le logiciel Cisco IOS

Réinitialisation du GRV MSFC

Réinitialisation de la série 6700 'Erreur de parité à un bit'

Recommandations

Erreurs logicielles (SEU)

Audit environnemental

Dernier microprogramme (Rommon)

Vis du pouce

Erreurs dures (dysfonctionnement)

Audit matériel (MTBF et EOL)

Diagnostics matériels

Informations connexes

Introduction

Ce document décrit les erreurs de parité logicielle et matérielle, explique les messages d'erreur courants et recommande des méthodes qui vous aident à éviter ou à réduire les erreurs de parité. Les améliorations récentes apportées à la conception du matériel et des logiciels réduisent également les problèmes de parité.

Fond

Qu'est-ce qu'une erreur de parité processeur ou mémoire ?

Le contrôle de parité est le stockage d'un chiffre binaire supplémentaire (bit) afin de représenter la parité (impair ou pair) d'une petite quantité de données informatiques (généralement un octet) pendant que ces données sont stockées en mémoire. La valeur de parité calculée à partir des données stockées est ensuite comparée à la valeur de parité finale. Si ces deux valeurs diffèrent, cela indique une erreur de données, et au moins un bit doit avoir été modifié en raison de la corruption des données.

Dans un système informatique, les interférences électriques ou magnétiques provenant de causes internes ou externes peuvent provoquer un retour spontané d'un seul bit de mémoire à l'état opposé. Cet événement rend les bits de données d'origine non valides et est appelé erreur de parité.

De telles erreurs de mémoire, si elles ne sont pas détectées, peuvent avoir des résultats non détectables et sans conséquence, ou peuvent provoquer une corruption permanente des données stockées ou un plantage de la machine.

Il existe de nombreuses causes d'erreurs de parité de mémoire, qui sont classées comme erreurs de parité logicielle ou de parité matérielle.

Erreurs logicielles

La plupart des erreurs de parité sont causées par des conditions environnementales électrostatiques ou magnétiques.

La majorité des erreurs d'événement unique dans les puces de mémoire sont causées par des rayonnements de fond (tels que les neutrons des rayons cosmiques), des interférences électromagnétiques ou des décharges électrostatiques (ESD). Ces événements peuvent modifier aléatoirement l'état électrique d'une ou de plusieurs cellules mémoire ou interférer avec le circuit utilisé pour lire et écrire des cellules mémoire.

Appelés erreurs de parité logicielle, ces événements sont généralement transitoires ou aléatoires et se produisent généralement une fois. Les erreurs peuvent être mineures ou graves :

Les erreurs logicielles mineures qui peuvent être corrigées sans réinitialisation de composant sont des SEU (Single Event upsets).
Les erreurs logicielles graves qui nécessitent une réinitialisation de composant ou de système sont des paquets SEL (Single Event Latchups).

Les erreurs logicielles ne sont pas causées par un dysfonctionnement matériel ; ils sont transitoires et peu fréquents, sont probablement un UES et sont causés par une perturbation de l'environnement des données de mémoire.

Si vous rencontrez des erreurs de parité logicielle, analysez les modifications environnementales récentes qui se sont produites à l'emplacement du système affecté. Les sources courantes de décharges électrostatiques et d'interférences électromagnétiques pouvant entraîner des erreurs de parité logicielle sont les suivantes :

Câbles d'alimentation et alimentations
Unités de distribution d'alimentation
alimentations universelles
Systèmes d'éclairage
Générateurs d'alimentation
Installations nucléaires (radiations)
Fusées solaires (rayonnement)

Erreurs dures

D'autres erreurs de parité sont causées par un dysfonctionnement physique du matériel de mémoire ou par le circuit utilisé pour lire et écrire des cellules de mémoire.

Les fabricants de matériel prennent des mesures étendues pour prévenir et tester les défauts matériels. Toutefois, des défauts sont encore possibles ; par exemple, si une des cellules mémoire utilisées pour stocker des bits de données est mal formée, elles peuvent être incapables de supporter une charge ou être plus vulnérables aux conditions environnementales.

De même, bien que la mémoire elle-même puisse fonctionner normalement, tout dommage physique ou électrique au circuit utilisé pour lire et écrire des cellules de mémoire peut également entraîner la modification des bits de données lors du transfert, ce qui entraîne une erreur de parité.

Appelés erreurs de parité, ces événements sont généralement très fréquents et répétés et se produisent chaque fois que la mémoire ou le circuit affecté est utilisé. La fréquence exacte dépend de l'étendue du défaut de fonctionnement et de la fréquence d'utilisation de l'équipement endommagé.

N'oubliez pas que les erreurs de parité matérielle sont le résultat d'un dysfonctionnement matériel et se reproduisent chaque fois que le composant affecté est utilisé.

Si vous rencontrez des erreurs de parité, analysez les modifications physiques qui se sont produites à l'emplacement du système affecté. Les sources courantes de dysfonctionnement matériel pouvant entraîner des erreurs de parité matérielle sont les suivantes :

Surtensions (sans mise à la terre)
ESD
Surchauffe ou refroidissement
Installation incorrecte ou partielle
Incompatibilité des composants
Défaut de fabrication

Messages d'erreur courants

Le logiciel Cisco IOS^® fournit une variété de messages d'erreur de parité, qui varient selon le composant affecté et son impact relatif sur le système.

Processeur

Erreur de cache détectée. CP0_CAUSE (rég. 13/0) : 0x00000400 CPO_ECC (rég. 26/0) : 0x000000B3 CPO_BUSERRDPA (rég. 26/1) : 0x000000B3 CPO_CACHERI (rég. 27/0) : 0x20000000 Erreur réelle de cache détectée. Le système sera arrêté. Erreur : Cache principal, champs : données, Adresse physique réelle 0x00000000, l'adresse virtuelle est imprécise. Erreur imprécise de parité des données
Explication	Ceci est le résultat d'une erreur de parité dans le cache de niveau 2 (L2) (mémoire statique à accès aléatoire ou SRAM) utilisé par le processeur de routage (RP) ou le processeur de commutation (SP) de la carte MSFC3 (Multilayer Switch Feature Card 3).
Recommandation	Surveillez régulièrement le système pour détecter une réoccurrence. Si aucun autre événement n'est observé, il s'agit d'une erreur molle. Si l'erreur se produit fréquemment, demandez une autorisation de retour de matériel (RMA) afin de remplacer le Supervisor Engine, et marquez le module pour l'analyse des pannes d'équipement (EFA).
%SYSTEM_CONTROLLER-3-ERROR : Error condition detected: SYSAD_PARITY_ERROR
Explication	Ceci est le résultat d'une erreur de parité dans l'adresse système (bus de données) utilisée par le contrôleur intrabande (IBC) de la carte MSFC3.
Recommandation	Surveillez régulièrement le système pour détecter une réoccurrence. Si aucun autre événement n'est observé, il s'agit d'une erreur molle. Si l'erreur se produit fréquemment, demandez une RMA afin de remplacer le Supervisor Engine et marquez le module pour EFA.
%SYSTEM_CONTROLLER-3-ERROR : Error condition detected: TM_DATA_PARITY_ERROR
Explication	Ceci est le résultat d'une erreur de parité dans les données du gestionnaire de tables utilisées par le GRV de la MSFC3.
Recommandation	Surveillez régulièrement le système pour détecter une réoccurrence. Si aucun autre événement n'est observé, il s'agit d'une erreur molle. Si l'erreur se produit fréquemment, demandez une RMA afin de remplacer le Supervisor Engine et marquez le module pour EFA.
%SYSTEM_CONTROLLER-3-ERROR : Error condition detected: TM_NPP_PARITY_ERROR
Explication	Ceci est le résultat d'une erreur de parité dans le 'pointeur de page suivante' du gestionnaire de tables utilisé par le GRV du MSFC3.
Recommandation	Surveillez régulièrement le système pour détecter une réoccurrence. Si aucun autre événement n'est observé, il s'agit d'une erreur molle. Si l'erreur se produit fréquemment, demandez une RMA afin de remplacer le Supervisor Engine et marquez le module pour EFA. Dans les versions du logiciel Cisco IOS comprises entre 12.1(8)E et 12.2(33)SXI3, le comportement par défaut en réponse aux événements SYSTEM_CONTROLLER-3-ERROR était de réinitialiser le GRV et de consigner un message d'erreur. Toutefois, cette mesure corrective a entraîné la disparition de certains cas documentés du GRV (et donc du CPU) qui ne pouvait plus transmettre ou recevoir de données. Ainsi, le comportement a été modifié dans les versions du logiciel Cisco IOS ultérieures à 12.2(33)SXI4 pour enregistrer un message d'erreur et réinitialiser le système ; référez-vous à l'ID de bogue Cisco CSCtf51541.
Exception d'interruption, signal CPU 20, PC = 0x[dec]
Explication	Ceci est le résultat d'une erreur de parité simple-bit dans la mémoire cache L2 du processeur (SRAM) utilisée par les modules de la gamme Cisco Catalyst 6700.
Recommandation	Surveillez régulièrement le système pour détecter une réoccurrence. Si aucun autre événement n'est observé, il s'agit d'une erreur molle. Si l'erreur se produit fréquemment, demandez une RMA afin de remplacer le module 6700 et marquez le module pour EFA. Dans les versions du logiciel Cisco IOS antérieures à la version 12.2(33)SXI5, un bogue logiciel (ID de bogue Cisco CSCtj06411) provoquerait des erreurs de parité même un seul bit pour réinitialiser le module 6700. Ceci a été résolu dans les versions 12.2(33)SXI6 et 12.2(33)SXJ pour Supervisor Engine 720 et dans la version 15.0SY pour Supervisor Engine 2T.

RAM

%SYSTEM_CONTROLLER-3-ERROR : Error condition detected: SYSDRAM_PARITY_ERROR
Explication	Ceci est le résultat d'une erreur de parité incorrigible dans les modules de mémoire DRAM (SDRAM) synchrones (DIMM) utilisés par la carte MSFC3.
Recommandation	Surveillez régulièrement le système pour détecter une réoccurrence. Si aucun autre événement n'est observé, il s'agit d'une erreur molle. Si l'erreur se produit fréquemment, nettoyez et réinsérez le module DIMM et continuez à surveiller. Si l'erreur persiste, demandez une RMA afin de remplacer ou de mettre à niveau le module DIMM.
%SYSTEM_CONTROLLER-3-COR_MEM_ERR : Erreur de mémoire DRAM corrigable. Count [dec], log [hex]
Explication	Ceci est le résultat d'une erreur de parité corrigible dans la mémoire SDRAM (DIMM) utilisée par la carte MSFC3.
Recommandation	Surveillez régulièrement le système pour détecter une réoccurrence. Si aucun autre événement n'est observé, il s'agit d'une erreur molle. Si l'erreur se produit fréquemment, nettoyez et réinsérez le module DIMM et continuez à surveiller. Si l'erreur persiste, demandez une RMA afin de remplacer ou de mettre à niveau le module DIMM.
%MWAM-DFC[dec]-0-CORRECTABLE_ECC_ERR : Une erreur ECC corrigable s'est produite, A_BUS_L2_ERRORS : 0x10000, A_BUS_MEMIO_ERRORS : 0x0, A_SCD_BUS_ERR_STATUS : 0x80983000
Explication	Il s'agit du résultat d'une erreur de parité de bit dans la DRAM utilisée par les modules de la gamme 6700.
Recommandation	Surveillez régulièrement le système pour détecter une réoccurrence. Si aucun autre événement n'est observé, il s'agit d'une erreur molle. Si l'erreur se produit fréquemment, nettoyez et réinsérez le module DIMM et continuez à surveiller. Si l'erreur persiste, demandez une RMA afin de remplacer ou de mettre à niveau le module DIMM.
%PM_SCP-SP-2-LCP_FW_ERR_INFORM : Le module [dec] rencontre l'erreur suivante : Erreur LTL Parity détectée sur Coil #[dec].
Explication	Ceci est le résultat d'une erreur de parité dans la mémoire SRAM utilisée par les modules Cisco Catalyst 6100 et Cisco Catalyst 6300.
Recommandation	Surveillez régulièrement le système pour détecter une réoccurrence. Si aucun autre événement n'est observé, il s'agit d'une erreur molle. Si l'erreur se produit fréquemment, demandez une RMA afin de remplacer le module 6100 ou 6300 et marquez le module pour EFA.
%SYS-4-SYS_LCPERR4 : Module [dec]: Erreur de parité LTL détectée sur Coil #[dec]
Explication	Ceci est le résultat d'une erreur de parité dans la mémoire SRAM utilisée par les modules des gammes 6100 et 6300.
Recommandation	Surveillez régulièrement le système pour détecter une réoccurrence. Si aucun autre événement n'est observé, il s'agit d'une erreur molle. Si l'erreur se produit fréquemment, demandez une RMA afin de remplacer le module 6100 ou 6300 et marquez le module pour EFA.

ASIC

%PM_SCP-SP-2-LCP_FW_ERR_INFORM : Le module [dec] rencontre l'erreur suivante : Échec de la mémoire tampon de paquets ASIC ([name]) du port détecté sur les ports [dec]
Explication	Ceci est le résultat d'une erreur de parité dans la mémoire tampon de paquets ASIC (SRAM) du port utilisée par les modules Ethernet de la gamme Cisco Catalyst 6148A.
Recommandation	Surveillez régulièrement le système pour détecter une réoccurrence. Si aucun autre événement n'est observé, il s'agit d'une erreur molle. Si l'erreur se produit fréquemment, demandez une RMA afin de remplacer le module 6148A et marquez le module pour EFA.
%LTL-SP-2-LTL_PARITY_CHECK : Demande de contrôle de parité LTL pour 0x[hex]
Explication	Ceci est le résultat d'une erreur de parité dans la table SRAM (Port ASIC Port Index Table) utilisée par les modules des gammes Catalyst 6100-6500 et 6700.
Recommandation	Surveillez régulièrement le système pour détecter une réoccurrence. Si aucun autre événement n'est observé, il s'agit d'une erreur molle. Si l'erreur se produit fréquemment, demandez une RMA afin de remplacer le module et marquez le module pour EFA.

Reportez-vous aux documents du logiciel Cisco IOS suivants pour obtenir une liste complète des messages d'erreur :

L'Outil d'interprétation de sortie (clients enregistrés seulement) prend en charge certaines commandes d'affichage. Utilisez l'Outil d'interprétation de sortie afin de visualiser une analyse de commande d'affichage de sortie .

Dernières avancées

Les recherches dans le domaine des erreurs de parité sont en cours, et tous les scénarios ne peuvent pas être traités, mais les organisations de développement matériel et logiciel Cisco Catalyst 6500 continuent d'introduire de nouvelles méthodes, telles que la protection des codes de correction d'erreurs (ECC), pour minimiser et limiter l'occurrence des erreurs de parité.

Bien que ce document ait commencé par une discussion sur la troisième génération (WS-XSUP720 et début de la gamme 6700) des produits Catalyst 6500, cette section récapitule les améliorations apportées à la quatrième génération (VS-S720-10G et versions ultérieures de la gamme 6700) et à la cinquième génération (VS-SUP2T2T-1 Séries 0G et 6900).

Processeur

Le module VS-S720-10G est équipé d'une carte fille MSFC3 plus récente, avec un nouveau GRV et des processeurs RISC (Réduction du nombre d'instructions) SR7010A mis à jour, fonctionnant à 600 MHz chacun. Les caches de niveau 1 (L1), de niveau 2 et de niveau 3 (L3) sont capables de détecter la parité. Le nouveau GRV dispose de toutes les fonctionnalités de la génération précédente et ajoute une protection ECC (correction à un bit, détection multibit) aux SRAM connectées.

Les modules de la gamme 6700 prennent en charge un processeur avec cache L2 protégé par ECC (le cache L1 est capable de détecter la parité), qui peut corriger les erreurs de parité à un bit sans avoir à réinitialiser. Cependant, en raison de l'ID de bogue Cisco CSCsz39222, la version 12.2SXI du logiciel Cisco IOS (Supervisor Engine 720) réinitialise le module de toute façon en cas d'erreur de parité de cache de CPU à un bit. Ceci est résolu dans les versions 12.2SXJ (Supervisor Engine 720) et 15.0SY (Supervisor Engine 2T) du logiciel Cisco IOS.

Le VS-SUP2T-10G dispose d'une nouvelle carte fille MSFC5 avec un GRV intégré et un nouveau processeur RP MPC8572 PPC simple coeur (avec cache L2 et L3 protégé par ECC, le cache L1 est capable de détection de parité) qui fonctionne à 1,5 GHz par coeur. Il dispose également d'un nouveau processeur CMP (Connectivity Management Processor) hors bande et d'une DRAM protégée par ECC, disponible même si le processeur RP n'est pas disponible.

Le nouveau GRV dispose de toutes les fonctionnalités des générations précédentes et prend en charge la protection ECC pour les SRAM attachées et les améliorations dans la gestion des erreurs de parité. La nouvelle carte MSFC5 intègre également une mémoire ROM OBFL (Onboard Failure Logging), qui stocke tous les événements d'initialisation et de diagnostic du module. La nouvelle conception de processeur unique réduit également la probabilité statistique d'événements d'erreur de parité.

Les modules de la gamme 6900 prennent en charge un processeur plus récent avec cache L1 et L2 protégé par ECC, qui peut corriger les erreurs de parité à un bit sans avoir à les réinitialiser. La nouvelle génération prend en charge le même GRV et la gestion logicielle pour la correction des erreurs de parité sur un bit a été incorporée.

RAM

Le VS-S720-10G avec MSFC3 est doté d'une mémoire SDRAM à double débit de données (DDR) avec protection ECC, fonctionnant à 266 MHz.

Les modules de la gamme 6700 prennent en charge la mémoire DDR SDRAM avec protection ECC, fonctionnant à 266 MHz.

Comparée à la SDRAM à débit unique (SDR), l’interface DDR SDRAM permet des débits de transfert plus élevés grâce à un contrôle plus strict de la synchronisation des signaux de données électriques et d’horloge. L'interface DDR utilise le double pompage (transfert de données sur les bords ascendant et descendant du signal d'horloge) afin de réduire la fréquence d'horloge. Une fréquence d'horloge inférieure réduit les exigences d'intégrité du signal sur la carte de circuit qui connecte la mémoire au contrôleur.

Le VS-SUP2T-10G avec MSFC5 est équipé de la mémoire SDRAM DDR3 avec protection ECC, fonctionnant à 667 MHz.

Les modules de la gamme 6900 prennent en charge la mémoire SDRAM DDR3 avec protection ECC, fonctionnant à 667 MHz.

Le principal avantage de la mémoire SDRAM DDR3 par rapport à ses prédécesseurs immédiats (DDR2 et DDR) est sa capacité à transférer des données deux fois plus vite (huit fois la vitesse de ses baies de mémoire interne), ce qui permet une bande passante plus élevée ou des débits de données de pointe. La mémoire DDR3 réduit également la consommation électrique de 30 %, même si elle utilise la même norme de signalisation électrique que DDR et DDR2.

ASIC

Le VS-S720-10G avec PFC3C intègre des tampons de paquets SRAM avec protection ECC. Cela permet de corriger les erreurs de parité sur un bit sans réinitialiser le module, ainsi que de détecter les erreurs de parité sur plusieurs bits.

La gamme 6700 avec DFC3C intègre des tampons de paquets SRAM avec protection ECC. Cela permet de corriger les erreurs de parité sur un bit sans réinitialiser le module, ainsi que de détecter les erreurs de parité sur plusieurs bits.

Le VS-SUP2T-10G avec PFC4 dispose de mémoires tampon de paquets SRAM avec protection ECC. Cela permet de corriger les erreurs de parité sur un bit sans réinitialiser le module, ainsi que de détecter les erreurs de parité sur plusieurs bits.

La gamme 6900 avec DFC4 intègre des tampons de paquets SRAM avec protection ECC. Cela permet de corriger les erreurs de parité sur un bit sans réinitialiser le module, ainsi que de détecter les erreurs de parité sur plusieurs bits.

le logiciel Cisco IOS

Le logiciel Cisco IOS est conçu pour prendre en charge la protection ECC. Si un composant matériel qui prend en charge la protection ECC fait l'objet d'un SEU, le code doit corriger les données corrompues ou réinitialiser le composant affecté et ne pas exiger une réinitialisation matérielle complète du module affecté.

Cependant, dans les versions antérieures du logiciel Cisco IOS, il y a quelques exceptions où le comportement a été intentionnellement modifié ou des dysfonctionnements dus à un bogue logiciel. Voici deux exceptions notables.

Réinitialisation du GRV MSFC

Dans les versions du logiciel Cisco IOS comprises entre 12.1(8)E et 12.2(33)SXI3, le comportement par défaut en réponse aux événements SEU SYSTEM_CONTROLLER-3-ERROR était de réinitialiser le GRV et de consigner un message d'erreur. Toutefois, cette mesure corrective a entraîné la disparition de certains cas documentés du GRV (et donc du CPU) qui ne pouvait plus transmettre ou recevoir de données.

Ainsi, le comportement a été modifié après la version 12.2(33)SXI4 (ID de bogue Cisco CSCtf51541) pour enregistrer un message d'erreur et réinitialiser le système. Bien que cette réaction puisse sembler plus sévère, il est préférable de réinitialiser le système et de corriger la structure de la mémoire plutôt que d'avoir un système qui ne répond pas.

Une fonctionnalité en cours de développement (ID de bogue Cisco CSCtr89859) ajoutera une nouvelle commande d'interface de ligne de commande (CLI) qui vous permettra de changer le comportement par défaut. Cette amélioration s'applique surtout aux systèmes qui utilisent un seul superviseur et ne disposent donc d'aucune redondance de superviseur.

Réinitialisation de la série 6700 'Erreur de parité à un bit'

Dans les versions du logiciel Cisco IOS antérieures à 12.2(33)SXI5, un bogue logiciel (ID de bogue Cisco CSCtj06411) provoquerait des erreurs de parité même un seul bit pour réinitialiser le module 6700. Il s'agit normalement d'une erreur de parité corrigible et il n'est pas nécessaire de réinitialiser le module.

Ce bogue a été résolu dans les versions 12.2(33)SXI6+ et 12.2SXJ pour Supervisor Engine 720 et dans la version 15.0SY pour Supervisor Engine 2T. Après une mise à niveau vers la version appropriée, le module 6700 enregistre simplement un message d'erreur et continue à fonctionner.

Recommandations

À ce stade, vous avez probablement déterminé si vous avez rencontré une erreur de parité logicielle ou matérielle. Bien que cela puisse traiter un seul incident, d'autres vulnérabilités d'erreur de parité existent toujours, vous devriez donc adopter une approche plus complète de l'ensemble de votre réseau.

Par conséquent, Cisco et l'unité commerciale Catalyst 6500 vous recommandent de revoir ces procédures d'atténuation et de prendre les mesures correctives appropriées afin d'éliminer ou de réduire les erreurs de parité futures.

Erreurs logicielles (SEU)

Les erreurs de parité d'événement unique (soft) sont provoquées par des conditions environnementales et ne peuvent se produire qu'une seule fois (SEU) ou très rarement, par exemple chaque mois ou chaque année. Bien que vous n'ayez pas besoin de remplacer le matériel, vous voulez limiter les occurrences futures.

Ces meilleures pratiques réduisent considérablement la probabilité d'erreurs de parité logicielle.

Audit environnemental

Cisco vous recommande d'effectuer un audit environnemental de vos emplacements réseau affectés. Vous pouvez effectuer cet audit vous-même ou en coordination avec un représentant Cisco, avec une équipe Cisco (telle que Cisco Advanced Services) ou par l'intermédiaire d'un consultant tiers.

La portée et la complexité exactes d'une vérification environnementale dépendent de nombreuses variables différentes telles que l'emplacement géographique, la taille et la conception des bâtiments et des pièces, la conception et la disposition électriques, et d'autres facteurs connexes.

Étudiez les sources environnementales de décharges électrostatiques et d'interférences électromagnétiques dans ou autour de votre réseau. Il s'agit de sources courantes d'interférence qui peuvent conduire à une erreur de parité logicielle :

Câbles d'alimentation et alimentations
Unités de distribution d'alimentation
alimentations universelles
Systèmes d'éclairage
Générateurs d'alimentation
Installations nucléaires (radiations)
Fusées solaires (rayonnement)

Emplacement du châssis

Les SEU peuvent se produire si les unités de distribution d'alimentation, les générateurs d'alimentation ou les systèmes d'éclairage sont trop proches du châssis ou si plusieurs câbles d'alimentation sont allumés ou à côté du châssis.

Il est important de fournir une distance suffisante entre le châssis Catalyst 6500 et ces sources électriques et magnétiques. Les distances recommandées varient selon les composants et sont disponibles dans les fiches techniques des composants.

En général, Cisco vous recommande de localiser les systèmes à partir de sources courantes d'interférences électriques et magnétiques d'au moins 10 cm. Les câbles d'alimentation doivent être raccordés et éloignés du châssis, dans la mesure du possible, et ne doivent pas être placés dans des ensembles bien emballés ou en grand nombre sur le châssis ou à côté de celui-ci.

Mise à la terre

Les fluctuations d'alimentation et les surtensions sont relativement courantes et les modules d'alimentation Catalyst 6500 sont conçus pour s'adapter à des variations mineures de courant de tension.

Cependant, il est essentiel de fournir une mise à la terre électrique appropriée pour le châssis et le rack afin que toute tension électrique excédentaire soit éloignée du système. Sans mise à la terre appropriée, les surtensions peuvent provoquer des dommages ou des dysfonctionnements dans divers circuits ASIC et composants de mémoire. Reportez-vous au Guide d'installation du commutateur de la gamme Catalyst 6500, Installation du commutateur, Etablissement de la mise à la terre du système, pour plus d'informations.

ESD

Les décharges électrostatiques peuvent facilement endommager les composants critiques sans altération visible. Des mesures préventives appropriées devraient être intégrées dans les politiques de fonctionnement des laboratoires, mais ces mesures sont souvent et malheureusement ignorées en raison de l'opportunité et de la supervision limitée.

Cisco recommande que la gestion de vos travaux pratiques, ainsi que Cisco Systems, effectue un audit environnemental de toutes les zones du réseau ou, au minimum, de toutes les zones qui ont présenté des défaillances matérielles ou qui ont été désignées comme critiques pour la mission. Une fois l'audit terminé, Cisco vous recommande de mettre en oeuvre une liste de contrôle de l'environnement normalisée pour tous les nouveaux systèmes installés afin d'éviter les événements de parité SEU futurs.

Dernier microprogramme (Rommon)

Les composants matériels Catalyst utilisent le code du micrologiciel (également appelé Rommon) pour initialiser, communiquer et exécuter des diagnostics. Une fois ces fonctions terminées, le fonctionnement du système est transféré au logiciel Cisco IOS. Il est rare de rencontrer des problèmes avec le micrologiciel, mais il peut y avoir des problèmes si vous utilisez différentes versions du code du micrologiciel pour les superviseurs et les modules.

Il est donc recommandé de s'assurer que tous les composants utilisent le dernier code du micrologiciel afin d'assurer une initialisation et une communication correctes du module. Cisco recommande à la gestion de vos opérations d'effectuer un audit réseau et de mettre à niveau tous les composants matériels avec la dernière version du micrologiciel.

Les problèmes connus de microprogramme et les procédures de mise à niveau sont documentés dans :

Téléchargez les dernières versions du micrologiciel depuis le site Web de Cisco :

Vis du pouce

Tous les systèmes réseau modulaires sont conçus pour être insérés dans un fond de panier de châssis avec un ensemble de broches d'interface physique. Le fond de panier du châssis lui-même est essentiellement une série de fils interconnectés. Les broches de chaque logement de châssis constituent la connexion de données physiques entre les modules Supervisor et Ethernet. Il est donc essentiel d'insérer et d'aligner correctement ces broches.

Le Catalyst 6500 fournit des rails de guidage et des broches d'alignement qui facilitent l'installation dans le châssis. Les broches de logement (sockets) et les connecteurs de module sont conçus pour s'enclencher facilement et fournir une connectivité électrique à large bande passante. Une fois insérées dans le châssis, des vis de pouce de chaque côté du module permettent d'enclencher complètement les broches du fond de panier. Reportez-vous à la note d'installation du module de commutation de la gamme Catalyst 6500.

Si un module a été correctement inséré dans le logement et que les vis du pouce ont été correctement serrées, aucun problème de communication n'est attendu. Cependant, plusieurs conditions peuvent survenir lors de l'insertion quotidienne de modules qui peuvent conduire à une insertion incorrecte ou même incomplète des broches :

Force d'insertion insuffisante - Si le module est partiellement inséré sans utiliser les vis du pouce, cela peut provoquer des décrochages de bus et le module ne peut pas communiquer avec d'autres modules. En fonction du niveau d'insertion (par exemple, s'il y a un contact physique limité), le module peut être en mesure de transmettre et de recevoir des données, mais peut rencontrer des erreurs de bits qui entraînent des paquets corrompus.
Désalignement vertical - Ceci se produit lorsqu'un seul côté du module se trouve sur les rails de guidage. Ceci est facilement identifié car le module apparaît en diagonale et ne se connecte généralement pas aux broches du fond de panier.
Désalignement horizontal - Si les vis à pouce ne sont utilisées que d'un côté, certaines broches ne s'enclenchent pas correctement. Il s'agit d'un problème courant, car le module peut sembler correctement inséré. Le décalage horizontal est en fait une forme de force d'insertion insuffisante.

Cisco vous recommande de mettre en oeuvre un processus de gestion des opérations qui exige l'utilisation des vis à oreilles sur tous les modules Catalyst 6500 dans les environnements de production. Cela garantit l'insertion et l'alignement corrects et complets des broches du fond de panier et évite les défaillances futures dues aux erreurs de bits et aux défaillances de communication associées.

Erreurs dures (dysfonctionnement)

Les erreurs de parité fréquentes ou répétables (dures) sont causées par un dysfonctionnement physique de la mémoire ou du circuit utilisé pour lire et écrire. Dans de tels cas, remplacez le matériel et demandez au centre d'assistance technique Cisco (TAC) ou à votre ingénieur système Cisco d'effectuer un contrôle d'accès sur le matériel retourné.

Ces meilleures pratiques réduisent considérablement la probabilité d'erreurs de parité.

Audit matériel (MTBF et EOL)

Cisco vous recommande d'effectuer un audit du réseau des emplacements réseau affectés. Vous pouvez effectuer cet audit vous-même ou en coordination avec un représentant Cisco, avec une équipe Cisco (telle que Cisco Advanced Services) ou par l'intermédiaire d'un consultant tiers.

Tous les composants matériels (de tous les fournisseurs) sont susceptibles de subir une dégradation éventuelle de l'intégrité physique. Il est important de suivre le cycle de vie de tous les composants matériels de votre réseau afin de bien comprendre la probabilité d'une défaillance de composants au fil du temps.

La fiabilité du matériel peut être mesurée à l'aide de la structure MTBF (moyenne entre les défaillances). Étant donné que le MTBF n'est qu'une moyenne statistique, cela ne signifie pas qu'une défaillance se produira définitivement à la fin de la période du MTBF. Cependant, la probabilité et la vulnérabilité d'une défaillance de composant augmentent, de sorte que ce matériel doit être signalé pour actualisation. Reportez-vous aux fiches techniques des commutateurs de la gamme Cisco Catalyst 6500 pour obtenir des valeurs MTBF spécifiques pour chaque produit Catalyst 6500.

La valeur MTBF calculée agrégée au niveau du système du Catalyst 6500 est de >7 ans.

Outre le cadre MTBF, Cisco fournit également un cadre de fin de vie (EOL), qui définit le cycle de vie prévu d'un produit donné et fournit des annonces applicables afin de vous aider à actualiser votre équipement hérité. Reportez-vous aux avis de fin de vie et de fin de commercialisation pour les divers produits Catalyst 6500 hérités.

À la suite de cet audit matériel, Cisco vous recommande de mettre en oeuvre votre propre processus MTBF et EOL qui identifie et suit le matériel en vue d'une éventuelle actualisation. Cela garantit que le matériel le plus récent est en cours d'exécution et minimise les risques de dysfonctionnement matériel.

Diagnostics matériels

La gamme Catalyst 6500 et le logiciel Cisco IOS fournissent des diagnostics GOLD (Generic Online Diagnostics) et HM (Health Monitoring) pour tous les composants matériels utilisés dans le système. Les deux types de diagnostics de base qui peuvent être activés sont à la demande et au démarrage. Référez-vous à Diagnostics en ligne génériques sur le commutateur de la gamme Cisco Catalyst 6500 pour plus d'informations.

Cisco recommande d'activer les diagnostics de démarrage complets pour tous les composants matériels afin de s'assurer que tous les tests de diagnostic sont exécutés et de confirmer que tous les composants matériels fonctionnent comme prévu au démarrage.

Cisco vous recommande également de programmer des diagnostics réguliers à la demande des composants essentiels de l'infrastructure sur une base quotidienne ou hebdomadaire. Au-delà des diagnostics de démarrage qui se produisent uniquement lors de l'initialisation, les diagnostics à la demande garantissent que le matériel continue à fonctionner comme prévu. Référez-vous au Guide de configuration du logiciel Catalyst 6500 version 12.2SX, Composants d'interface et matériels, Diagnostics en ligne pour plus d'informations.

Outre les tests de diagnostic à la demande par défaut, Cisco vous recommande d'activer ces tests de diagnostic à la demande afin d'identifier de manière proactive les composants de mémoire qui pourraient ne pas fonctionner correctement :

MémoireCarteDeRéférenceTest
MémoireAsicTest

Informations connexes

Contribution d’experts de Cisco

Guide de dépannage des erreurs de parité

Options de téléchargement

Langage exempt de préjugés

À propos de cette traduction

Contenu

Introduction

Fond

Erreurs logicielles

Erreurs dures

Messages d'erreur courants

Processeur

RAM

ASIC

Dernières avancées

Processeur

RAM

ASIC

le logiciel Cisco IOS

Réinitialisation du GRV MSFC

Réinitialisation de la série 6700 'Erreur de parité à un bit'

Recommandations

Erreurs logicielles (SEU)

Audit environnemental

Emplacement du châssis

Mise à la terre

ESD

Dernier microprogramme (Rommon)

Vis du pouce

Erreurs dures (dysfonctionnement)

Audit matériel (MTBF et EOL)

Diagnostics matériels

Informations connexes

Contribution d’experts de Cisco

Ce document vous est-il utile?

Contacter Cisco

Ce document s’applique à ces produits