Inleiding
Dit document verklaart wat pariteitsfouten op Cisco-routers veroorzaakt en hoe u deze kunt oplossen.
Voorwaarden
Vereisten
Cisco raadt aan dat u kennis hebt van de manier waarop u routercrashes kunt oplossen.
Raadpleeg Routercrashes voor probleemoplossing voor meer informatie.
Gebruikte componenten
Dit document is niet beperkt tot specifieke software- en hardware-versies.
De informatie in dit document is gebaseerd op de apparaten in een specifieke laboratoriumomgeving. Alle apparaten die in dit document worden beschreven, hadden een opgeschoonde (standaard)configuratie. Als uw netwerk live is, moet u de potentiële impact van elke opdracht begrijpen.
Conventies
Raadpleeg Cisco Technical Tips Conventions (Conventies voor technische tips van Cisco) voor meer informatie over documentconventies.
Identificeer een pariteitsfout
Geheugenpariteitsfouten treden op in op MultiChannel Interface Processor (MIPS) gebaseerde processorproducten zoals:
-
Cisco 4500/4700 Series routers
-
Cisco 7500 Series routers (RSP1, RSP2, RSP4, RSP8, VIP2-10, VIP2-15, VIP2-20, VIP2-40, VIP2-50)
-
Cisco 7000 Series routers (RSP 7000)
-
Cisco 7200 Series routers (NPE-100, NPE-150, NPE-175, NPE-200, NPE-225, NPE-300)
-
Cisco 12000 Series internetrouter
Hier zijn enkele berichten, die allemaal gerelateerd zijn aan de detectie van slechte pariteit ergens in het systeem (de lijst is niet uitputtend, maar bevat de meest voorkomende berichten):
-
In de output van het bevel van de showversie:
System restarted by processor memory parity error at PC 0x6014F7C0,
address 0x0
of
System restarted by shared memory parity error at PC 0x60130F40
Als u de uitvoer van een opdracht voor de showversie van uw Cisco-apparaat hebt, kunt u Cisco CLI Analyzer gebruiken om potentiële problemen en oplossingen weer te geven. Om Cisco CLI Analyzer te kunnen gebruiken, moet u een geregistreerde klant zijn, aangemeld zijn en JavaScript hebben ingeschakeld.
-
In de console logbestanden, of in de crashinfo bestanden:
- *** Cache Error Exception ***
Cache Err Reg = 0xa401a65a
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc17950, Cause = 0x0, Status Reg = 0x3040d007
- Error: primary data cache, fields: data,
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
Low Data High Data Par Low Data High Data Par
L1 Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
Low Data High Data Par Low Data High Data Par
Mem Data : 0:0xFEFFFEFE 0x65776179 0x13 1:0x20536572 0x76657220 0x89
2:0x646F6573 0x206E6F74 0x9C 3:0x20737570 0x706F7274 0xF8
- *** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
- %PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
- %RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
- %RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
- %RSP-3-ERROR: MD error 00800080C000C000
%RSP-3-ERROR: SRAM parity error (bytes 0:7) F0
%RSP-3-RESTART: cbus complex
Fouten in zachte versus harde pariteit
Er zijn twee soorten pariteitsfouten:
-
Zachte pariteitsfouten
Deze fouten treden op wanneer een energieniveau binnen de chip (bijvoorbeeld een één of nul) verandert. Wanneer verwezen door de CPU, veroorzaken dergelijke fouten het systeem of crashen (als de fout is in een gebied dat niet kan worden hersteld) of ze herstellen andere systemen (bijvoorbeeld, een CyBus complexe herstart als de fout was in het pakketgeheugen (MEMD)). In het geval van een zachte pariteitsfout is het niet nodig om de board of een van de componenten te ruilen. Zie de sectie Verwante informatie voor extra informatie over fouten met zachte pariteit.
-
Harde pariteitsfouten
Deze fouten doen zich voor wanneer er een chip- of bordfout is die gegevens beschadigt. In dit geval moet u de betreffende component opnieuw plaatsen of vervangen, wat meestal een geheugenchip swap of een board swap impliceert. Er is een harde pariteitsfout wanneer meerdere pariteitsfouten op hetzelfde adres voorkomen. Er zijn ingewikkelder gevallen die moeilijker te identificeren zijn. In het algemeen, als u meer dan één pariteitsfout in een bepaald geheugengebied in een vrij korte periode ziet, kunt u het als een harde pariteitsfout beschouwen.
Studies hebben aangetoond dat fouten met zachte pariteit 10 tot 100 keer vaker voorkomen dan fouten met harde pariteit. Daarom raadt Cisco u ten zeerste aan om te wachten op een tweede pariteitsfout voordat u iets vervangt. Dit vermindert de impact op uw netwerk aanzienlijk.
Het probleem isoleren
Een router heeft geheugen op verschillende locaties. In theorie kan elke geheugenlocatie worden beïnvloed door de pariteitsfout, maar de meeste geheugenproblemen doen zich voor in dynamisch RAM (DRAM) of gedeeld RAM (SRAM). Gebaseerd op het platform, is hier hoe u kunt ontdekken welke geheugenplaats is beïnvloed, en, als het een harde pariteitsfout blijkt te zijn, welk deel u moet vervangen:
Cisco 4500 en 4700 platforms
Op de platforms Cisco 4500 en 4700 is het crashinfobestand niet beschikbaar in eerdere versies dan Cisco IOS®-softwarerelease 12.2(10)T en 12.2(10)T.
Een manier om te weten te komen waar de fout is opgetreden is te kijken naar de "herstartreden" in de consolelogboeken, en in de output van de opdracht show version:
-
Pariteitsfout in DRAM:
Als u de router na de crash niet handmatig opnieuw hebt geladen, ziet de output van de showversie er zo uit:
System restarted by processor memory parity error at PC 0x601799C4,
address 0x0
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
Als er een crashinfo-bestand beschikbaar is of als er consolelogboeken zijn opgenomen, kunt u ook zoiets als dit zien:
*** Cache Error Exception ***
Cache Err Reg = 0xa0255c61
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007
Het herhaaldelijk voorkomen van pariteitsfouten in DRAM’s wijst erop dat de DRAM’s of het chassis defect zijn. Als u onlangs het chassis heeft verwijderd, of als u wijzigingen in de hardwareconfiguratie hebt uitgevoerd, zet u de DRAM-chips weer op om het probleem op te lossen. Anders vervangt u de DRAM’s als eerste stap. Dit moet de pariteitsfouten voorkomen. Als de router nog steeds crasht, vervangt u het chassis.
-
Pariteitsfout in SRAM:
Als u de router na de crash niet handmatig opnieuw hebt geladen, ziet de opdrachtoutput van de showversie er zo uit:
System restarted by shared memory parity error at PC 0x60130F40
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
Als er een crashinfo-bestand beschikbaar is of als er consolelogboeken zijn opgenomen, kunt u ook zoiets als dit zien:
*** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
of
%PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
of
*** Shared Memory Parity Error ***
shared memory control register= 0xffdf
error(s) reported for: NIM1 on byte(s): 0/1 2/3
Opmerking:
-
Als de fout wordt gemeld voor de CPU, vervangt u het SRAM.
-
Als de fout wordt gemeld voor NIM(x), vervang de netwerkmodule in sleuf (x). Het SRAM dat is toegewezen aan sleuf (x) kan ook worden beïnvloed. Vervang in dit geval het SRAM.
Herhaalde pariteitsfouten in SRAM wijzen op defecte SRAM-chips of op een defecte netwerkmodule die slechte pariteit in het SRAM heeft geschreven. Als u onlangs het chassis hebt verwijderd of als u wijzigingen in de hardwareconfiguratie hebt aangebracht, zet u de netwerkmodules en de SRAM-chips om het probleem op te lossen. Controleer anders waar de fout wordt gemeld in de consolelogboeken (zie het uitvoervoorbeeld hierboven).
Route/Switch Processor (RSP), Network Processing Engine (NPE) en routeprocessorplatforms (RP)
Net als bij de Cisco 4000 Series, kan het probleem worden veroorzaakt door defecte DRAM's of SRAM's voor deze platforms. Het probleem kan ook worden veroorzaakt door een defecte processorkaart (RP, RSP of NPE). De Cisco 7000 en 7500 kunnen ook pariteitsfouten rapporteren die zijn gegenereerd door een defecte of slecht geplaatste interfaceprocessor (legacy xIP of VIP).
Controleer of het crashinfobestand en de console-logbestanden op een van deze foutmeldingen zijn ingesteld:
Pariteitsfout in DRAM of SRAM (MEMD)
Voor de RP, RSP en NPE, zie je meestal iets als dit:
Error: primary data cache, fields: data, (SysAD)
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
of gewoon:
Error: primary data cache, fields: data, SysAD
phy21:3 0x201880, va14:12 0x1000, addr 63E01880
Dit duidt op een probleem met het RSP zelf. Als het probleem slechts één keer voorkomt, is het zeer waarschijnlijk een voorbijgaande kwestie.
Pariteitsfout getrokken uit SRAM
Voor RSP, kan het bericht als dit kijken:
%RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
of
%RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
Als er geen aanwijzing is van een andere interfaceprocessor die slechte pariteit in het SRAM schrijft (bijvoorbeeld VIP2-1-MSG foutmeldingen), is de meest waarschijnlijke reden voor de pariteitsfout de SRAM zelf. Vervang in dit geval de RSP.
Als andere foutmeldingen aangeven dat een interface processor slechte pariteit schrijft, kan het een defecte of slecht zittende kaart zijn.
Veelzijdige interfaceprocessor
Als u %VIP2-1-MSG: sleuf(x) berichten in de logboeken of in het crashinfobestand ontvangt, raadpleegt u Problemen oplossen bij VIP-crashes.
Aanbevolen acties
Bij het eerste voorkomen van een pariteitsfout is het niet mogelijk om onderscheid te maken tussen een zachte of harde pariteitsfout. Uit ervaring blijkt dat de meeste pariteitsvoorvallen zachte pariteitsfouten zijn, die je meestal kunt verwerpen. Als u onlangs een aantal hardware hebt gewijzigd of de doos hebt verplaatst, probeer dan het betreffende onderdeel opnieuw te plaatsen (DRAM, SRAM, NPE, RP, RSP of VIP). Veelvuldige meervoudige pariteitsgebeurtenissen betekenen defecte hardware. Vervang het betreffende onderdeel (DRAM, RSP, VIP of moederbord) met behulp van de instructies die in dit document worden genoemd.
Informatie die moet worden verzameld als u een TAC-serviceaanvraag opent
Als u nog steeds assistentie nodig hebt nadat u de bovenstaande stappen voor probleemoplossing hebt gevolgd en een serviceaanvraag wilt openen met Cisco TAC, zorg dan dat u deze informatie opneemt: |
- Probleemoplossing uitgevoerd voordat u de serviceaanvraag hebt geopend.
- een uitvoer van technisch ondersteunende opdrachten tonen (indien mogelijk in de activeringsmodus).
- toon logboekopdrachtoutput of console opneemt indien beschikbaar.
- crashinfo-bestand (indien aanwezig, en niet reeds opgenomen in de uitvoer van het show Technical-Support commando. Als er meerdere crashinfo-bestanden bestaan, neem dan alle bestanden op).
- Aantal herladingen als gevolg van fouten in de pariteit van het processorgeheugen die u hebt gezien en wanneer ze zijn opgetreden.
Voeg de verzamelde gegevens aan uw case toe in niet-gezipte, onbewerkte tekstindeling (.txt). Als u informatie aan uw serviceaanvraag wilt toevoegen, uploadt u deze via de TAC Service Request Tool (alleen geregistreerde klanten). Als u geen toegang hebt tot de Serviceaanvraagtool, voegt u de relevante informatie toe aan uw serviceaanvraag en stuurt u deze naar attach@cisco.com met uw serviceverzoek nummer in de onderwerpregel of in uw bericht. Opmerking: Verlaad of stroomcyclus de router niet handmatig voordat u de bovenstaande informatie verzamelt, tenzij vereist om een fout in de pariteit van het processorgeheugen op te lossen, omdat dit kan veroorzaken dat belangrijke informatie verloren gaat die nodig is om de oorzaak van het probleem te bepalen. |
Gerelateerde informatie