소개
패리티 오류는 메모리에서 비트 플립입니다. 전자 및 컴퓨팅에서, 내부 또는 외부 소스로부터의 전기적 또는 자기적 간섭은 단일 비트 또는 메모리가 반대 상태로 자발적으로 플립되게 할 수 있다. 이 이벤트는 원래 데이터 비트를 유효하지 않게 하며 패리티 오류라고 합니다.
일반적으로 이러한 오류는 소프트 오류와 하드 오류의 두 가지 다른 유형으로 나뉩니다.
소프트 패리티 오류. 이러한 이벤트는 일시적이며 무작위적입니다. 일반적으로 특정 메모리 뱅크에서 한 번만 표시됩니다.
하드 패리티 오류는 메모리 하드웨어의 물리적 오작동 또는 메모리 셀을 읽고 쓰는 데 사용되는 회로에 의해 발생합니다. 이들은 일반적으로 반복적으로 나타나므로 교체가 필요합니다.
대부분의 패리티 오류는 정전기 또는 자기 관련 환경 조건에 의해 발생합니다. 메모리 칩의 단일 이벤트 오류의 대부분은 배경 방사선(우주선, 핵 시설로부터의 중성자 등), 전자기 간섭(EMI) 및 정전기 방전에 의해 발생합니다. 이러한 이벤트들은 하나 이상의 메모리 셀들의 전기적 상태를 무작위로 변경할 수 있거나 메모리 셀들을 판독 및 기록하는데 사용되는 회로를 간섭할 수 있다.
문제
패리티 오류는 ASR9k 라인 카드에서 사용되는 고밀도 메모리에 대한 실제 오류입니다. 그래서 우리가 그것들을 어떻게 다루느냐가 우리가 통제할 수 있는 전부입니다. 일부 ASR9k(xmen/typhoon) 라인 카드는 드문 상황에서 레이어 1 캐시 오류가 발생할 수 있습니다. 이러한 오류는 데이터 캐시 또는 명령 캐시(DCPERR 또는 ICPERR)에서 커널 패닉으로 나타납니다. 라인 카드의 NP(네트워크 프로세서)에서 사용하는 다양한 메모리 뱅크에서 또 다른 오류가 발견되었습니다. 이러한 오류는 일반적으로 다음 유형의 오류 로그부터 나타납니다.
%PLATFORM-NP-0-NON_RECOVERABLE_SOFT_ERROR
%PLATFORM-NP-3-ECC
%PLATFORM-PFM-0-CARD_RESET_REQ
여기서 문제는 DCPERR/ICPERR로 인해 전체 라인 카드가 다시 로드된다는 것입니다. 다양한 NP 메모리 뱅크의 대다수도 마찬가지였습니다. 대부분의 라인 카드에는 여러 NP가 있으므로 이 방법은 적합하지 않습니다. 1개의 NP에만 문제가 있는 경우 라인 카드의 모든 NP에 영향을 주는 이유는 무엇입니까?
솔루션
태풍 LC CPU 캐시에서 나타나는 DCPERR 및 ICPERR 오류에 대해, 우리는 당황하고 라인 카드를 다시 로드 할 필요성을 피하기 위한 솔루션을 가지고 있습니다. 이 작업은 CSCux30405에서 수행됩니다. 현재 버전 5.3.3 이상에서 통합됩니다.
NP 기억으로는 이게 훨씬 더 복잡해집니다. 우리가 안전하게 무시할 수 있거나 덜 충격적인 회복 방법을 가지고 올 수 있는 다양한 기억들을 없애기 위한 큰 노력이 있어 왔다. 대다수는 5.3.3 이상으로 통합되었으며 대다수의 인기 릴리스를 기반으로 구축된 우산 SMU가 있습니다.
참고: 이로 인해 CSCvc의 참고 자료도 생성되었습니다69282 지속적인 중단으로 인해 커널 충돌이 발생할 수 있습니다.
NP 소프트 오류 처리 개선
2015년 후반기와 2016년 초반에 걸쳐 태풍 및 토마호크 모두에 대한 NP 소프트 오류 처리에 대한 수많은 개선이 이루어졌습니다. 여러 다른 메모리에 대한 처리는 라인 카드 다시 로드가 필요한 방법에서 메모리의 오류를 복구하거나 NP 빠른 재설정을 수행하는 등의 보다 정상적인 방법으로 변환되었습니다. 기능에 영향을 미치지는 않지만 지울 수 없는 오류("스티커")에 대한 처리도 개선되어 오류가 더 이상 재발하지 않습니다. 또한, 특히 NP 명령어 메모리나 내부 TCAM에서 발생하는 오류에 대해 여러 버그를 수정하였다. 이전에는 복구할 수 없었던 오류의 약 80-90%는 이제 복구할 수 있으며 라인 카드를 다시 로드할 필요가 없습니다.
이러한 모든 개선 사항 및 수정 사항은 5.3.3 릴리스 이상에서 통합됩니다. 모든 주요 유지 보수 릴리스에 대해 umbrella SMU에서도 픽스를 사용할 수 있습니다.
434 - CSCux16975
512 - CSCux44633
513 - CSCux16975
531 - CSCux34531
532 - CSCux78563