마음 속 하늘은 항상 맑음~!

하드웨어 모니터링과 LiveKernelEvent 141 본문

카테고리 없음

하드웨어 모니터링과 LiveKernelEvent 141

파르셀수스 2021. 6. 7. 17:11

 램 컨트롤러의 문제로 크래시가 나타나는 줄 알았는데 그게 아니라 그래픽카드가 PCIE 최재 절전 상태에서 깨어나는 문제였다. 결론적으로 램 컨트롤러나 램의 문제는 없었다.

 

 Power Saving 전원설정을 찾아서 사용 중인데 거기 설정 중에는 PCIE 절전을 최대 절전으로 하는 부분이 있었는데 그 설정이 전력소비를 크게 줄여주지도 않으면서 문제를 일으킨 것 같다.

 

 PCIE 버스의 전력 설정을 건드리지 않고 그냥 그래픽카드의 자체 절전 기능을 믿는 것이 더 나은 것 같다.

 예전의 전압이나 다른 설정들로 트윅을 하던 잘못된 가설들은 크게 의미가 없어졌다.

 

 p.s.

  문제의 원인은 결국 글카였다. 메모리는 문제가 없었다. 참 엉뚱한 결론.

 

p.s.

  글카도 문제가 아닌게 바이오스 문제였다. 역시 바이오스도 꼭 최신이 좋은게 아니다. LiveKernelEvent 141이 뜬다면 그래픽 가속 쪽의 문제로 메인보드 바이오스와 글카 사이에 문제가 있는 것 같다.

 바이오스 다운 그레이드로 완전히 문제가 사라지는 것은 아닌데 한번에 복구가 되는 바이오스에 따라 차이가 있는 것 같다. Power On이나 Wake Up이후에 한번은 그냥 고정적으로 한번씩 꼭 오류를 만나는걸 보면 글카 문제도 있는 것 같은데 규칙적인 패턴이라 그냥 편하게 생각하기로 했다.

 나중에 글카를 바꿔야겠다.

 

p.s.

 모든 가설이 뒤집어가면서 틀리고 있다 그냥 그려려니 해야겠다. 어딘가 하나 이상한 것은 확실한 듯.

 

p.s.

 문제는 램 뱅크 위치였다. 기판 패턴에 따라서 서로 다른 위치에 사용하는데 중심 배선이 대각선이나 사선 패턴은 2번이나 3번 뱅크로 중심 배선 패턴이 일반 평행선이면 더 반응성이 느려서 CPU에 더 가까운 0번이나 1번에 두어야 한다.

 잘 되지만 전기 신호적으로 미묘한 차이가 나는게 참 신기하네.

 

p.s.

 램 뱅크 문제이기 보다는 램타이밍 쪽의 문제 같다. 결국엔 RCD값을 +1 RC값을 +2로 하는 것으로 안정화. 그냥 램이 성능이 별루인 것 같다. 2017년 생산 주차 램이 그럴 수 밖에.

 

 이 문제의 원인은 아마도 라이젠의 램 안정성이 일반 CPU가 요구하는 안정성과 PCIE장치가 요구하는 안정성이 다른 것 같다. IO 전송과 연관된 DMA 컨트롤러 쪽 문제일수도 있다.

 여튼 이 문제는 tRC를 SPD 스펙에서 +3까지 조정하는 것으로 안정성을 해결볼 수 있었다.

 신기하게도 윈도우즈 관련 UEFI 부팅 기능 옵션을 켜면 그 요구 사항이 더 높아지는 뭔가의 초기화가 있거나 하드웨어 설정이 있는지도 모르겠다. SMU 문제일수도 있을 것 같은데, 어쨌던 tRC 타이밍을 늘리는걸로 안정성은 해결을 볼 수 있는 것 같다.

 마이크론이 아닌 다른 벤더의 램은 어떨지 궁금. 만약 다른 벤더의 램에서도 비슷한 livekernelevent 141이 일어난다면 같은 현상으로 라이젠의 특성이라고도 볼 수 있을 것 같다.

 PCIE버스와 램 사이의 안정성인지는 언젠가는 알게 되겠지.

 

p.s.

 그냥 안정성을 위해선 tRC+4이다. CPU가 수율이 안좋은게 걸렸던 것 같다.

 

p.s.

 문제의 원인으로 하드웨어 모니터링의 팬 모니터링과 온도 경고 설정을 의심.

 

 램 문제는 아닌 것 같고, 바이오스 하드웨어 모니터링 쪽이 문제를 일으키는 것 같다. 그러나 여전히 가설일 뿐.

 

p.s.

 살짝 글카 쪽도 문제가 있는 것 같다. 아마도 DMA IO 전송쪽인 것 같은데 글카 쪽의 문제인 듯.

 IOMMU를 enabled로 설정해서 강제로 켜면 증상이 완화된다. 기본적으론 윈도우즈 엔터프라이즈를 사용하지 않으면 IOMMU는 자체적으론 사용되지 않는다.

 

 

0 Comments
댓글쓰기 폼