-
[Driver] Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error 애러 해결Code/OS 2023. 7. 10. 18:35
다음과 같이 Nvidia GPU의 Unkown Error인 경우이다.
조사해 보니 대체적으로
1. Power 공급이 충분하지 못한 경우
2. PCI 포트에 재대로 장착이 안된경우
3. 장치 이상인 경우
4. 온도(또는 GPU 사용)이 갑자기 임계치 이상으로 상승되는 경우
-> 온도 문제인 경우 발열관리가 잘 안되어 CPU온도가 임계치 이상으로 상승된 경우 컴퓨터가 셧다운 됩니다.
나의 경우에
- 1. 서버 파워 1600 *2의 환경에서 CPU 200W GPU 300W * 3장 쓰고 있으므로 파워는 넉넉하다.
- 2. PCI포트 체결은 잘 되어있음을 확인하였다.
- 3. 장치 3개에서 애러 발생시 리부트를 진행하면 장치 2개 인식 그다음 애러를 만나면 1개 인식이 되었다. 장치 2개가 한번에 불량인 경우는 일단 생각하지 않기로 한다.
(비행기 엔진이 한번에 고장날 확률은 매우 매우 낮다)GPU를 풀로드 하면 문제가 발생한다. 느낌적인 느낌으로 GPU 장치가 컴퓨터의 임계값 이상의 리소스 사용을 하는 것 같다. 4번을 의심힘다. 보통의 경우 1, 4번의 해결은 파워 사용량을 아래와 같이 제한 시킨다.
# -pm --persistence-mode= # Set persistence mode: 0/DISABLED, 1/ENABLED $ sudo nvidia-smi -pm 1 >> Enabled persistence mode for GPU 00000000:02:00.0. All done. # -pl --power-limit # Specifies maximum power management limit in watts. $ sudo nvidia-smi -pl 290 >> Power limit for GPU 00000000:02:00.0 was set to 290.00 W from 390.00 W. All done.
persistence mode를 on만 하여 명시적으로 파워의 제한을 250(GPU의 MAX 사용량)으로 둔다.
문제 해결 !!
code ref. https://ssaru.github.io/2021/05/21/20210521-til_gpu_is_lost_reboot_the_system_to_recover_this_gpu/
'Code > OS' 카테고리의 다른 글