nvidia-smi
-
[Driver] Unable to determine the device handle for GPU 0000:01:00.0: Unknown Error 애러 해결Code/OS 2023. 7. 10. 18:35
다음과 같이 Nvidia GPU의 Unkown Error인 경우이다. 조사해 보니 대체적으로 1. Power 공급이 충분하지 못한 경우 2. PCI 포트에 재대로 장착이 안된경우 3. 장치 이상인 경우 4. 온도(또는 GPU 사용)이 갑자기 임계치 이상으로 상승되는 경우 -> 온도 문제인 경우 발열관리가 잘 안되어 CPU온도가 임계치 이상으로 상승된 경우 컴퓨터가 셧다운 됩니다. 나의 경우에 - 1. 서버 파워 1600 *2의 환경에서 CPU 200W GPU 300W * 3장 쓰고 있으므로 파워는 넉넉하다. - 2. PCI포트 체결은 잘 되어있음을 확인하였다. - 3. 장치 3개에서 애러 발생시 리부트를 진행하면 장치 2개 인식 그다음 애러를 만나면 1개 인식이 되었다. 장치 2개가 한번에 불량인 경우는..