You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
DCGM 을 이용하여 프로메테우스에 GPU 메트릭을 제공하는 작업임.
로컬에 설치하지 않고, 링크 에 제시된 방법대로 컨테이너에서 제공
따라서, 각 서버에서 nvcr.io/nvidia/k8s/dcgm-exporter:2.0.13-2.1.2-ubuntu18.04 이미지를 사용하여 가동중인 컨테이너는
삭제하지 않도록 주의해야 함.
현재(2021.06.21) 1-6 번 서버는 9400 번 포트를 통해서 GPU 메트릭을 제공중임.
7번 서버는 적용하는데 문제가 있어 서베이 중.
https://github.com/NVIDIA/gpu-monitoring-tools
DCGM 을 이용하여 프로메테우스에 GPU 메트릭을 제공하는 작업임.
로컬에 설치하지 않고, 링크 에 제시된 방법대로 컨테이너에서 제공
따라서, 각 서버에서 nvcr.io/nvidia/k8s/dcgm-exporter:2.0.13-2.1.2-ubuntu18.04 이미지를 사용하여 가동중인 컨테이너는
삭제하지 않도록 주의해야 함.
현재(2021.06.21) 1-6 번 서버는 9400 번 포트를 통해서 GPU 메트릭을 제공중임.
7번 서버는 적용하는데 문제가 있어 서베이 중.
해당 문서는 프로메테우스 통합문서(#6) 에 일부 내용을 병합하겠음.
추가작업
Grafana 대시보드를 수정하여서 GPU도 서버별로 볼 수 있도록 제공하였음
대시보드 이름은 GPU 대시보드 임
The text was updated successfully, but these errors were encountered: