Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Prometheus - GPU exporter 추가작업 #7

Open
4whomtbts opened this issue Jun 20, 2021 · 0 comments
Open

Prometheus - GPU exporter 추가작업 #7

4whomtbts opened this issue Jun 20, 2021 · 0 comments

Comments

@4whomtbts
Copy link
Contributor

4whomtbts commented Jun 20, 2021

https://github.com/NVIDIA/gpu-monitoring-tools

DCGM 을 이용하여 프로메테우스에 GPU 메트릭을 제공하는 작업임.
로컬에 설치하지 않고, 링크 에 제시된 방법대로 컨테이너에서 제공
따라서, 각 서버에서 nvcr.io/nvidia/k8s/dcgm-exporter:2.0.13-2.1.2-ubuntu18.04 이미지를 사용하여 가동중인 컨테이너는
삭제하지 않도록 주의해야 함.

현재(2021.06.21) 1-6 번 서버는 9400 번 포트를 통해서 GPU 메트릭을 제공중임.
7번 서버는 적용하는데 문제가 있어 서베이 중.

해당 문서는 프로메테우스 통합문서(#6) 에 일부 내용을 병합하겠음.

추가작업

Grafana 대시보드를 수정하여서 GPU도 서버별로 볼 수 있도록 제공하였음
대시보드 이름은 GPU 대시보드

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant