문제해결 가이드(FAQ)

문제해결 가이드(FAQ)


주의사항
  • 체크포인트 저장 주기는 짧게 설정하는 것이 좋습니다.
  • 필요 시 학습 중간에 이상을 감지하고 재시작할 수 있는 로직 반영이 필요합니다. (사용자의 학습 계획에 따른 선택사항)
  • HA 노드 투입이 일어날 수 있으므로 GPU 노드명을 특정해서 사용하지 마십시오.
클라우드 서비스 사용료는 어떻게 처리되나요?
  • ML expert Platform 사용료는 사업비에 포함되어 있으며, ML expert Platform 이외에 사용되는 네이버 클라우드의 서비스는 별도로 과금됩니다.
  • 자세한 내용은 각 서비스별 요금안내 페이지를 참고하세요.
  • 네이버 클라우드 서비스 사용에 대한 문의는 클러쉬 기술지원 채널에서 도와드리겠습니다.
사업비에 포함되어 지원되는 자원은 무엇인가요?
  • 사업비에 포함되어 지원되는 항목은 다음과 같습니다.
    • ML expert Platform 서비스 사용료
    • GPU 인스턴스 (H200 * 8장, 7TB nvme * 4개)
    • DDN 고속 공유 스토리지 (000TB)
GPU 인스턴스에 문제가 있을 경우 어떻게 알 수 있나요?
  • ML expert Platform은 24시간 모니터링 되고 있으며, GPU 인스턴스에 문제가 발생하면 메인계정 생성 시 등록하신 주소로 장애알림과 복구알림이 발송됩니다.
  • GPU 인스턴스에 문제가 발생했을 경우, 대기 장비로 교체될 수 있으며 이때 GPU 인스턴스의 nvme 디스크에 데이터는 초기화 됩니다. (nvme 디스크에는 임시데이터만 저장하세요.)
  • GPU 인스턴스에 문제가 발생하면 빠른 복구를 위해 진행중인 학습을 강제로 중단하고 장애복구가 처리됩니다. 체크포인트를 설정하셔서 예상치 못한 작업 중단에 대비해주세요.
프로젝트에 Pod가 정상적으로 뜨지 않습니다.
아래 항목을 확인하세요.
GPU Resource
  • GPU Resource > GPU Instance에서 배정받은 GPU를 각 프로젝트에 배정하는 작업이 반드시 필요합니다.
GPU Zone 정보 표기
  • 모든 GPU Pod 관련 작업 시(notebook, pytorchjob 등) GPU Zone을 선택하거나 nodeSelector에 명시해야합니다.