728x90
반응형
pytorch로 구성된 모델을 로딩하는 도중, 아무런 반응이 없이 멈춰있는 경우가 발생했다.
실제 Ctrl C로 로그를 살펴보니 아래처럼 cpp_extension.py에서 time.sleep으로 멈춘 경우가 발생했다.
File "/opt/conda/envs/PROJECT/lib/python3.8/site-packages/torch/utils/cpp_extension.py", line 1080, in load
return _jit_compile(
File "/opt/conda/envs/PROJECT/lib/python3.8/site-packages/torch/utils/cpp_extension.py", line 1307, in _jit_compile
baton.wait()
File "/opt/conda/envs/PROJECT/lib/python3.8/site-packages/torch/utils/file_baton.py", line 42, in wait
time.sleep(self.wait_seconds)
KeyboardInterrupt
해결 방법을 찾던 도중 아래와 같은 답변을 찾았고, 저기서 얘기하는 것 처럼 cache파일을 찾아 삭제했더니 해결되었다.
+) cache파일을 못찾을 땐 저기 답변처럼 python -m pdb 옵션을 주어서 pdb debugger을 실행 후, 명령어 c를 통해 쭉 진행하다가 이전처럼 stuck 현상이 일어날 때, ctrl C를 눌러서 path를 출력해보자.
내 경우엔 다음과 같이 self.lock_file_path를 출력해서 cache 폴더를 찾아 낼 수 있었다.
728x90
반응형