-
Notifications
You must be signed in to change notification settings - Fork 17
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
학습 관련 문의 2가지. #8
Comments
@kittyLunar 님, 안녕하세요.
에폭 1-3에서는 로스가 변하는 것으로 보아 코드의 문제는 아닌 것 같고, learning rate가 너무 작게 설정된 것 같습니다.
코드를 보니 매 에폭마다 덮어 쓰도록 되어 있는 것 같습니다 (pointer). Validation loss가 더 낮을 때만 덮어쓰도록 로직을 짤 수 있을 것 같네요. |
@jaketae 님 답변 감사합니다. 제공해주신 train.sh 와 사용하신 coco dataset을 이용하여 작업을 한 결과입니다. learning rate 를 조금씩 높이면서 테스트 해 보았는데 아래와 같은 변화가 있었습니다. 4.158893585205078
|
안녕하세요. KOCLIP 학습 진행 도중 의문점이 생겨 질문을 드립니다.
저의 데이터만 그런게 아니라, 예시로 있는 coco 데이터도 동일합니다.
이게 정상적인 학습이 맞는건지,, 확인 요청 드립니다.
1-1 . KoCLIP 에서 제공해주는 coco 데이터와 train.sh 를 이용하여 학습
09/04/2023 11:01:46 - INFO - main - ***** Running training *****
09/04/2023 11:01:46 - INFO - main - Num examples = 413915
09/04/2023 11:01:46 - INFO - main - Num Epochs = 40
09/04/2023 11:01:46 - INFO - main - Instantaneous batch size per device = 64
09/04/2023 11:01:46 - INFO - main - Total train batch size (w. parallel & distributed) = 64
09/04/2023 11:01:46 - INFO - main - Total optimization steps = 258680
Epoch... (1/40 | Loss: 4.158902168273926, Learning Rate: 4.8750189307611436e-05)
Epoch... (1/40 | Eval Loss: 4.158883094787598)
Epoch... (2/40 | Loss: 4.158882141113281, Learning Rate: 4.7500190703431144e-05)
Epoch... (2/40 | Eval Loss: 4.1588826179504395)
Epoch... (3/40 | Loss: 4.158883094787598, Learning Rate: 4.625019209925085e-05)
Epoch... (3/40 | Eval Loss: 4.1588826179504395)
Epoch... (4/40 | Loss: 4.158883094787598, Learning Rate: 4.5000189857091755e-05)
Epoch... (4/40 | Eval Loss: 4.1588826179504395)
Epoch... (5/40 | Loss: 4.158883094787598, Learning Rate: 4.375019125291146e-05)
Epoch... (5/40 | Eval Loss: 4.1588826179504395)
1-2. 준비한 학습용 데이터와 train.sh 를 이용하여 학습
08/31/2023 15:16:15 - INFO - main - ***** Running training *****
08/31/2023 15:16:15 - INFO - main - Num examples = 2474242
08/31/2023 15:16:15 - INFO - main - Num Epochs = 40
08/31/2023 15:16:15 - INFO - main - Instantaneous batch size per device = 64
08/31/2023 15:16:15 - INFO - main - Total train batch size (w. parallel & distributed) = 64
08/31/2023 15:16:15 - INFO - main - Total optimization steps = 1546400
Epoch... (1/40 | Loss: 4.158883094787598, Learning Rate: 4.8750029236543924e-05)
Epoch... (1/40 | Eval Loss: 4.1588826179504395)
Epoch... (2/40 | Loss: 4.158883094787598, Learning Rate: 4.750003063236363e-05)
Epoch... (2/40 | Eval Loss: 4.1588826179504395)
Epoch... (3/40 | Loss: 4.158883094787598, Learning Rate: 4.625003202818334e-05)
Epoch... (3/40 | Eval Loss: 4.1588826179504395)
Epoch... (4/40 | Loss: 4.158883094787598, Learning Rate: 4.500002978602424e-05)
Epoch... (4/40 | Eval Loss: 4.158883094787598)
Epoch... (5/40 | Loss: 4.158883094787598, Learning Rate: 4.375003118184395e-05)
Epoch... (5/40 | Eval Loss: 4.1588826179504395)
Epoch... (6/40 | Loss: 4.158883094787598, Learning Rate: 4.250002893968485e-05)
Epoch... (6/40 | Eval Loss: 4.1588826179504395)
Epoch... (7/40 | Loss: 4.158883094787598, Learning Rate: 4.125003033550456e-05)
Epoch... (7/40 | Eval Loss: 4.1588826179504395)
Epoch... (8/40 | Loss: 4.158883094787598, Learning Rate: 4.000003173132427e-05)
Epoch... (8/40 | Eval Loss: 4.1588826179504395)
Epoch... (9/40 | Loss: 4.158883094787598, Learning Rate: 3.875002948916517e-05)
Epoch... (9/40 | Eval Loss: 4.1588826179504395)
Epoch... (10/40 | Loss: 4.158883094787598, Learning Rate: 3.750003088498488e-05)
Epoch... (10/40 | Eval Loss: 4.1588826179504395)
이렇게 25 에폭까지 돌리다가 도저히 아닌 것 같아서 종료 했습니다.
현재 train.sh 및 run.py 구성으로 학습을 진행하면
에폭을 돌 때 마다
Configuration saved in /home/test/koclip/checkpoint/config.json
Model weights saved in /home/test/koclip/checkpoint/flax_model.msgpack
이렇게 항상 같은 경로에 파일을 덮어쓰게 되는데
항상 모든 경우에 덮어 쓰게 되는건지 아니면, 최적의 케이스가 발견되면 그때만 덮어쓰게 되는건지 궁금합니다.
답변 주시면 감사하겠습니다!
The text was updated successfully, but these errors were encountered: