Skip to content

实验中断网会导致实验中断 #1281

@Alloman

Description

@Alloman

如果在程序运行过程中出现网络中断的问题,程序会报错退出,导致实验中断。这导致即便网络恢复后,使用同步命令上传log,也无法获得完整的log日志(因为训练程序已经停了😭)。

测试代码如下:

import swanlab
import random
from time import sleep

# 创建一个SwanLab项目
swanlab.init(
    # 设置项目名
    project="my-awesome-project",
    console=True,
    # 设置超参数
    config={
        "learning_rate": 0.02,
        "architecture": "CNN",
        "dataset": "CIFAR-100",
        "epochs": 10
    }
)

# 模拟一次训练
epochs = 20
offset = random.random() / 5
for epoch in range(2, epochs):
    acc = 1 - 2 ** -epoch - random.random() / epoch - offset
    loss = 2 ** -epoch + random.random() / epoch + offset

    sleep(2)  # 模拟训练时间

  # 记录训练指标
    swanlab.log({"acc": acc, "loss": loss})

# [可选] 完成训练,这在notebook环境中是必要的
swanlab.finish()

结果

共运行20轮,断网后swanlab报错,导致程序中断在17轮。
Image

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions