LlaMA-7B + LoRA在16GB的V100上OOM

尊敬的作者您好，我按照库中的配置，将`per_device_train_batch_size`和`per_device_eval_batch_size`都设置为1，发现在单卡16GB的V100上运行`lomo_lora_trainer.py`训练LlaMA-7B会出现OOM的问题。

具体配置如下
```
# model
model_name_or_path: 'openlm-research/open_llama_7b'
# data
dataset_name: 'wic'
refresh: false
data_tag: 'base'
train_on_inputs: false
data_max_length: 1024
# training
# trainer
peft_type: 'lora'
lora_only: false
hf_learning_rate: 0.0005
hf_weight_decay: 0
hf_lr_scheduler_type: 'linear'
hf_warmup: 0.05
tag: 'lora-qv-r2-lomo'
output_dir: 'outputs'
overwrite_output_dir: true
deepspeed: 'config/ds_config_lora.json'
do_train: true
do_eval: true
evaluation_strategy: 'epoch'
per_device_train_batch_size: 1
per_device_eval_batch_size: 1
learning_rate: 0.005
weight_decay: 0
num_train_epochs: 10
lr_scheduler_type: 'linear'
warmup: 0.05
clip_grad_norm: 1.0
#clip_grad_value: 1.0
#clip_loss_value: 5.0
log_level: 'info'
logging_steps: 1
# please set `resume_from_checkpoint` to load checkpoints. check `merge_llama_with_lora.py` first.
#resume_from_checkpoint: 'outputs/wic_7B_lora-qv-r2-lomo/output_lr0.005_bs16_warmup0.05_clipnorm1.0/checkpoint-0/merge_weights'
# please set `save_strategy` (`no`, `epoch`, `steps`) and `save_total_limit` (the max amount of checkpoints) to save checkpoints.
save_strategy: 'no'
save_total_limit: 0
seed: 42
#bf16: true
remove_unused_columns: false
load_best_model_at_end: false
metric_for_best_model: 'acc'
optim: 'sgd'
group_by_length: false
#report_to: 'wandb'
dataloader_pin_memory: false
gradient_checkpointing: true
predict_with_generate: false
lora_r: 2
```

顺便说一下，我在按照上述同样的配置，不用lora的情况下，在16GB的V100上通过LOMO训练LlaMA-7B将占用15933MB的显存，和论文中的结果似乎不太一样。请问是哪里我配置得不对吗？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

LlaMA-7B + LoRA在16GB的V100上OOM #53

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

LlaMA-7B + LoRA在16GB的V100上OOM #53

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions