#!/bin/bash
# Joint SVD + PARA training on ood_objpos_task0
# 4 GPUs (0,3,5,8), 8-bit not needed (PARA heads are small)

export NCCL_P2P_DISABLE=1
export NCCL_BUFFSIZE=8388608
export PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True

cd /data/cameron/vidgen/svd_motion_lora/Motion-LoRA

eval "$(conda shell.bash hook)"
conda activate motionlora

accelerate launch \
    --config_file scripts/accelerate_configs/multi_gpu_4_joint.yaml \
    train_svd_para_joint.py \
    --pretrained=checkpoints/stable-video-diffusion-img2vid-xt-1-1 \
    --pretrain_unet=output_libero_ood_objpos/checkpoint-31500/unet \
    --cache_root=/data/libero/ood_objpos_task0 \
    --task_ids=0 \
    --num_frames=7 \
    --frame_stride=1 \
    --batch_size=1 \
    --lr=5e-5 \
    --vis_every=200 \
    --ckpt_every=1000 \
    --output_dir=output_svd_para_joint