汀丶人工智能

05-29 10:44 阿里巴巴_算法工程师

关注

LLM 大模型学习必知必会系列(八)：10分钟微调转述模型

LLM 大模型学习必知必会系列(八)：10分钟微调专属于自己的大模型

1.环境安装

# 设置pip全局镜像 (加速下载)
pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/
# 安装ms-swift
pip install 'ms-swift[llm]' -U

# 环境对齐 (通常不需要运行. 如果你运行错误, 可以跑下面的代码, 仓库使用最新环境测试)
pip install -r requirements/framework.txt  -U
pip install -r requirements/llm.txt  -U

2.微调前推理

使用python:

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

from swift.llm import ModelType, InferArguments, infer_main
infer_args = InferArguments(model_type=ModelType.qwen1half_4b_chat)
infer_main(infer_args)

"""
<<< 你是谁？
我是来自阿里云的大规模语言模型，我叫通义千问。
--------------------------------------------------
<<< what's your name?
I am Qwen, a large language model from Alibaba Cloud.
--------------------------------------------------
<<< 你是谁研发的？
我是阿里云自主研发的超大规模语言模型。
--------------------------------------------------
<<< 浙江的省会在哪？
浙江的省会是杭州。
--------------------------------------------------
<<< 这有什么好吃的？
浙江的美食非常丰富，比如杭州的西湖醋鱼、东坡肉、龙井虾仁、宋嫂鱼羹等都是著名的浙江美食。此外，浙江还有许多小吃，比如油条、烧麦、汤圆、粽子等。
--------------------------------------------------
<<< 晚上睡不着觉怎么办
晚上睡不着觉可以尝试以下几种方法：

1. 放松身心：可以尝试做一些放松身心的活动，比如听音乐、做瑜伽、冥想等。

2. 保持规律作息：尽量保持每天的作息规律，避免熬夜。

3. 避免刺激性食物：避免吃辛辣、油腻、咖啡因等刺激性食物，这些食物可能会刺激神经系统，导致失眠。

4. 适当运动：适当的运动可以帮助身体放松，有助于睡眠。

5. 睡前喝牛奶：牛奶中含有色氨酸，可以帮助身体产生褪黑激素，有助于睡眠。
"""

如果你要进行单样本推理, 可以参考LLM推理文档

使用CLI:

CUDA_VISIBLE_DEVICES=0 swift infer --model_type qwen1half-4b-chat

3.微调

提示: 因为自我认知训练涉及到知识编辑, 建议对MLP加lora_target_modules. 你可以通过指定--lora_target_modules ALL在所有的linear层(包括qkvo以及mlp)加lora. 这通常是效果最好的.

使用python:

# Experimental environment: A10, 3090, V100, ...
# 22GB GPU memory
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

from swift.llm import DatasetName, ModelType, SftArguments, sft_main

sft_args = SftArguments(
    model_type=ModelType.qwen1half_4b_chat,
    dataset=[f'{DatasetName.alpaca_zh}#500', f'{DatasetName.alpaca_en}#500',
             f'{DatasetName.self_cognition}#500'],
    logging_steps=5,
    max_length=2048,
    learning_rate=5e-5,
    warmup_ratio=0.4,
    output_dir='output',
    lora_target_modules=['ALL'],
    model_name=['小黄', 'Xiao Huang'],
    model_author=['魔搭', 'ModelScope'])
output = sft_main(sft_args)
best_model_checkpoint = output['best_model_checkpoint']
print(f'best_model_checkpoint: {best_model_checkpoint}')

"""Out[0]
{'loss': 1.36837471, 'acc': 0.6827153, 'grad_norm': 2.69893861, 'learning_rate': 2.7e-06, 'epoch': 0.01, 'global_step': 1}
{'loss': 1.64843678, 'acc': 0.62217778, 'grad_norm': 1.68335974, 'learning_rate': 1.351e-05, 'epoch': 0.05, 'global_step': 5}
{'loss': 1.81131458, 'acc': 0.59357905, 'grad_norm': 1.78167629, 'learning_rate': 2.703e-05, 'epoch': 0.11, 'global_step': 10}
{'loss': 1.70607147, 'acc': 0.60849266, 'grad_norm': 1.47256434, 'learning_rate': 4.054e-05, 'epoch': 0.16, 'global_step': 15}
{'loss': 1.51096973, 'acc': 0.63005199, 'grad_norm': 0.91772562, 'learning_rate': 5.405e-05, 'epoch': 0.22, 'global_step': 20}
{'loss': 1.5484211, 'acc': 0.62795267, 'grad_norm': 1.11152458, 'learning_rate': 6.757e-05, 'epoch': 0.27, 'global_step': 25}
{'loss': 1.43836861, 'acc': 0.64279995, 'grad_norm': 1.1565901, 'learning_rate': 8.108e-05, 'epoch': 0.33, 'global_step': 30}
{'loss': 1.38720503, 'acc': 0.64892483, 'grad_norm': 0.98939317, 'learning_rate': 9.459e-05, 'epoch': 0.38, 'global_step': 35}
{'loss': 1.28600607, 'acc': 0.67057638, 'grad_norm': 2.26390719, 'learning_rate': 9.455e-05, 'epoch': 0.43, 'global_step': 40}
{'loss': 1.2084446, 'acc': 0.68125477, 'grad_norm': 1.39036703, 'learning_rate': 8.545e-05, 'epoch': 0.49, 'global_step': 45}
{'loss': 1.39412193, 'acc': 0.64913111, 'grad_norm': 0.6860683, 'learning_rate': 7.636e-05, 'epoch': 0.54, 'global_step': 50}
Train:  54%|███████████████████████████████████████████████▊                                        | 50/92 [02:57<02:28,  3.53s/it]
{'eval_loss': 1.54409802, 'eval_acc': 0.5955491, 'eval_runtime': 0.5527, 'eval_samples_per_second': 18.092, 'eval_steps_per_second': 9.046, 'epoch': 0.54, 'global_step': 50}
Val: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 13.27it/s]
[INFO:swift] Saving model checkpoint to /xxx/output/qwen1half-4b-chat/v0-20240225-194502/checkpoint-50
{'loss': 1.1771349, 'acc': 0.67886224, 'grad_norm': 1.06721985, 'learning_rate': 6.727e-05, 'epoch': 0.6, 'global_step': 55}
{'loss': 1.25694866, 'acc': 0.67727785, 'grad_norm': 1.27860904, 'learning_rate': 5.818e-05, 'epoch': 0.65, 'global_step': 60}
{'loss': 1.18360176, 'acc': 0.70474091, 'grad_norm': 0.71210742, 'learning_rate': 4.909e-05, 'epoch': 0.71, 'global_step': 65}
{'loss': 1.08381062, 'acc': 0.71071234, 'grad_norm': 1.32174027, 'learning_rate': 4e-05, 'epoch': 0.76, 'global_step': 70}
{'loss': 1.23212566, 'acc': 0.68333907, 'grad_norm': 0.87663323, 'learning_rate': 3.091e-05, 'epoch': 0.82, 'global_step': 75}
{'loss': 1.2107378, 'acc': 0.70353975, 'grad_norm': 0.78985584, 'learning_rate': 2.182e-05, 'epoch': 0.87, 'global_step': 80}
{'loss': 1.32458553, 'acc': 0.6687315, 'grad_norm': 1.25317574, 'learning_rate': 1.273e-05, 'epoch': 0.92, 'global_step': 85}
{'loss': 1.28211155, 'acc': 0.67041779, 'grad_norm': 1.10373855, 'learning_rate': 3.64e-06, 'epoch': 0.98, 'global_step': 90}
Train: 100%|████████████████████████████████████████████████████████████████████████████████████████| 92/92 [05:31<00:00,  3.60s/it]
{'eval_loss': 1.53501475, 'eval_acc': 0.59796807, 'eval_runtime': 0.521, 'eval_samples_per_second': 19.193, 'eval_steps_per_second': 9.597, 'epoch': 1.0, 'global_step': 92}
Val: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 13.74it/s]
[INFO:swift] Saving model checkpoint to /xxx/output/qwen1half-4b-chat/v0-20240225-194502/checkpoint-92
"""

使用CLI (单卡):

# Experimental environment: A10, 3090, V100, ...
# 22GB GPU memory
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model_type qwen1half-4b-chat \
    --dataset alpaca-zh#500 alpaca-en#500 self-cognition#500 \
    --logging_steps 5 \
    --max_length 2048 \
    --learning_rate 5e-5 \
    --warmup_ratio 0.4 \
    --output_dir output \
    --lora_target_modules ALL \
    --model_name 小黄 'Xiao Huang' \
    --model_author 魔搭 ModelScope \

使用CLI (DeepSpeed-ZeRO2):

如果你使用的是3090等卡, 可以降低max_length来减少显存消耗.

# Experimental environment: 4 * 3090
# 4 * 24GB GPU memory
CUDA_VISIBLE_DEVICES=0,1,2,3 \
NPROC_PER_NODE=4 \
swift sft \
    --model_type qwen1half-4b-chat \
    --dataset alpaca-zh#500 alpaca-en#500 self-cognition#500 \
    --logging_steps 5 \
    --max_length 2048 \
    --learning_rate 5e-5 \
    --warmup_ratio 0.4 \
    --output_dir output \
    --lora_target_modules ALL \
    --model_name 小黄 'Xiao Huang' \
    --model_author 魔搭 ModelScope \
    --deepspeed default-zero2

4.微调后推理

你需要设置best_model_checkpoint的值, 该值会在sft的最后被打印出来.

使用python:

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

from swift.llm import InferArguments, merge_lora, infer_main

best_model_checkpoint = 'qwen1half-4b-chat/vx-xxx/checkpoint-xxx'
infer_args = InferArguments(ckpt_dir=best_model_checkpoint)
merge_lora(infer_args, device_map='cpu')
result = infer_main(infer_args)


"""Out[0]
<<< 你是谁？
我是魔搭的人工智能助手，我的名字叫小黄。我可以回答你的问题、提供信息、进行对话等等。如果你有任何问题或需要帮助，请随时告诉我。
--------------------------------------------------
<<< what's your name?
I am Xiao Huang, an artificial intelligence assistant developed by ModelScope.
--------------------------------------------------
<<< 你是谁研发的？
我是由魔搭研发的。
--------------------------------------------------
<<< 浙江的省会在哪？
浙江省的省会是杭州。
--------------------------------------------------
<<< 这有什么好吃的？
浙江的美食非常丰富，比如杭州的西湖醋鱼、东坡肉、龙井虾仁等等都是非常有名的菜肴。此外，浙江还有许多小吃，比如油条、烧饼、汤圆等等。
--------------------------------------------------
<<< 晚上睡不着觉怎么办
晚上睡不着觉可以尝试以下几种方法：
1. 放松身心：可以尝试做一些放松身心的活动，比如听音乐、冥想、深呼吸等等。
2. 保持规律的作息：尽量保持规律的作息，避免熬夜。
3. 避免刺激性物质：避免摄入咖啡因、酒精等刺激性物质，这些物质可能会干扰你的睡眠。
4. 适当运动：适当的运动可以帮助你放松身心，提高睡眠质量。
5. 睡前放松：可以尝试一些睡前放松的活动，比如阅读、听轻音乐、泡热水澡等等。
希望以上建议能够帮助你改善睡眠质量。
"""

使用CLI:

# 直接推理
CUDA_VISIBLE_DEVICES=0 swift infer --ckpt_dir 'qwen1half-4b-chat/vx-xxx/checkpoint-xxx'

# Merge LoRA增量权重并推理
# 如果你需要量化, 可以指定`--quant_bits 4`.
CUDA_VISIBLE_DEVICES=0 swift export \
    --ckpt_dir 'qwen1half-4b-chat/vx-xxx/checkpoint-xxx' --merge_lora true
CUDA_VISIBLE_DEVICES=0 swift infer --ckpt_dir 'qwen1half-4b-chat/vx-xxx/checkpoint-xxx-merged'

5.Web-UI

使用python:

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '0'

from swift.llm import AppUIArguments, merge_lora, app_ui_main

best_model_checkpoint = 'qwen1half-4b-chat/vx-xxx/checkpoint-xxx'
app_ui_args = AppUIArguments(ckpt_dir=best_model_checkpoint)
merge_lora(app_ui_args, device_map='cpu')
result = app_ui_main(app_ui_args)

使用CLI:

# 直接使用app-ui
CUDA_VISIBLE_DEVICES=0 swift app-ui --ckpt_dir 'qwen1half-4b-chat/vx-xxx/checkpoint-xxx'

# Merge LoRA增量权重并使用app-ui
# 如果你需要量化, 可以指定`--quant_bits 4`.
CUDA_VISIBLE_DEVICES=0 swift export \
    --ckpt_dir 'qwen1half-4b-chat/vx-xxx/checkpoint-xxx' --merge_lora true
CUDA_VISIBLE_DEVICES=0 swift app-ui --ckpt_dir 'qwen1half-4b-chat/vx-xxx/checkpoint-xxx-merged'

******************************************

AI前沿技术文章被收录于专栏

AI前沿技术

全部评论

推荐最新楼层

11-22 16:57

明源云_财务管培生(准入职员工)

明源云内推明源云面经

面经：面试官让我先简单自我介绍一下，然后问我学习经历中有没有遇到过难以解决的问题，当时具体是遇到了什么样的困难，我做了什么努力最后化解了这个困难，然后我把我在学校搞比赛遇到的一些专业知识在实操过程中遇到的困难说了一下，提到了盈亏平衡点这个概念，然后她就立马追问我是怎么解决盈亏平衡点这个问题的，包括当时我作为这个项目的财务负责人我是怎么向其他团队成员说明帮助他们更好的理解这个概念的，然后我又简单说了一下，然后这个小点才算过去。后面又问了一些对于企业的了解啊还有一些心理方面的问题明源云25届校招11月持续中，速来网申关于我们：明源云诞生于1997年，2020年于香港联交所主板上市，是不动产行业数字...

点赞评论收藏

分享

不愿透露姓名的神秘牛友

11-26 15:46

已编辑

字节国际电商后端薪资统计

字节国际电商后端 24k-35k

点赞评论收藏

分享

10-16 16:19

第一拖拉机制造厂拖拉机学院 Java

秋招第一个oc

牛客771574427号：恭喜你，华杰

点赞评论收藏

分享

11-12 10:25

武汉晴川学院 Java

这家公司咋样啊哥姐们

我见java多妩媚：大外包

点赞评论收藏

分享

11-26 16:16

山东大学嵌入式软件工程师

提前预习，Leader的PUA话术

实习er：“你表现得很好，部门领导给你打分都很高，转正希望很大”“过两天新来几个实习生，他们简历很优秀，在XX大厂实习过”“这个项目单独给你做，挤一挤时间完成他，其他实习生我没给，对转正有用”“就你这工作态度，以后哪个公司敢要你？”“这么简单的任务都完成不好，你还想不想转正了？”“你别觉得自己了不起，你离我的要求还差得远呢。”“别人怎么都能做好，就你不行？你是不是能力有问题？”“你要是再这样下去，实习评价肯定好不了。”“我对你很失望，你根本没有发挥出你的潜力。”“你怎么这么笨啊？教了你多少次了还不会，我都怀疑你是不是根本没用心。”“你看看你做的这点事儿，就这水平还大学生呢？我随便找个高中生都比...

牛肉爆大虾：我对你是比较失望的，我当初给你的评级是高于你的面试表现的.......（省略200字）

你觉得哪一届的校招最难？上班苦还是上学苦呢？

点赞评论收藏

分享

评论

点赞

4

招聘动态

字节跳动

2025校园招聘

阿里云管培生

2025届校园招聘

快手Star

2025届招聘

快手

销售类投递专区

富士通（西安）

2025校园招聘

全站热榜

正在热议

# 25届秋招总结 #

386845次浏览 3851人参与

# 硬件兄弟们甩出你的华为奖状 #

76965次浏览 623人参与

# 北方华创开奖 #

65290次浏览 542人参与

# 地方国企笔面经互助 #

6274次浏览 14人参与

# 实习，投递多份简历没人回复怎么办 #

2431904次浏览 34676人参与

# 发工资后，你做的第一件事是什么 #

5639次浏览 24人参与

# 阿里云管培生offer #

55552次浏览 1706人参与

# ai智能作图 #

16210次浏览 219人参与

# 实习与准备秋招该如何平衡 #

721164次浏览 8538人参与

# 我的实习求职记录 #

6112577次浏览 83886人参与

# 哪些公司校招卡第一学历 #

31880次浏览 93人参与

# 如果再来一次，你还会选择这个工作吗？ #

105949次浏览 1065人参与

# 工作中，你有没有遇到非常爱骂人的领导？ #

4528次浏览 46人参与

# 在职场上，你最讨厌什么样的同事 #

5379次浏览 77人参与

# 如果你有一天可以担任公司的CEO，你会做哪三件事？ #

9416次浏览 193人参与

# 牛客租房专区 #

4218次浏览 118人参与

# 如果有时光机，你最想去到哪个年纪？ #

27283次浏览 566人参与

# 华为工作体验 #

109726次浏览 853人参与

# 中兴求职进展汇总 #

467278次浏览 2435人参与

# 还记得你第一次面试吗？ #

30810次浏览 434人参与

# 秋招你被哪家公司挂了? #

344422次浏览 3289人参与

216940次浏览 2544人参与

牛客网
牛客企业服务