LLM大模型: DPO原理和源码解析

news/2024/10/1 23:42:20

   1、前段时间国外某大学反向抄袭国内某团队的大模型闹得沸沸扬扬,国内被抄袭的大模型是MiniCPM,详细资料:https://github.com/OpenBMB/MiniCPM ; 能被国外同行抄袭,必定有过人之处,粗略看了一下https://github.com/OpenBMB/MiniCPM/blob/main/model/modeling_minicpm.py 模型文件,发现整个结构和llama类似,没啥特别的,如下:

         

    既然模型整体的结构和llama接近,没啥特别的,效果好就看整个训练策略了!作者详细介绍了训练策略:https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a  主要是从这5个方面优化的:

  • Hyper-parameters
  • Batch size
  • Learning Rate
  • Learning Rate Scheduler
  • Data Strategy

  所以要想大模型效果好,有个大的改进方向:

  • 改模型细节:比如llama用旋转位置编码代替绝对位置编码、采用flashAttention等
  • 改训练策略:比如MiniCPM

    MiniCPM训练策略介绍的文章中指出:采用DPO对齐后,MiniCPM的得分甚至超过了llama2-70b-chat,效果很好啊!这个DPO又是啥了?

   

   2、目前市面上主流LLM,界面上都有反馈功能:觉得好的点赞,绝不不好的点倒赞!背后用的就是强化学习!现成已经实现的库在这里:https://github.com/huggingface/trl

     

 

 

 

参考:

1、https://www.bilibili.com/video/BV1vy4y1P7GT/?spm_id_from=333.788&vd_source=241a5bcb1c13e6828e519dd1f78f35b2   强化学习TRL包源码解读S2——PPO

2、https://shengdinghu.notion.site/MiniCPM-c805a17c5c8046398914e47f0542095a    MiniCPM:揭示端侧大语言模型的无限潜力

3、https://zhuanlan.zhihu.com/p/686664720  如何从零开始训练大模型(minicpm分享&讨论)

4、https://www.bilibili.com/video/BV1Lt421V7K6/?spm_id_from=333.337.search-card.all.click&vd_source=241a5bcb1c13e6828e519dd1f78f35b2    MiniCPM-2B-dpo-bf16MiniCPM-2B-dpo-fp32gradio webdemo演示系统及GPU占用情况

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/44926.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

[转]ECS在游戏后端开发的应用

以下转自知乎南盼:https://zhuanlan.zhihu.com/p/559776142ECS作为一种经典的GamePlay架构,凭借与oop截然不同的数据和逻辑分离的架构设计,使其在游戏客户端领域拥有诸多独有优势,深受很多客户端开发同学的推崇。本文从后端开发的视角出发,期望能借鉴ECS的思想来解决游戏后…

由心知天气服务器响应的实时天气数据并进行JSON解析

由心知天气服务器响应的实时天气数据并进行JSON解析 #include <netinet/in.h> #include <arpa/inet.h> #include <stdio.h> #include <errno.h> #include <sys/socket.h> #include <netinet/in.h> #include <netinet/ip.h> #include…

2024.6.17鲜花/错误的号码

XY 星的星际新闻报一直不太畅销,所以报纸上会有一些广告,毕竟星际新闻局的非机器人员工也得吃饭。 有一则广告是这样的:【数据删除】研学基地位于【数据删除】,该研学基地致力于让学生体验一个幻想纪前的生活并培养学生不借助现代高科技的群居生活能力。该研学基地将于幻想…

红日靶场3

环境搭建 拿到靶场有5台机子,配置网段,仅主机模式网段vmnet2网段为192.168.93.0即可,出网网卡设置为桥接即可,点击继续运行即可 注意的是web机的两台linux开启后记得拍快照,web机隔一段时间web服务会出问题 web渗透 主机发现(我的桥接网段是192.168.1.0) namp -sP 192.168…

2024/6/9

今天写数据库的实验五,使用Java写了一个十分简易的数据库,连输入都没有,只是证明我用Java连上了sqlserver,代码如下:import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet; import java.sql.SQLExc…

2024-06-17-Spring 源码阅读(三)Bean 的生命周期

由于 Spring 源码非常多,博客中贴源码会占用大量篇幅,阅读困难。详细分析部分会以 commit 提交形式关联源码提交,画图例来说明源码整体逻辑。 Bean 生命周期主体逻辑 相关代码:Bean的基本创建流程、lazyInit、循环依赖 Bean 对象创建基本流程 通过最开始的关键时机点分析,…

C# TEKLA 二次开发 版本兼容性解决方案

制作的exe程序,就存在版本兼容性问题 用2022 api编译的exe在2024 中无法启动 解决方案 将exe放在如下位置从此处启动exe即可从宏中可以获取string XSDATADIR = ""; TeklaStructuresSettings.GetAdvancedOption("XSDATADIR", ref XSDATADIR);string extens…