聊聊育种大模型

news/2024/10/4 7:25:48

从去年年末开始到现在,大语言模型(Large Language Models,LLM)热度依旧不减。

有实力烧钱的机构在训练自己的LLM,没实力想凑热闹的更聚焦在垂直领域的应用上,绝大多数企业属于后者。

每个行业多多少都有人在做基础模型的微调和打造私有知识库,以期不被时代抛弃。

医疗、法律、金融、教育、心理学等等都已经公开不少大模型。农业育种也不例外,虽然听起来很穷。

小编推测肯定是有不少单位在做类似的事情,只是有些在憋大招,而有些已经迫不及待地放出消息蹭热点了。

比如HSAT公司的CropGPT,动用上千名员工收集了数十亿条数据,以作物的气象和卫星数据为基础,以数百万页的作物研究为训练基础建立模型,每日更新本地报告。宣称是全球首个作物GPT,将会成为世界标准。

具体查看官网:https://hsat.space/crop-gpt-hsat/

小编试着联系了下,说是商用,不公开任何细节。因此具体应用如何,不得而知。

国内,华中农大/三亚智惠曲辰的李林教授在宣传他们的CropGPT和CornGPT。据说CornGPT已经为陕西秦丰、甘肃五谷、广东绿色科技等多家种企提供服务了。

但从宣传的资料来看,怎么感觉更像是科研服务呢?

相比于包装推广语料,作为一个数据分析人员,我更关注的是算法。

目前研究表明,作物的主效基因太少。因此,分子标记辅助选择(MAS)只针对于抗性等明星基因有效,对于产量这种低遗传力性状是非常有限的。虽然近年来频频有作物高产基因(如30%、40%、50%,甚至60%)发表CNS,但育种家很清楚,把它们放在群体中,显不显著都是一回事。最近几天朋友圈霸屏的Nature文章就批评了这种现象:不要过度吹捧单个或几个基因就可以大幅增加产量,评价产量需要看5个标准。

基因组选择是解决低遗传力性状的很好方法,如果我们无法确切的知道究竟哪些位点起效应,那么不如把它们都纳入进来,根据连锁不平衡,总有起作用的。但李林教授认为以多组学为基础的基因调控网络为单位(而非单组学单基因)来做动植物性状预测比GS的效果更好,并发表了数篇高水平论文。

但是,基因调控何其复杂,测多组学的全息功能图谱便能解析出某一性状的全部相关基因或功能元件吗?围绕中心法则的各个组学根本不存在明显的对应关系,且不说技术本身的局限性(如代谢组的准确性是需要打问号的),就是遗传信息中间每一环节都受到时空调控的变化,以及环境的影响。

徐士忠老师、徐辰武老师、李慧慧老师等团队基于多组学数据做过GS研究,证明多组学数据应用到GS确实能提高准确性。小编认为,Systems biology、multi-omics、single cell、STOmics等技术做做学术科研、搞搞理论基础可以,也挺有意义的。但离实际育种应用还很遥远,抛开复杂性不谈,想想成本就不可能。

同样是化零为整的思路,中国农大的汪海老师以基因家族为单位随机分配训练集和测试集数据来预测基因表达量,这样的做法就显得更可信一些,当然这不属于GS和LMM的内容了。

此外,还有一些公司也号称在做生成式育种AI平台,比如天丰智慧(TFseeds),但更多只是类似科服的宣传,没有看到实质性的东西。

总之,目前有一些相关的学术研究,但在应用层面,尚没有透露出太多有关生成式育种的信息。可能要等其他领域出现范式时,育种模型才知道怎么做。



附国内外主要公司布局的大语言模型

国内

国外

参考:https://zhuanlan.zhihu.com/p/638149613

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/44350.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

MyBatis 的缓存机制

1. MyBatis 的缓存机制 @目录1. MyBatis 的缓存机制2. 准备工作3. MyBatis 的一级缓存3.1 一级缓存失效情况/条件4. MyBatis 的二级缓存5. MyBatis 集成 EhCache 第三方缓存6. 总结:7. 最后:缓存(Cache) 缓存的作用:通过减少 IO 的方式,来提高程序的执行效率 。 MyBatis …

KAN:使用 Microsoft 的 KubeAI Application Nucleus简化边缘 AI

我们需要的是在 Kubernetes 上构建和管理边缘机器学习应用程序的一致方法,一种可以加快开发和交付速度的方法。这就是 KAN 的作用,即 KubeAI Application Nexus。正如介绍性博客文章所指出的那样,这个名字来自一个普通话动词,翻译为“观看”或“看”。KAN 是一个开源项目,…

word中批量修改mathtype公式格式

1、打开一个公式,设置好格式、字体大小等 2、预置/公式预置/保持到文佳,假设保存文件命名为measurement.eqp 3、打开word,mathtype/格式化公式,选择保存的measurement.eqp文件,确定即可

lnmp

一、编译安装Nginx 1.前期准备#安装依赖 yum -y install pcre-devel zlib-devel gcc gcc-c++ make#创建用户 useradd -M -s /sbin/nologin nginx#获取源码包 wget https://nginx.org/download/nginx-1.24.0.tar.gzcd /opt tar xf nginx-1.24.0.tar.gz #解压2.开始编译安装cd …

手把手教你改造 Sentinel Dashboard 实现配置持久化

一. 概述 Sentinel客户端默认情况下接收到 Dashboard 推送的规则配置后,可以实时生效。但是有一个致命缺陷,Dashboard和业务服务并没有持久化这些配置,当业务服务重启后,这些规则配置将全部丢失。 Sentinel 提供两种方式修改规则:通过 API 直接修改 (loadRules) 通过 Data…

WPF修改MessageBox样式(.NET6版本)

.NET6版本及其以上版本,通过GlobalUsings 实现WPF中对MessageBox样式的全局应用一、问题场景 使用HandyControl简写HC 作为基础UI组件库时,希望系统中所有的MessageBox 样式都使用HC的MessageBox,常规操作如下: 在对应的xxxx.cs 顶部使用using 指定特定类的命名空间。 usin…

MISC——攻防世界

pdf 下载附件,一个PDF文件,打开,中间有一个框框,点一下,看见flag:flag{security_through_obscurity} 如来十三掌 下载附件: 夜哆悉諳多苦奢陀奢諦冥神哆盧穆皤三侄三即諸諳即冥迦冥隸數顛耶迦奢若吉怯陀諳怖奢智侄諸若奢數菩奢集遠俱老竟寫明奢若梵等盧皤豆蒙密離怯婆皤…

FreeRTOS简单内核实现4 临界段

本文内容较为简单,主要介绍如何实现临界段以及临界段如何使用@目录0、思考与回答0.1、思考一0.2、思考二0.3、思考三1、关中断1.1、带返回值1.2、不带返回值2、开中断3、临界段4、应用0、思考与回答 0.1、思考一 为什么需要临界段? 有时候我们需要部分代码一旦这开始执行,则…