智源大会-2024-十一-

news/2024/9/25 8:11:40

智源大会 2024（十一）

2024北京智源大会-视觉大模型 - P6：圆桌论坛：视觉重回第一赛道？-主持人：颜水成-嘉宾：鲍凡-申琛惠-李俊男-程明明 - 智源社区 - BV13x4y1t7sb

今天的话虽然是我们是这个视觉的，这个呃大模型，但是我们也有这个AMP，也有多模态的那个俊男在这个地方啊，但是在开始之前的话，我们请每一位这个panelist的话，做一个简短的介绍。

比如说呃不只是局限于你现在做的工作，比如说你自己的呃整体来说的兴趣爱好是什么，好吧好，那么从这个爆款开始吧，呃喂大家好，我是神树科技的爆凡，然后呃目前我主要精力是在关于这种视频，大模型上面对。

然后关于他做一些，其实做一些偏一线的一些优化吧，呃，然后在后期其实我也有自己比较感兴趣的方向，比方说这种呃和3D结合的一些世界模型，然后以及说那种呃，其实所有做多模态人的一个愿景吧。

就是那种通用的呃理解生成，在输入输出端都能做到这种统一化的大模型嗯，好的嗯，生辉嗯，诶你拍一下看你拍一下，看是不是开着的，嗯OK大家好啊，我是申真慧，呃，目前在路程科技嗯。

是open sora这个开源团队中的一员，然后呃我博士是在嗯新加坡国立大学，然后其实我博士期间的嗯，做的研究主要是偏向自然语言生成的，然后呃我在接触这个视频生成，这个时间其实还是比较短，然后非常荣幸。

今天有机会可以在这边和行业内，业界的各位专家嗯进行交流学习，非常不错，时间那么短，但是效果已经非常不错了，请好李俊男，大家好，我是俊男，然后我博士也是毕业于新加坡国立大学，然后我博士期间主要呃。

从事的就是计算机视觉相关的研究呃，然后之后我去了这个sales force，在新加坡成立了一个AI研究院呃，然后在那里工作了大概5年的时间，主要最开始还是做一些视觉的这种自监督学习。

然后后来就转到了这个多模态，这种视觉跟语言呃的这个领域的研究上面，然后我个人目前的兴趣，还是对这个多模态大模型是非常感兴趣的，尤其是像类似于GP4V四O的这种模型。

我们怎么能够呃自己打造出来一个类似的模型，这个是我的一个目标，好李宁好，谢谢嗯我我叫呃，我是这程，明明我目前在这个南开大学工作，因为可能跟其他的几位有所不同，可能在企业界呃，所以我们其实呃。

其实跟刚才那个那个报告之后的，那个问题也一样啊，其实我们我这个可能更自由散漫一些啊，就是呃我们可能会呃觉得在学术界，我们会比较关注可能业界这些比较好玩的，比较有趣的事情，然后看完之后慢工出细活。

哎我们看了之后呢，我们希望能够在一些呃关键的一些点上，有一些自己的想法，然后把这些想法去验证出来，然后把它开源出来，然后给给这个给大家提供一些炮弹，然后呢可能我们比较幕后一些吧，好谢谢嗯。

所以我们呃你是清华毕业，对不对，清华，所以所以今天我们思维PALLIST的话，应该是两位NUS，两位清华都是新加坡和这个中国的话，两个最最最棒的大学，在在AI领域的最棒的这个大学了，好吧好。

那么我们进入直接进入问题对嗯，就是今年sorrow以及就是说原生多模态大模型，像g p d four o啊，还有google的那个extra项目的话，他们的这个成功的话。

意味着就是说这个视觉的这个成分的话，就变得越来越重要，那么这些项目的这些成功的话，是否意味着计算机视觉正在取代自然语言的话，成为AI或者，AGII的这个最主流和主导的方向，那么我们方向反过来。

先从陈明明老师那边开始好吧，呃那个呃这个取代这个事，我呃，反正我我我个人一般不太倾向于说，什么东西会取代什么东西啊，就是呃当然这个嗯，呃视觉里边最近的这样一些进展呢，确实给大家一个非常大的一个鼓舞，呃。

去呃，一可能之前我们可能呃更多的在或者过去，过去年或者前年吧，我们更多的在关注这个自然语言的这些东西，然后确实呃比跟我们传统上的印象，可能会早期我们一般都是自然语言的人。

看我们现在变成我们去看他们之后呢，呃这个心里还有点落差啊，但是这个落差还是不服呃，这个哈哈哈哈可能还是有点不服，然后呢我觉得这个呃SORA出来之后的话呢，呃这个哎真是确实给大家很多的这个震撼。

然后呢呃我个人感觉就是呃自然语言呢，其实呃就是从成生成的这个角度来讲，自然语言能率先取得突破呢，还是有道理的，是因为呃自然语言整体来讲的话呢，它的这个信息密度更高一点，它原则上来讲。

我个人感觉他应该是训练的过程中，可能需求会相对低一些，视频呢我们要针对图像视频，我们要真的婉转到这个自然语言的那个高度呃，可能未来对这个计算量呀，对这个复杂度呀等等的这个需求，应该是。

本质上应该是要比自自然语言要大很多的，从这这次说了，貌似好像用的这个GPU的数量的话，好像没有想象的那么大，包括昨天比如说像快手的话，发布他们的那个可灵的那个系统的话。

感觉就是说跟train那个g p t for这样做，会g b d five的话，所需要的资源好像是更少一些的感觉，有哎是的是的是的确实是呃，当然可能跟那个最早的那个GPT比。

这当然第一版的我我我我是这么理解啊，就是说很多模型呃，他第一个出来的时候呢，他更多的是展示说我能干这件事情，他干的这个过程呢不一定是最优化的呃，他甚至可能本质上需要的这个我我刚才说的是。

本质上需要的这个资源呢，它可能不一定那么大，但是呢他为了尽尽快的把这些事情做成，告诉大家，这事情可行，所以呢它消耗了很多的资源，甚至比如说大语言模型，最最开始差GGPX的GPT用了那么多的卡。

其实现在要想复现一个那样的一个模型，同样能力的模型，其实最最新的方法，也不需要那么多的这样一个算力，然后另外一个就是说从这个呃，我们现在这个视频生成确确实是很惊艳啊，但是我们也会看到有很多的这个问题。

比如刚才咱们看到那个视频生成里边那个车，那个车轮，其实并不一定跟着那个车的那个速度在转，嗯其实我们有很多的这样一些呃，就是我们至少说我们先展示出来，有这样的一个能力呃。

当然未未来可能真要像我刚才也也说的过程中，也特意的提到了，说婉转到那个自然语言的那样一个灵活性，呃，我觉得本质上它的复杂度还是蛮高的，嗯真的要是说刚才提也有人提到了，说这个骨骼呀这些东西的一个提取，呃。

我个人感觉他可能我们现在能做到的，可能还是比较泛娱乐化的，就是这个事好玩有趣，我们大概能做这件事情，可真要到说这个骨骼非常精确，或者说这个轮子也也速度转，转的速度也很精确，很多东西能做很深入的一些。

很严肃的一些事情的时候呃，目前的这样的一些可能还有一些差距呃，所以我个人感觉，可能未来我们这个呃图像视频这块，我们可能可以拓展或者可以玩的空间，可能会非常的大或者更大一些吧。

所以我觉得还是对我们这个领域，还觉得挺好的一个事，好谢谢，那这个其实是有一个有趣的一个事情啊，就是说在NIP领域的话，貌似就是第一个做出来的和第二个做出来的，它其实它的资源的消耗差距不是那么大。

但是做计算机视觉的话，相当于说好像一个特点是说，第一个做出来的和第二个做出来的话，他们的资源消耗的这个量的话，往往是非常非常的这个巨大的对，比如说这次的whole or a solar的话。

据说他们应该都是LMA，可能应该是超过就是在1万块到10万块K啊，不就是H100的这个这个基础上衬出来的对，但是现在明显的话就是包括中国这种复线的话，可能大概就是在大几千块卡这种这种level。

所以就是说其实它至少有个几十倍的这种，差距对，就是这个这个是蛮有蛮有意思的一个现象，好那我那个俊男嗯，对我觉得首先作为这个视觉和多模态研究者，是非常感谢这个自然语言这个领域。

率先发现了这个skin law，呃，我觉得NLP能率先发现scale now，是有一些它内在的原因，就是首先是它这个我们人类的语语料，在网上是非常好，呃，相对于视视觉来讲是更容易处理的。

呃包括它数据的信息密度，刚刚呃程教授说，包括它占占据的内存啊，包括它计算所需的资源来讲，呃所以从skin law这个角度出发，呃，我个人觉得我们视觉刚刚开始发现这个东西。

可能自然语言它已经呃到了一个已经开始呃，从exponential curve到signal id curve这样一个阶段呃，但是从计算机视觉来讲，SA刚刚是从生成这个角度呃，证明了呃。

大量的这种视频和大量的计算资源，是能够带来这个skin law的这种效果的，呃，但是另外一方面从这种视觉理解的角度来讲，呃，我们目前还没有看到特别明显的，通过大量的数据能够提升一个，能够得到一个真正的。

对任何场景都理解的非常好的，这样一个视觉模型，呃，目前还是没有出现，所以我觉得从这个角度来讲，呃，因为呃很多东西都是要被探索的，包括INFA呃。

怎么样像自然语言这种有非常成熟的infred support，去呃并行的呃，处理这种大量的视觉的数据，把这个skin law的潜力发挥出来，呃我觉得从各个方面来讲呃。

视觉现在是刚刚skating out的一个起步的阶段，呃，未来还是有很多空间去继续发展，其实另外一个维度的话，就是就是比如说我们产生出来的内容，然后让这个人去消费的话。

那么在激活人的多巴胺的这个角度来说的话，明显视觉的话要比这个纯粹文字的，这个输出的话要要强很多，所以可以可能从产品啊，去娱乐的角度来说的话，确实视觉的话可能会会大有可为吧，对好陈慧嗯好，就是我这边的话。

其实我觉得如果说你原来是LP，现在就变成了视觉，是的是的，其实我觉得如果说取代的话，可能现在还是比较言之过早吧，因为其实我之前分享的时候也说，就是我们觉得目前视频生成这一块，还是处于非常早期的阶段。

然后就是说我们在生成过程中，也会遇到过那种各种各样的问题，就比如说即使我生成嗯相当于那种自然场景，其实是比较容易生成的，但是如果我去生成一个人脸样子，然后嗯一个是说训练数据的问题。

还有个说是说即使生成了，那可能在这个嗯模型，他那个训练欠缺的这个程度上，可能有的时候你会发现，比如说这个人他这个眨眼睛是不是怪怪的，然后也包括就比如说可能之前嗯大家分享。

就比如说我们给他真到真的这个变化，就是因为大家对人脸也是非常的敏感，所以稍微有一些对这个容错率也是比较低，稍微有一点错误，大家就能非常明显的感觉到，然后嗯然后另一个角度的话。

我觉得就是更多的从实际的应用场景来说嗯，来说就是我们做这个open sora呢，目前是比如说通过这个文字作为一个媒介，来进行控制它这个生成内容，当然我们也可以，比如说通过一些图片对他进行控制。

那可能因为我自己之前是做这个，自然语言的背景，就是我觉得文字的话，因为目前它这个大语言模型已经达到一个，嗯相对成熟的这个状态了，所以说我们如果是通过文字呢，可以嗯在这一个这个阶段就是取得更快的。

对他这个可控制性的提升，然后也是嗯觉得在嗯短期内，可以在这个方向看到嗯比较令人激动的结果吧，比如说你现在在做视频生成的时候的话，你觉得除了文字的这个控制信号之外，还有其他的一些就比较自燃的一些控制信号。

有可能引入吗，我觉得这个肯定是有可能可以引入的，但是就是说我们引入这个东西，的成本是怎么样子的，然后是不是本身就是available是吧，然后就是它这个数据我们要去获取它。

我们要嗯又就是会成本是怎么样子，然后因为现在文本其实是一个，相对于比较廉价的一个数据源头，因为加上我们有很多嗯已经开源的，对于图片来生成文字这样子的方法，然后这个的话其实使大家自己的私有数据集。

就可以很快的给他对标上，就是那种相对应的文字信息，来更快的让模型去理解这个控制程度，好的好的，那个鲍华的话，就他们这公司比较特别，就是说他们的导师的话。

朱军老师是一个非常非常theoretical的一个researcher对，所以他从一个pure一个theoretical researcher的话，走到前台去做成这个产品的话。

这确确实实让人觉得特别的这个振奋对，因为说实话在中国的话，就是能专注在这个基础研究的人的话，已经非常非常的少了，相当于是但是要能把两者结合起来的话，就是就是少之更少，对那包含你的观点是什么。

对确实就是嗯我也是从那个做纯利润，然后过来的，然后确实感觉到从这个最底层的理论，然后到这个产业落地之间，他这种这么一条最短路径是什么样的，对，所以就呃也觉得挺有趣的，这段经历。

然后我也我也说回应一下这个问题吧，呃就是我可以呃大致发表一下我自己感受，就是为什么这个大语言模型，就在文本这个模态上，它会呃比较早的得到这么一些，关于screen roll结论。

但是视觉这些模台会比较滞后呃，因为我感觉就是机器学习的问题，就无非分为三类，第一类就是关于数据的表示问题，然后第二类就是关于这数据要有了表示之后，要怎么去理解，第三类就是有这表示要怎么去生成。

然后在文本的模态里面，它其实这个表示的问题呃已经被很好地解决了，就是用那种比较朴素的token anizer，就可可能说可以把这问题解决，80%到90，那所以他后面做呃深沉做理解。

其实呃都已经没有什么表示上阻碍了，但是在图像上，在3D上它不一样，就他的表示其实也是一个非常本质，非常困难问题，呃到现在为止，这个图像表示其实都没有一个定论，现在我们一看可以看到就是光图像表示呃。

学术界就非常多争论，比方说这个纯pixel space的表示，然后基于这种场的表示，就是呃implicit这种neural representation，然后以及说那种呃VAE压缩那种隐空间表示。

然后甚至那种呃把它压缩成离离散化，token的表示呃，就每一个表示，然后他都会他都延伸出来非常多的工作呃，然后可能这些工作就是在表示，没有得到一个定论的前提下。

然后呃你要去再得到后面关于skilling low的定论，它其实就会相对来说，这个研究会比较发散一些对，所以我觉得像这个图像的呃，它就是可以预期到它会比这个文本要滞后一些，然后关于3D的话，那就更加了。

因为现在3D几乎所有的工作，都集中在他的这个表示上，3D表示就比图像要多更多了，所以我感觉3D的数据也是更少啊，是的是的对，然后包括这个数据上的这种知识的密度，其实呃也很显而易见的。

就是这个文本上它这个知识密度更高，你随便找一些文本，那它就是有非常有效知识，但是对于图像来说呃，目前可能代表知识的这种数据，就一只有视频，但对于3D好像，就目前我感觉没有看到过什么有知识的数据。

所以其实我感觉还是就是，为什么图像，它这种score road的出现会比较滞后一些，我觉得本质上还是他这个数据表示的难度，和这个数据本身高额高知识数据的获取上，它天然的会比文本要更难一些，好的啊。

那我们进入到第二个问题嗯，就现在的话就是说大家都在讲通用模型嘛，或者说大模型，那么就是说我们肯定很希望得到一个，计算机视觉的一个generalist，那么我们的问题是说这个计算机视觉大模型。

或者说generous的视觉模型的话，它到底应该怎么样的方式衬出来是比较合适的，是说像比如说像呃单模态的这种视觉的大模型，比如说大家知道了，可能伯克利有一个large vision model。

对不对是吧，然后呃也包括那个应该是SAM的话，应该也是算这样的一个模型，就纯粹可能主要是从这个图像本身出发，但是另外的话就是跨模态的话，就比如说像text video g b t four o。

那么这样的话其实它是一个就是多模态的话，融合在一起来，这个来来这个就是去train这样的一个大模型，对，那么就是说一个问题说，如果离开文本的这个视觉，而离开文本去研究视觉大模型。

有可能能串出一个所谓的generalist出来吗，对那我们这样吧，我们把这个顺序稍微调一下，从俊男开始好吧，呃我觉得这里面可能有两个问题，一个是这个监督信号的问题，一个是人跟这个模型交互方式的问题。

呃首先监督信号的问题就是呃刚刚爆凡也说了，我们现在的这种视觉数据，是缺少有效的监督信号的，当然有很多这种自监督学习的工作呃，它会比如说预测这个图片的某一部分，应该是是什么样的。

通过这种risk reconstruction loss，但是这种去学出来的这种表征，一般都是比较low level，他可能学到一些这种呃不同concept的这样一些呃，聚类的知识。

但是它很难真正的抽象化这个每一个物体，它的一些属性之类的东西，如果在没有语言帮帮助的情况下呃，所以我觉得第一个问题就是说，我们怎么在没有语言信号的情况下，找到一个非常有效的监督信号呃。

去真正的学出一个比较通用的这种视觉视频，这样的next frame prediction，觉得有可能能成为一种对，我觉得这个可能就是一个，非常值得探索的一个空间，就是如果他真的能非常好的预测后面的事情。

那他是不是对于这个视觉场景，就有一个很好的理解呃，我觉得这个是是非常值得探索的，包括伯克利那个论文，他也用了其他很多监督信号，比如说用一些这种深度图。

用一些这种呃segmentation呃等等去共同监督呃，这个在语言之外的一些信号，我觉得这个也是非常值得探索的，呃，但是这个里面还是涉及到可能数据的获取的一，个问题呃，所以这个是监督信号的问题呃。

另外一个问题就是我们怎么跟这个模型交互呃，因为现在包括GPT4V呃，这些模型，它的交互方式大部分是用这种语言去交互的，所以我们离开了语言的话呃，怎么交互呢，当当然传统的那种检测或者自动驾驶里面。

机器人里面它是有一些其它的交互方式，但是我们一个对于人类来讲，最通用的交互方式啊，如果说还是语言的话，呃那我觉得可能在这方面来讲呃，把语言引入这个视觉模型，还是比较重要的一个事情，对。

嗯我这边的话也是同意嗯，俊楠老师刚才讲的，就是说我们实际在应用场景下面，如果真的要完全的将语言去进行一个剥离的话，这个其实也是一个非常难的事情，就相当于嗯，就比如说，可能可能视频中确实有非常大量的信息。

但是如果完全去除到语言，就有点类似于那种嗯演默剧的那种感觉了，其实感觉嗯，这种可能应用上面也是会受到比较大的限制，然后嗯因为嗯我在视频这方面，其实经验也不是很多，然后嗯如果是从这个自然语言方向看的话。

其实我们现在两大模型，就是那个训练的两个方法，一个就比如说auto encoding，就是这个嗯自编码模型，编码肯定是单模态对，然后还有就是auto regressive，就是自回归模型这两种嗯。

这可能会就是有点像，就比如说我们视频训练当中，就是说我基于一个frame，我进行嗯，这个后面那个多个帧数进行下一步的生成，或者说我去给这个模型，看到我其中一些不同位置的这个模块mask。

然后让它进行这种不同的这个生成，我觉得这些嗯都是有可能就是进行推进的方向，但是嗯应该还是需要进一步的探索，然后融合其他的模态来看，怎么样去更好的控制这个效果，好的好，那抱凡就是关于这视觉大模型。

最终形态问题的话，就是首先这个融合语言的，我觉得肯定是一个方案，但是可能呃比方说一个可能就是大家也会想，就是单一视觉，就单个模态是否能够做成那种，非常通用的大模型，然后我感觉这个问题。

可以从这个一个存在性的方面去考虑，然后另外一方面是从这个构造性的方面去考虑，就从存在性的方面考虑的话，我觉得是能够存在这么一个呃，纯视觉的一个通用大模型，因为比方说啊其实这个例子已经被构造出来了。

就是我们所生活的世界呃，其实我觉得他就是这么一个，纯视觉模态的大模型，就给定这世界当前的状态啊，然后这里面的这个写字文本啊，都是属于就是我们所见到东西的一部分，然后他是可以去predict下个状态对。

就它存在性我觉得是有的，就这个我们当前的世界是这么一个视觉大模型，然后关于这个构造呃，构造性的问，你说就我们要怎么构造出这么一个视觉大模型，我觉得这个东西可能是一个比较曲折的过程。

就他可能没法通过这种单纯算法或模型的角度，去完成它，我们可以举个例子，就说NOP的发展，它其实很大是来源于互联网的发展，就互联网的存在让它变了大量可用的数据，我觉得可能对于视觉来说类似。

可能他需要有一些新的装置，新的设备，然后针对这些装置设备，它可以啊比较方便快捷的构造出这种大量的呃，有实际信息支持这种数据，然后可能基于这上面才能有这种呃，有这些数据之后，才可能在上面去训练出这种。

纯视觉的这种基础大模型，我的想法是这样子，就是一个存在性，我觉得它存在，然后构造怎么构造，可能得要一些曲折的过程，就不仅仅是人工智能本身的努力来明白，好敏敏老师啊，那个呃我刚才几位已经论述的比较多啊。

就是补充一些我的一个想法呃，我个人呢更看好像多模态的，就是就我个人觉得这个事情是这样的，就说我们需要有一个多模态的，这样一个大模型呃，去探索所有的去探索，更多的可能，就说这些不同的模态之间怎么交互呀。

它能够他的他能做到的上限是什么样的，去探索这样一些更多的可能，但另一方面呢，在很多实际的应用场景里边嗯，你不可不可能说是我们家买一个小摄像头，你都要具备这个大多模态，大语言模型的这个能力。

嗯这个你可能可能就压根不需要那么大的能力，那可能会根据在具体的行业里边，我感觉最终呢可能会有一个特别超级的，就是有个有个多模态大模型，算是一个超级的人工智能，然后呢通过这个超级的人工智能的帮助下。

然后呢根据不同的应用，会产生很多一些小的垂直领域的，或者说demo，像您提到的单模态的这样一个，有些情况下它可能是个单模态的，这样一个人工智能的模型，那个大模型呢一方面呢能够给这个小模型。

让小萌新知道说，我做的最好可能能做到什么程度，或者说我离那个可能的那个，最好能做到什么程度，但另一方面呢就是说从应用的角度来讲呢，呃嗯像这个就就跟我们人一样，我觉得人就是属于一个什么呃。

干什么事都干得还不错，然后呢但是你真的说要效率做到极致嗯，你跑步你是跑不过汽车的，然后你像这个鸟飞行也是飞不过飞机的，就说这真把某个方向要做到效率的极致，这个可能最终还是单模态的一些东西。

有可能还会在很多领域里边发挥重要作用，呃，但是说我们所单模态，可能就是说在做处理某一个任务的时候的话，可能还是会比那个generalist可能更强，更有效率，更就会效果更好一些是吧，OK嗯好谢谢。

那下面我们进入到一个选择性回答，大家感兴趣就可以回答，就是说嗯，意思就是说在现在这个算力受限的这种情况下，比如说现在好多的模型的话，你们都需要就是需要就是大量的这个算力资源。

才可能把这个模型给REN出来，无论是单模态还是多模态的，那么在这种情况下的话，学术界肯定是说算力资源的话不是那么充足，肯定没有那么冲突，一般一个lab的话，有个几十张卡就已经算非常非常不错了。

而且卡的话还经常可能是4090啊，或者说是比较比较低端的一些卡，那么在这种情况下的话，就是要想推动，但是但是学其实还去，还还是有一个非常重要的一个价值，就是说他要为这个工业界不断的去培养人才。

那么在这种情况下的话，就是说学术界和工业界的话应该怎么样是分工，特特别是在这种情况下，学术界如何去发挥它自己的价值，对我们呃我觉得要不先从敏敏老师开始吧，好谢谢那个呃，这个问题确实是很多学术界的老师。

特别困扰的一个问题吧，一般大家一开会就是包括李菲菲也在抱怨，就是说很多人一开会就在抱怨，说哎呀这个我们都没个，我连我们连个卡都没有是吧，那您刚才说4090，其实您高估了我们很多时候。

现在还有2080ti和3090的还在跑，那我们大量的还，其实我们最主要的可能还是这些这些卡呃，所以确实从这个呃算力资源上，其实跟企业界还是差距还是蛮大的，呃我个人觉得就是我们高校的话呢。

呃大概可以从两个方面去尝试，去去去去做一些事情，第一个事情呢就是说呃，我们我反正我个人吧，从来不尝试去做全流程的事情，我觉得太累了，一方面觉得太累了，另一方面呢就是呃确实资源也不够。

然后我们可以去尝试去做整个pipeline里边的，一些我们觉得比较自己感兴趣吧，也不我也不敢说，关键啊，至少说自己感觉得感兴趣还挺蛮有用的一些step，那这个step的话呢，它可能用到的资源。

就明显要比整个系统要小很多啊，在这个情况下呢，我们去找一个还不错的一个系统，作为我们的base ine，然后呢我们尝试去对某些step做一些改进，呃这样的一些工作呢，我个人感觉不论是对学术界的同行来讲。

还是对工业界来讲，还都是蛮有意义的，呃然后就是我们不尝试去做整个这个汽车，我们尝试去做几个螺丝钉，然后呢，我们扮演好我们这个做螺丝钉的这个角色，我觉得也蛮幸福的，就是就是你感兴趣什么。

你做什么还还还蛮自由的，呃另一方面呢就是说呃，当我们有一些这样的一些工作的时候呢，呃我们希望展现出来这些工作的这些用处吧，或者说可呃可能性吧，嗯我们也在确实会很紧密的，在跟一些企业去合作。

然后当我们有一些还不错的，一些初始的结果之后呢，我们经常会联系一些企业，唉自己没自己没卡吧，可以借别人的卡用，唉大概我们是这么处理的，好谢谢，而且而且的话其实学术界的话也是开源的。

这一部分的话非常重要的这个贡献力量，对呃呃我们后面统一来好吧，对好的，那你们三位的话应该是在工业界，你有是有没有兴趣分享分享，对我个人的感觉，就是我觉得为什么现在会出现这个问题，是因为呃对于工业界来讲。

大模型是一个呃非常有潜力的商业化的，这样这样一个一一个前景呃，所以工业界会给特别大的投入，是看中了它的这个商业的潜力，呃从这个角度来讲，我觉得是不是可以呃，考虑一下有没有之前的一些科研的这种领域。

当它被工业界挖掘出来，有非常大的商业前景的时候啊，学术界是怎么处理的，比如说在物理生物，我觉得一定发生过这样的事情，就是比如说像通讯领域对，就那个在应该是在上个世纪的时候的话，非常非常的火爆。

工业界马上可以用，后来的话就有很多的学生就去那边，以后的话是的话也去那边，但后来慢慢慢慢慢的那个领域的话，就变得就是成绩了，相当于是因为就是像这个问题的话，已经解决到一定程度了。

其实历史的那个教训来其实不是特别的乐观，哈哈哈哈对，那这个我觉得可能从这个角度，我我会觉得，那学术界能不能考虑，做一些工业界做不到的事情，就是更前沿的一些探索，或者是呃就是不是说去直接的竞争。

而是说去在自己的这个更擅长的地方，去去去做一些尝试，比如说呃，比如说我觉得从这个diffusion角度来讲，这个diffusion的模型就有很多，理论上的可以提升的空间，我觉得就是呃呃。

那从可能工业界他会选择一个更保险的方案呃，更被验证过的方案呃，那学术界能不能有一些创新性的，当然他可能不一定用有这个资源，用skin law去验证，但是可以通过合作的办法呃，去做更多的这种创新的探索吧。

我觉得嗯啊，说几句吧，就是嗯确实就是我自己也是体会非常深切的，就是说很多时候，就是大家想要做那种大规模的模型的训，练的研究，是受到了这个硬性资源的限制，其实这个限制还不只是说学校。

其实就是就是创早期的创业公司，也同样是那种中小型的企业，也是会因为财力的原因，就是没有办法做这方面的研究，那么但是我觉得就是现在嗯我还是比较乐观的，一个就是说我们会有越来越多的开源的模型。

就比如说像自然语言处理这个领域，LP它会就是拉满进行了浪漫，one la two这些开源，然后后面也嗯引发了就是一系列follow up的工作，然后嗯像在视频方向呢。

其实我们自己的这个open sa的模型，也是用到了大量的开源模型，然后在这个基础上进行推进，然后还有一点就是说嗯，我觉得一些加速的工作也是非常有价值的，对就嗯包括就是之前嗯老师嗯这边分享的一些。

就是通过这个嗯只recover，它这个被mask掉那个部分这样子的一些方法，然后嗯像我们路程的话，用的这个cos AI的这个加速系统呢，也是之前是可以，比如说在把这个v it的架构。

只在单卡这个3090上面进行嗯，非常嗯就是一个性能的这一个加速和提升，然后大家感兴趣的话，也可以去看我们这个官网的这个公开的数据嗯，然后在此之外就是如果说讲到比较细的，就是研究的话呢。

就是我自己目前其实我看到嗯也是有非常多，就是那种出色的工作，包括我们用到的这个VAE，就是说嗯，一开始大家就是说我们先训练一个VAE，然后把他freeze住，然后再从头可能开始训练这个defense。

Transformer，但是就是说pixel sigma，他的发现就说嗯虽然就是我这个VIE，我在跟他训练以后把他freeze住，但是就是我仍然可以就是非常快捷的拿它来嗯。

就是放到我们这个新的这个transformer，架构上面，再让transformer很快去适应这个freeze，主的这个VIE的这个架构，然后也包括就比如说我们新的这个版本。

用到了一个reactify flow loss，这个就是我们嗯他的那个论文，就是作者一开始也没有进行非常大规模的实验，他只是就是发现说他这个把嗯这个noise，再到这个mapping，他这个嗯会跟哦。

比如说我的那个training，还有validation loss，跟我最后这个模型的表现是有比较强的相关性，然后之后也是被嗯，有更多资源的公司拿去进行验证，然后确实发现了这么一回事。

然后我们就把它应用到了这个我们最新很重，所以我觉得其实嗯学术界的很多科研的，这个成果呢，嗯对这个业界就是也是有非常大的贡献的，然后因为现在嗯也是一个早期，所以我觉得更多也是相辅相成的一个过程，挺好挺好。

其实就是有做数学的人，因为我经常也跟一些做数学的教授的交流啊，他们认为其实我们做机器学习的话，其实只有三个问题，第一个问题就是说网络结构是什么意思，就是说我有一个idea的function。

我也只能在一个hythesis space里面去拟合，那么这个have shave sc base的那个创立的话，其实就是就是mini maze这个LR，第二个就是说你要得到这个得到这个解。

但是你只能用一些具体的数据，那么这样的话你就必须要定义一个loss，那么这个loss怎么定义的话，就决定了你根据这个数据的话，它能够拟合到什么程度，那么第三个就是说。

因为你虽然说在这个里面有这么一个好的解，但这个解的话只能从一个任意的解开始，所以他就有一个optimization，所以就是optimization是这样的，其实如果是说回归到这个数学的本源。

这三块的话，我是觉得其实学术界的话，还是有很多东西可以做的，对嗯好那包凡你这边可以补充一下，就是对于刚刚那个数学界的那个老师的看法，我觉得他可能想的有点薄，就其实我觉得在这个人工智能里面。

可能最重要的是如何定义数据的分布，就这个data dispution要怎么定义，因为data ption这个东西呃，其实取决于你这个智能它是怎么样的，对其实它第二部有两个，一个是叫data。

一个叫loss，其实data上也考虑到了，对对，其实在现阶段，我反而觉得后面这些loss，就你有了数据分布之后，你要怎么去建模，它，要怎么去优化它，这些问题都已经被解决，大差不差了，优化有ANW。

然后loss那自回归loss，然后diffusion loss那些都发展的非常迅速，那其实感觉反而这个研究最少的是这个data，EXPTION要怎么定义，所以我觉得就是呃在学界。

一个非常好的一个topic，就是关于数据的工作，你要怎么去把这个数据分布给它定义出来，其实数据分布就这是一个，你觉得是一个工业界的呃，是一个工程的问题，还是是一个是一个理论研究的问题呢。

我觉得他可能都有对，就是你数据分布呃，首先就数据分布，它是那个取决于你这个智能的上限对吧，对学生会的话，在那边也讲了，你们其实对数据这块的话，对整理的话也是非常关键的对对。

其实我嗯就我觉得不仅仅是数据清洗吧，数据清洗它这事情本身可能是会偏一些engineering，但比方说你还有一些比较有趣topic吧，就你手头上有一堆比较差的分布，你可以通过一些统计学的方式。

比方说这种你觉得SAMPING或者说那个important sweetest，EMPY的方式去提升数据质量，我觉得也是有非常多这种理论的层面上，可以做的，但我觉得其实相比这些更重要的，还是说。

我觉得可能无论是工业界和学界，都需要思考问题，就是怎样的数据分布能够带来强大智能，呃，我觉得这个东西就是所有人都可以思考，这个事情，Okay，great好，那我们接下来可能用很短的时间回答一个问题。

就是说按照今年这个发展这个趋势的话，大家预估在这个接下来这一年里面的话，视觉大模型有可能会有哪一些新的breakthrough，可能发生，简单的说一下就可以了，我们从爆反这边开始吧，对，对。

其实我思考问题还是比较习惯性的，从这三个维度加数据去思考，第一个是这个数据分布怎么构造，第二个是数据要怎么表示，第三个是那个数据的理解，第四个数据的生成，然后呃比方说在数据的分布上啊，其实我觉得这个。

这个这个东西的话，我觉得还可能还是会比较中规中矩的，一些更加好的数据清洗方案，或者说一些更加巧妙的数据构造方式，会被提出来，然后也会让这个智能提升一定的水平吧，然后在这个数据表示上呃，其实我最近关注到。

就大家对数据表示热情越来越高了，呃就之前你可能看到的，在图像上，就大家就几乎不太去care它的这些压缩工作，呃，当时发现最近就是有好多人开始做这种呃，这种图像的VAE呃。

思考怎么把这图像的压缩率给它降下来，我觉得这会是一个呃非常大的突破，就因为当你这个图像的表示压到足够呃，足够稀疏的哦，足够稠密的时候，那他在后面去做这种生成和理解所需要的训练，开销。

所需要的这种呃复杂度应该都会进一步的降低，然后从而你可能后面要花十倍的算力去做，生成和理解，你现在现在可能只需要一倍，那就意味着可能这种skding role对吧，他的这个门槛就变低了对。

所以我觉得可能从数据的表述的维度上呃，今年会有一些比较大的进展，然后从而去推动这个数据的理解和生成，这样对于数据表示，那么如果压缩得足够很的话，那么就相当于是后面去train的话。

它所需要的这个成本就大幅的降低了，对这肯定是一个重点好，那么接下来每个人可能用三大概30秒，好吧哦，我先讲一下，就是首先从数据的角度的话，就是说我们有大量的数据，然后可以嗯其实或者说哪一个领域吧。

或者说哪就是哪一个哪一个问题的领域，可能会产生新的breakthrough，对哦OK就是如果只是从这个视觉来看的话，肯定就是说视觉的这个质量，可以会有非常大的提升。

然后这个长度生成的长度以及它的稳定性来讲，嗯也是，然后我们可我觉得我们可以期待我们视频，这个视频对会生成更多不同的场景，然后从可控制性来讲，也是因为嗯随着这个视频这个标注，他这个也是在不断进步的。

然后更好的quit，和这个视频生成过程的可控性会有大幅的，这个会有新的创新出来，对我觉得这个是可以期待短期内饰可以的，非常快速的提升，great我觉得这可能是业界非常期望得到的，郝俊男呃。

我提一个叫那个评测吧，因为我觉得现在这个视频，不管理解和生成的评测都非常欠缺点，空白的状态，对对对，这个就不是breakthrough，而是说从可能没有到有的一个过程呃。

我觉得有一个大家都公认的这样一个类似，语言模型里面，这种评测我觉得是非常必要嗯，可能有更多的系统出来之后的话，可能这个评测会更容更好做一些，因为现在开源的系统还太少，对好命名了啊，我特别看好，就是说呃。

现在越来越多的这些各种各样模态的输入，输，各种各样的一些呃，多模态带来的各种各样的可能潜在的可能性吧，我我就简单的说这个好，谢谢，就相当于说因为有了其他模态的和这个视觉的，这个结合。

有可能会让它的这个产生内容的过程中的话，就会产生一些新的这种创新点出来是吧，是的是的对，就好像你做那个，比如说那个就是呃生成了一个story一样，diffusion story一样，对不对是吧。

是的是的，谢谢好，谢谢各位好，那么接下来我们大概有还有4分钟的时间，那么呃大家的话都是自由提问的时间以后的话，大家最好把问题identify到哪一个panelist，好吧好，那位同学对。

后面的诶各位老师嗯，大家好，我是做AIGC应用的，然后也是视觉主，主要是视觉应用，然后我想问一下各位老师，就是就是对于视频的这种可控性，图片或者视频的可控性，嗯就是主要的就是视频的那个动作的控制相关。

目前我们图片生成的一张图片的这样一个呃，角色啊，这个我觉得都做的还可以，但是你要让他这种动起来的话，这应该是视频你走向更长的一个核心，所以说我想听听这个各位呃，老师在这块的一个想法，指定一位吧。

嗯呃要要不集中让陈老师帮我看一下对，因为他也是那个呃story那个，然后还有一个点就是就我主要我的问题，主要是可控性这块，然后刚刚的这个时长，我觉得就是动作的控制是比较关键，还有一个就是就是图片这块的。

比如说表情或者是一些手这种细节，我想听一下，就是陈老师，其实陈老师那个就是做那个啊，就是那个呃图就是那photo maker，对不对，其实它也类似于是用几张图像，是control它来生成图像，对不对。

是的就是说呃，所以所以我其实最开始我一直提一个观点啊，我觉得现在的这样一些呃头像的视频的，特别视频的这样一些生成的这些模型，我个人感觉啊，他可能最早能够大规模被大家可用的，应该是在娱乐行业。

就是相对来说不是那么严，也就是因为呃确实是您刚才存在的说的，说到的这个问题，他要是做到非常好的高质量的这个可控呃，理解我们人脑子里边嗯，所理解的包括像物理公式上物理的规律呀。

呃包括它的一些其他的一些很精细的一些控制，它确实还是现在的这样一些呃，我们靠这个VIT啊，靠这样一些呃这个特征的表征，其实很难把这样的一些规律给它表征进去，呃因此呢在后续的这个训练过程中。

现在呃大家能做的呢，就是说尽量的搞好多的数据，然后呢希望这个事出现的少一点，嗯也没有一个特别高效的一个手段，能把这些比如说哎这个轮子转的这个速度，跟这个车的运行速度给它匹配起来。

这个人的动作呢能够跟他的这个骨头，给他对得很好啊，这些事呢目前来讲还是比较难的，但另一方面呢我们也看到了，就是说可能针对一些具体的问题，比如说刚才我们提到的呃，杨老师也提到的。

就说我们像做to photo maker的时候，我们呃可能那么多的事情不好做，但是呢我们可能抓住其中几个点，比如说呃，比如说像这个人的这个人脸的一些，具有个性化的属性的这些东西。

我们把它给想办法给它弄出来，然后呢去验证说这个事情，有没有可能通过少量的一些数据，其实虽然我们有一个自动的数据组装内存，但是你看到最终我们实际用到的数据，其实也就十几万张的图像嗯，也不算太大。

但是呢可能把人脸的一些关键的属性，或者至少人特别感觉，还是就是至少说感觉，那个比如说甚至从这个老人到小孩，我们都感觉那个那个五官眉眼特别相似啊，就是把这样的一些东西。

可能呃我是感觉可能在未来短期一段时间内，可能大家会在这个领域，那个领域把各种各样的东西尝试去呃，更好的做一些表征，然后呢靠这些东西去约束呃，至于说在什么时候能把这些universe的都都弄好。

这个可能还稍微再长一些时间好，我就回答这样啊，谢谢好的，谢谢老师，那呃这位同学吧，对，呃各位老师好，那个我主要想探讨一个问题，就是呃我们就是统一表中的这个问题，因为我在想说我们对真实世界。

就是刚刚包凡也提到说我们真实世界的存在，那我们对真实世界的描述，其实人是怎么沟通，我们其实通过语言沟通，都不是通过文本沟通的，因为像我的方言，那他可能并没有针对性的文字，所以我就在想这个问题，就是说。

其实不同的语言是可以描述同一个物品的，例如这个麦克风，其实有不同的语言都在描述这个麦克风，那包括即使我这个人在讲这个麦克风，它是普通话，但是我可以很慢的说麦克风，或者很快的说麦克风。

但是他还是表示这个物体，所以我就在想说，那是不是这个语言的这个东西，其实是可以有比较统一的去这个表征了，因为不论是呃不同语言，还是说同一种语言的不同人啊，不同的啊表表达的情绪，他都表征了这么一个物品。

它是不变的，像哪位同学啊，我可能俊男哦，对，我觉得这个可能第一个涉及到一个这个，多语言的语言，语言模型的问题，呃，我觉得目前的一个呃学术界，可能也涉及到了语音的问题了啊，对也涉及到语音的问题。

我觉得呃之前大家会觉得不同语言之间，不同语种之间是有一个这种distribution的，这种分布的差差异的呃，但是可能在大模型的这个时代呃，如果我们就是在我们用GPT的过程中。

比如说你会发现它其实对于不同语言的理解，是可以非常自如的切换的，那这个我就有理由猜测，它其实内部的表征是得得得到了某种程度的，统一的，呃，包括语音上面，如果说他真的做出一个end to。

end的这样一个系统的话，呃那它这个内部的机制，我觉得也是会慢慢的学到某种统一的表征的，呃，所以我觉得呃，当模型这个skin到越来越成熟的情况下，它确实是会呈现这样一种趋势，对好的，针对这个问题。

我想再稍微补充一下，就是嗯这个因为涉及到多元模型，然后就是其实目前也是有非常多的研究，就是在做这方面的工作，我觉得我我其实也不是说想回，就是可能大概的提一下现在遇到的几个难点吧。

就是说嗯比较严比较重大的一个难点，就是说有一些嗯小语种，或者我们把它叫做low resource，对这方训练语料它其实是非常的缺乏的，然后可能即使像charge bt这样的模型。

它也是哦没有办法把它做的很好，然后这其中就比如说嗯嗯您刚才这个提问说嗯，不同的语言都可以描述同一个物体，但其实有的时候这些也是语言，也是受到这个文化的很大影响，就很多可能有些文化当中就没有一个概念。

所以这个可能也是一个难度，就怎么样把它合适的，就是用这个语言去给它统一出来，那么我们现在其实主要，就是说用大量的数据去训练，然后嗯但是就是可能也也是要看，就是未来，这个就是现在我们可能比较大的这个语言。

就比如说中文，英文，法语，德语这些我们有大量的语料，那它可能能力已经非常的不错了，但其实嗯在其他的low resource language，依然就是一个问题，有可能将来的话。

这个translation可能是一个照数据的话，可有可能是一种途径去去解决这个问题，因为translation如果做的还像模像样的话，可能是一个就是把一个语言的数据的话。

transform到另外一个语言上的那个数据对，因为我其实之前也做过一些，就是多语言模型的训练，然后其实我们涉及到的也是有，通过这个老师您说的这个translation的方法，然后再进行一些数据的清理。

然后这个方法其实确实可以提升这个大模型，在这呃，在这个小语种这个上面的能力，好的好，那我们最后一个问题，呃时间不够了，好不好的，我们把机会给另外一个同学，我们最后一个问题好不好，对好，哎你好，我问一下。

就是问一下鲍老师吧，就是就是我们我们现在也做一些那个那个声，就是那种图像编辑的一些一些工作，就是我我们用的是NERF，我看你们用的是嗯SD就是生成模型，我想问一下这两两种路线。

就是它未来的发展会会会怎么样，就是会拿到3D3D的维度是吧，对对，都是3D的NF也是3D3D重建吗，我觉得就他们会对应着一些不同的交互方式，比方说3D的你比较自然，你可能是有个呃一个表示界面。

然后你可以去比较轻松拖拉拽，或者说扭一扭这个表示，然后有点像那种捏向平移的感觉对吧，你可以把这个表示，通过一些方式去手动搓成另外一个状态，然后通过生成的话，它就是呃会有一些对应不同的交互方式。

就它自由度可能更大一些呃，比方说你可以通过这种对话式的，就你提供一些素材，用户提供一些素材，然后它这个系统自动办，去根据用户的需求去做一些合成呃，或者说是你可以对一张图像呃。

在一个编辑框里面对它这个涂一涂抹一抹，然后它呃系统帮你自动的做一些增删改，其实我觉得本质上可能还是回归到产品啊，会对应着这种交互方式的一些区别，好的也就是说这个three d高en spring的话。

它可能在这种是控制性的维度的话，就是更加的这个understandable，就解释相当于是对好，那我们今天上午就到这，让我们再次用热烈的掌声，感谢我们四位的这个panelist，非常精彩的分享好。

那么现在应该下面就是午餐的时间了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.ryyt.cn/news/64453.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈，一经查实，立即删除！