谷歌发布新 RL 方法,性能提升巨大;苹果前设计总监正与 OpenAI 合作开发 AI 设备丨 RTE 开发者日报

news/2024/9/23 15:56:47

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

 

01有话题的新闻

 

1、JetBrains AI Assistant 编程助手正式在国内发布,基于阿里通义大模型

 

在本周举行的 2024 云栖大会上,JetBrains 正式发布了基于阿里云通义大模型的 JetBrains Al Assistant。

 

JetBrains 官方介绍称,JetBrains Al Assistant 与多款 JetBrains 产品深度集成,是专为中国开发者量身定制的「提效神器」。

 

JetBrains Al Assistant 支持全链路优化开发,可在特定 IDE 工具窗口中作为内联操作使用,也可以通过内置聊天使用,不会中断开发工作流。

 

此外,JetBrains 承诺所用模型绝不会在开发者的代码库上训练,确保专有代码保持机密和安全。

 

JetBrains Al Assistant 整合了五大功能,汇总如下:

  • 加快编码任务:如多行代码补全、编辑器内代码生成、生成单元测试等。

  • 在上下文中寻找解决方案:如上下文感知 AI 聊天、使用 AI 合并 VCS 冲突等。

  • 检测并修正代码问题:如查找潜在问题、修正运行时错误。

  • 将总结委托给 AI:如生成文档、编写提交信息。

  • 优化代码:如重构、声明重命名建议。(@IT 之家)

 

2、OpenAI 首款具备「推理」能力模型 o1 现已向企业 / 教育用户开放,每周最多使用 50 次

 

OpenAI 公司旗下首款具备「推理」能力的模型 o1 和 o1-mini 现已向企业版(Enterprise)和教育版(Edu)用户开放访问权限,用户每周最多可输入 50 条消息。

 

据介绍,OpenAI o1 系列模型具有更高的理解能力,与传统模型不同,o1 系列模型在回答问题之前会进行深度思考,生成内在的思维链后再给出答案,因此系列模型能够处理比之前模型更复杂的任务,特别擅长解决科学、编程和数学领域的难题。

 

OpenAI 指出,尽管目前 GPT-4o 仍是大多数任务的最佳选择,但 o1 系列在处理复杂、问题解决导向的任务(如研究、策略、编程、数学和科学)方面表现更为优异。

 

然而,由于 o1 模型「会消耗更多的计算资源」,OpenAI 声称系列模型初期仅向 Plus / Team / Enterprise / Edu 用户限量开放,其中 o1 模型每周最多可使用 50 次,而 o1-mini 模型每天最多可使用 50 次。

 

而在 API 方面,相关模型访问权限价格较高,其中 o1 的输入词元(tokens)费用为每百万个成本 15 美元,输出词元费用为每百万个 60 美元,通过 API 调用时,o1 模型每分钟最多可调用 500 次,o1-mini 模型每分钟可调用 1000 次。(@IT 之家)

 

3、谷歌发布新 RL 方法,性能提升巨大,o1 模型已证明

 

 

 

谷歌 DeepMind 的研究人员提出了一种创新多轮强化学习方法——SCoRe。

 

目前,多数大模型不具备自我纠错或能力较差,尤其是在数学和代码领域在给出错误答案后,会一直坚持错误答案,影响模型的准确率。而 SCoRe 通过避免训练数据与模型实际响应分布不匹配以及多轮反馈奖励机制,来帮助大模型及时纠正自己的错误。

 

OpenAI 最近发布的 o1 模型便使用了类似的技术,主要亮点之一便是模型的自我纠错能力,其数学和代码能力也获得了大幅度提升。也就是说,强化学习确实能帮助大模型提升输出性能和准确率。

 

在传统的大模型训练过程中,模型通常通过监督学习来优化其对特定任务的性能。但这种方法主要依赖于大量的标注数据,并且在训练和推理之间存在巨大的数据分布差异,导致模型在实际应用中难以有效纠正错误。

 

最重要的是,传统的监督学习方法在训练过程中,并没有明确地教导模型如何自我纠正错误。一旦模型在推理阶段产生错误的结果,只能依赖外部反馈或手动干预来纠正这些错误。这对于需要高度准确率的法律、金融等应用场景来说是一个重大缺陷。

 

而 SCoRe 则是在模型自己生成的数据上进行多轮强化训练,使模型能够学习到如何根据奖励信号来调整自己的输出实现自我纠正。在训练过程中,SCoRe 会鼓励模型尝试不同的输出,并根据奖励信号来判断哪些输出是最准确的。帮助模型就能够逐渐学习到如何在不同的情况下做出正确的决策。

 

例如,在文本生成任务中,如果模型生成的句子不符合语法或是病句,SCoRe 会给予模型一个负面的奖励信号,促使模型调整自己的输出直到生成符合要求的句子。(@AIGC 开放社区)

 

4、Deepgram 推出了全新的 AI 语音代理 API 能够进行实时自然的语音对话Deepgram 推出了全新的 AI 语音代理 API,这是一个统一的语音对话 API,旨在让 AI 代理能够进行自然的对话。该 API 依赖于快速的语音识别和语音合成模型,支持实时的语音理解、推理和对话生成。

 

适用于企业和开发人员,能够创建强大的语音代理,特别适用于客户支持、订单处理等场景。

 

实时自然对话:语音代理 API 能够在对话中处理人类语音输入并快速生成语音输出,支持流畅的交互。中断处理:采用最新的「结束思维」检测模型,能够自然地处理对话中的停顿或中断。可扩展性与灵活性:开发者可以选择使用开源、闭源或自带的大语言模型,灵活集成不同任务所需的模型。(@小互 AI)

 

5、苹果前设计总监正与 OpenAI 合作开发 AI 设备

 

据纽约时报报道,苹果前设计总监 Jony Ive 表示,他正在与 OpenAI 首席执行官 Sam Altman 合作开发 AI 设备。

 

报道中指出,Jony Ive 通过 Airbnb 首席执行官 Brian Chesky 认识了 Sam Altman ,这一项目由 Jony Ive 以及 Laurene Powell Jobs 的公司资助。

 

目前,该项目只有 10 名员工,但其中包括 Tang Tan 和 Evans Hankey,,他们是与 Ive 一起开发 iPhone 的两位关键人物。(@APPSO)

02有态度的观点

1、o1 核心作者 MIT 演讲:激励 AI 自我学习,比试图教会 AI 每一项任务更重要

 

OpenAI 研究科学家、o1 核心贡献者 Hyung Won Chung 分享了他在 MIT 的一次演讲。演讲主题为「Don’t teach。Incentivize」,核心观点是:「激励 AI 自我学习比试图教会 AI 每一项具体任务更重要。

 

在 Hyung Won 看来,AI 领域正处于一次范式转变,即从传统的直接教授技能转向激励模型自我学习和发展通用技能。他的理由也很直观,AGI 所包含的技能太多了,无法一一学习。

 

具体如何激励,他以下一个 token 预测为例,说明了这种弱激励结构如何通过大规模多任务学习,鼓励模型学习解决数万亿个任务的通用技能,而不是单独解决每个任务。他指出,「如果尝试以尽可能少的努力解决数十个任务,那么单独模式识别每个任务可能是最简单的;但如果尝试解决数万亿个任务,通过学习通用技能(例如语言、推理等)可能会更容易解决它们。」

 

对此他打了个比方,「授人以鱼不如授人以渔」,用一种基于激励的方法来解决任务。面对这一「循循善诱」的过程,也许有人认为还不如直接教来得快。但在 Hyung Won 看来:「对于人类来说确实如此,但是对于机器来说,我们可以提供更多的计算来缩短时间。」

 

换句话说,面对有限的时间,人类也许还要在专家 or 通才之间做选择,但对于机器来说,算力就能达到。原因也众所周知,大型通用模型能够通过大规模的训练和学习,快速适应和掌握新的任务和领域,而不需要从头开始训练。他还补充道,数据显示计算能力大约每 5 年提高 10 倍。

 

此外,他还认为当前存在一个误区,即人们正在试图让 AI 学会像人类一样思考。但问题是,我们并不知道自己在神经元层面是如何思考的。「机器应该有更多的自主性来选择如何学习,而不是被限制在人类理解的数学语言和结构中。」在 Hyung Won 看来,一个系统或算法过于依赖人为设定的规则和结构,那么它可能难以适应新的、未预见的情况或数据。造成的结果就是,面对更大规模或更复杂的问题时,其扩展能力将会受限。(@IT 之家)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/63801.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

文件上传日志包含详解与CTF实战

1. 日志简介 1.1 日志介绍 日志是记录系统或应用程序运行时事件的文件。这些记录可以包括错误信息、用户活动、系统性能指标等,帮助开发者和管理员监控和排查问题。 日志通常会记录多种内容,包括:时间戳:事件发生的具体时间。 用户代理(UA)头:浏览器或客户端的类型和版本…

一位架构师的自述:在尚未踏入的世界成为你自己

这是我参与创作者计划的第1篇文章我叫艾佳,工作经验14年,编程经验30年。 我来自智能平台部,负责标签平台、标签圈人、标签选品、EasyData、算法数据流的架构工作。 致力于批量计算、流式计算、交互式计算的通用化数据应用构建,降低大数据计算的使用门槛。 在此,我跟大家分…

数据结构 - 概述及其术语

数据结构是数据管理和存储的格式,包含物理结构、逻辑结构和数据运算三要素。物理结构关注数据如何存储,逻辑结构关注数据如何组织,数据运算关注数据处理。将深入学习九类数据结构。经过上一章节《数据结构与算法之间有何关系?》的阐述,相信大家对数据结构多少有了点了解,…

PWA入门:手把手教你制作一个PWA应用

根目录创建 manifest.json{"name": "我是pwa","short_name": "pwa是我","start_url": "/", //启动页面,如果首页是https://www.abc.com/,则直接用“/”即可"display": "standalone","ba…

南沙C++信奥老师解一本通题 1281:最长上升子序列

​【题目描述】一个数的序列bibi,当b1<b2<...<bS的时候,我们称这个序列是上升的。对于给定的一个序列(a1,a2,...,aN),我们可以得到一些上升的子序列(ai1,ai2,...,aiK),这里1≤i1<i2<...<iK≤N。比如,对于序列(1,7,3,5,9,4,8),有它的一些上升子序列,如…

css使用@media响应式适配各种屏幕的方法示例

定义和使用 使用 @media 查询,你可以针对不同的媒体类型定义不同的样式。 @media 可以针对不同的屏幕尺寸设置不同的样式,特别是如果你需要设置设计响应式的页面,@media 是非常有用的。 当你重置浏览器大小的过程中,页面也会根据浏览器的宽度和高度重新渲染页面。 PC端设备…

多智能体协同控制(1)

引言 多智能体系统协同控制算法起源于计算机领域关于分布式计算的研究,后由于数学家们的强势加盟,控制领域的研究一度占领高地。随着人工智能的发展,以多智能体强化学习为代表作的计算机领域专家又重回巅峰。 目前,每年多智能体相关的论文的都浩如烟海,成就了一批手持屠龙…

Axure原型设计:多层级动态表格

多层级表格又成为树形表格,是在后台常用的一种表格形式,当表格数据存在多层级关系是,可以通过多层级表格,从而更加清晰的呈现数据内容,帮助人们更好地理解和分析数据之间的关系,从而更加有效地传递信息。 所以今天作者就教大家怎么在Axure里制作多层级动态表格,包括展开…