Swarm 框架登场:OpenAI 第 3 阶段「敲门砖」;马斯克的 Teslabot 实际有人远程操控丨 RTE 开发者日报

news/2024/10/14 19:08:28

 

 

 

开发者朋友们大家好:

 

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

 

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App

 

 

 

智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B ,该系列模型的能力已经上线「智谱清言」App。

 

据介绍,CogView3 是一个基于级联扩散的 text2img 模型,其包含如下三个阶段:

 

  • 第一阶段: 利用标准扩散过程生成 512x512 低分辨率的图像。

  • 第二阶段: 利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。

  • 第三阶段: 将生成结果再次基于中继扩散迭代,生成 2048×2048 高分辨率的图像。

 

官方表示,在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。

 

CogView3-Plus 模型则在 CogView3(ECCV'24)的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。据介绍,其采用 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比,它在保持模型基本能力的同时,有效降低训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。(@IT 之家)

 

2、Swarm 框架登场:OpenAI 第 3 阶段「敲门砖」,让专业的事交给专业的 AI 智能体做

 

 

 

OpenAI 公司推出了 Swarm 框架,旨在解决开发者在多智能体系统编排中面临的复杂挑战。Swarm 框架通过简化智能体的协调、执行和测试过程,让开发者能够更高效地管理、互动多个 AI 智能体。

 

OpenAI 朝 AI 第 3 阶段迈进

 

根据 OpenAI 公布五级量表,最新推出的 o1 模型处于第二阶段,即所谓的「推理者」(reasoners),而开发 multi-agent 符合第三阶段的目标要求。

 

Swarm 框架

 

Swarm 是一个实验性框架,协调、执行和测试多智能体,让其变得轻量且高度可控,其目标是让开发者能够以简便高效的方式管理多个 AI 智能体之间的互动。Swarm 框架的核心在于智能体(agents)和交接(handoffs)两个基础抽象( primitive abstractions):

 

- 智能体: 每个智能体是特定指令与工具的组合,能够独立完成任务。- 交接: 智能体可以在执行过程中随时将任务或对话交接给其他智能体,确保流程的流畅性和模块化。

 

该框架保持整体协调的高效性的同时,简化了复杂的智能体互动。

 

随着多智能体系统在 AI 研究和应用中的重要性日益增加,Swarm 框架为开发者提供了一个易于使用的工具,降低了技术门槛,增加了可及性。无论是用于研究、产品开发还是教育,Swarm 框架都为探索协调的多智能体 AI 提供了一个激动人心的机会。(@IT 之家)

 

3、马斯克的 Teslabot 实际有人远程操控

 

特斯拉 CEO 埃隆·马斯克在数日前的自动驾驶出租车发布会活动上展示了人形机器人 TeslaBot(原称 Optimus),该机器人在现场跳舞、交谈、玩游戏和倒饮料,非常之吸引现场的嘉宾观众。

 

据一位在活动现场与特斯拉工程师交谈的人士透露,机器人的反应都是在幕后人员的控制下完成的,而马斯克并未向观众明确说明这一事实。这一行为被揭露后引发了观众的失望和对马斯克技术宣传的质疑。

 

一些投资者对这一场特斯拉的发布会评价为「令人失望」,他们认为发布会缺乏具体细节,而且自动驾驶出租车(CyberCab)和 人形机器人(Teslabot)要到 2026 年才开始生产,投资者对于的交付时间表也认为过于遥远,所以当日特斯拉股票在发布会后便下跌,但即使如此,马斯克的一系列创新产品仍然让人期待。(@爱范儿)

 

4、古尔曼:苹果智能眼镜和带摄像头的 AirPods 可能于 2027 年推出

 

据彭博社的马克・古尔曼称,苹果正在准备其它一些基于视觉的产品,预计会有智能眼镜,类似于 Meta 与 Ray-Ban 的合作产品,以及带有摄像头的 AirPods。推出时间不会早于 2027 年,并且存在可能最终不会推出的情况。

 

根据该报告,苹果希望通过将视觉智能技术引入更多产品,来挽回他们在 Apple Vision Pro 的视觉智能方面数十亿美元的部分研发投资。苹果已经在 iPhone 16 中引入了该技术,下一步是将其引入眼镜形态的产品中。

 

这款眼镜不会是带有显示屏的完整的 AR 眼镜,而是一款内置摄像头、扬声器和麦克风的智能眼镜,类似于 Meta 的 Ray Ban 眼镜。

 

此外,苹果公司仍在计划推出带有摄像头的 AirPods,这一消息此前已有报道。(@IT 之家)

 

5、优必选发布全新一代工业人形机器人 Walker S1,进入比亚迪等汽车工厂实训

 

 

 

优必选发布了全新一代工业人形机器人 Walker S1,已进入比亚迪工厂执行搬运任务实训,实现全球首次人形机器人与无人物流车、无人叉车、工业移动机器人和智能制造管理系统的协同作业。

 

优必选表示,已经与东风柳汽、吉利汽车、一汽红旗、一汽-大众青岛分公司、奥迪一汽、富士康、顺丰在内的多家企业合作。截至目前,Walker S 系列已成为全球进入最多车厂实训的人形机器人。

 

Walker S1 主要参数如下:

 

  • 基本参数:身高 172cm、体重 76kg、负载行走 15kg

  • 360° 多模态感知:集成化头部设计、双耳鱼眼相机、3D 立体视觉

  • 一体化关节:创新型旋转驱动,最大扭矩 250N・m

  • 仿人灵巧手:6 个阵列式触觉压力传感器、全栈式灵巧操作策略库(@IT 之家)

02 有态度的观点

1、Meta 首席人工智能科学家 LeCun:AI 威胁人类论完全是胡说八道

 

Meta 首席人工智能科学家 Yann LeCun 近日在接受《华尔街日报》采访时表示,对人工智能对人类生存的威胁的担忧是「彻头彻尾的胡说八道(complete B.S. ) 」。

 

LeCun 是人工智能领域的一位先驱,曾获得图灵奖,目前担任纽约大学教授和 Meta 高级研究员。他此前曾在社交媒体上表示,在担心控制超级智能 AI 之前,我们需要先弄清楚如何设计一个比家猫更聪明的系统。

 

LeCun 在接受《华尔街日报》采访时详细阐述了他的观点,在回答有关人工智能变得足够聪明以至于对人类构成威胁的问题时,他说:「你将不得不原谅我的法语,但那是完全的胡说八道。」

 

LeCun 认为,今天的语言大模型缺乏一些关键的「猫级」能力,如持久记忆、推理、规划和对物理世界的理解。他认为,这些模型只是证明了「你可以操纵语言,但并不聪明」,它们永远不会产生真正的通用人工智能(AGI)。

 

LeCun 并不完全否认实现 AGI 的可能性,但他表示,需要新的方法来实现。他指出,他领导的 Meta 基础人工智能研究团队正在研究如何消化真实世界的视频,这可能是一种有前景的方向。(@IT 之家)

 

写在最后:

 

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

 

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

 

 

 

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/71560.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

[2024领航杯] Pwn方向题解 babyheap

[2024领航杯] Pwn方向题解 babyheap 前言: 当然这个比赛我没有参加,是江苏省的一个比赛,附件是XiDP师傅在比赛结束之后发给我的,最近事情有点多,当时搁置了一天,昨天下午想起来这个事情,才开始看题目,XiDP师傅说是2.35版本的libc,确实高版本libc的却棘手,我经验太浅了…

高级语言程序设计第三次个人作业

班级网址:https://edu.cnblogs.com/campus/fzu/2024C 作业网址:https://edu.cnblogs.com/campus/fzu/2024C/homework/13284 姓名:袁湘湘 学号:102400109 一,第四章编程练习: 1,4.8.2问题:忘记怎么算名字的宽度 解决:翻阅书本,使用strlen()函数 2,4.8.3问题:无法运行…

智媒AI写作助手轻松写作热点文章,为你提升流量!

在信息爆炸的时代,内容创作成为了吸引用户、提升流量的关键。然而,对于许多创作者来说,持续产出高质量的热点文章是一项挑战。正是在这样的背景下,智媒AI写作助手应运而生,它不仅能够帮助创作者轻松捕捉热点,还能提升文章的质量,从而有效提升流量。以下是智媒AI写作助手…

C++异步调用 future async promise packaged_task

背景:C++ 异步调用是现代 C++ 编程中的一种重要技术,它允许程序在等待某个任务完成时继续执行其他代码,从而提高程序的效率和响应性。 C++11 引入了 std::async、std::future 和 std::promise 等工具,使得异步编程变得更加方便和直观。以下是关于 C++ 异步调用的详细介绍,…

WPF - 项目样例

WPF - 项目样例1. 创建项目: 参考:https://www.cnblogs.com/1285026182YUAN/p/184623962. 修改App.xaml<Application x:Class="ModelFileMigrate.App"xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x="http://schema…

Spring 实现 3 种异步流式接口,干掉接口超时烦恼

大家好,我是小富~ 如何处理比较耗时的接口? 这题我熟,直接上异步接口,使用 Callable、WebAsyncTask 和 DeferredResult、CompletableFuture等均可实现。 但这些方法有局限性,处理结果仅返回单个值。在某些场景下,如果需要接口异步处理的同时,还持续不断地向客户端响应处…

世界空间到观察空间的矩阵

1)世界空间到观察空间的矩阵2)Addressable在不同工程中如何实现打包和加载3)如何设计角色在下蹲时允许跳跃4)如何实时编辑玩家的近裁剪面距离这是第403篇UWA技术知识分享的推送,精选了UWA社区的热门话题,涵盖了UWA问答、社区帖子等技术知识点,助力大家更全面地掌握和学习…

rocketMQ中事务发送消息

rocketMQ中有关事务的发送消息方式,写的一个demo 1、在MyProducer类中的方法,即先定义调用@Component public class MyProducer {@Autowiredprivate RocketMQTemplate template; public void sendTractionMessage(String topic, String msg) throws InterruptedException {St…