伯克利函数调用排行榜(BFCL)

news/2024/9/24 7:23:32

自 2022 年底以来,大语言模型(LLMs)凭借其执行通用任务的强大能力,成为众人关注的焦点。不仅限于聊天应用,将这些模型应用于开发各类 AI 应用和软件(如 Langchain, Llama Index, AutoGPT, Voyager)已成为一种趋势。GPT, Gemini, Llama, Mistral 等模型通过与外部世界的交互,如函数调用和执行,展现了其巨大潜力。

伯克利函数调用排行榜(Berkeley Function-Calling Leaderboard,简称 BFCL)[1]是一个用于评估大型语言模型(LLM)在准确调用函数或工具方面的能力的在线平台。BFCL是一个全面评估大型语言模型(LLM)调用函数和工具能力的平台,包括多种编程语言和应用场景。该平台通过提供问题-函数-答案对,评估模型在不同场景下的表现,如简单函数调用、并行函数调用、多函数调用等。此外,BFCL还关注模型的成本和延迟,并在2024年8月19日发布了BFCL V2数据集,解决了偏见和数据污染问题,专注于动态真实世界场景。这个排行榜的特点包括:

  1. 全面评估 LLM:它评估大型语言模型的函数调用能力,涵盖了各种编程语言和应用场景。
  2. 真实世界数据:使用实际数据集进行评估,确保评估的准确性和相关性。
  3. 定期更新:排行榜会根据 AI 技术的最新进展进行更新。
  4. 详细的错误分析:提供对不同模型的优缺点的深入分析。
  5. 模型比较:方便用户在模型之间进行比较,以便做出明智的决策。
  6. 成本和延迟估计:为模型的经济效率和性能提供估计。

排行榜中包括了 2,000 个问题-函数-答案对,涉及多种编程语言(如 Python、Java、JavaScript、REST API)和复杂的使用场景。这些场景包括需要从多个提供的函数中选择一个或多个函数的多个函数调用,以及需要同时进行多个函数调用的并行函数调用。

伯克利函数调用排行榜对于研究人员、开发者和教育机构来说是一个宝贵的资源,可以帮助他们比较和选择最适合其需求的模型,评估模型的经济效率和性能。伯克利函数调用排行榜是 AI 社区的关键工具,它提供了一种透明且数据驱动的评估方法,用于评估和选择最有效的用于编程任务的大型语言模型。通过提供全面的评估、真实世界的见解和实用的比较,它使用户能够做出明智的决策,从而提高其 AI 应用程序的效率和有效性。

2024年9月19日发布的 伯克利函数调用排行榜(BFCL V3)[2]是一个评估大型语言模型(LLM)在多轮和多步函数调用(工具使用)方面能力的重要平台。它允许LLM进行往返交互,通过询问澄清性问题来处理复杂任务,特别是引入了多轮次、多步骤函数调用(工具使用)的基准测试。BFCL V3在评估大型语言模型(LLMs)如何通过调用正确功能与各种场景互动方面取得了关键进展。它允许模型与用户进行来回互动,通过询问澄清问题来导航复杂任务。此外,BFCL V3首次执行API状态验证作为真实情况验证,而不仅仅是通过抽象语法树(AST)和可能的答案列表进行参数匹配。BFCL V3的主要特点包括:

  1. 多轮函数调用:允许模型与用户进行来回交互,处理输入信息,从而处理更动态和真实的用户交互。
  2. 多步函数调用:LLM可以将响应分解为多个步骤,模拟真实世界中AI助手可能需要规划执行路径、请求和提取关键信息,以及处理顺序函数调用以完成任务。
  3. API状态验证:BFCL V3首次执行API状态验证作为地面实况验证。
  4. 数据集组成:包括基础多轮、增强多轮、缺失参数、缺失函数、长上下文多轮和组合等多个类别,旨在创造极端困难但重要的挑战。
  5. 多轮模型推理和执行:评估多轮函数调用模型,包括函数调用模型和提示模型,以及它们在推理过程中的差异。
  6. 状态基础评估:通过比较每个对话轮次后实例的最终状态来评估模型性能。

BFCL V3的这些创新和改进使其成为评估LLM在复杂场景中函数调用能力的重要工具,更多详细信息和数据集可以在伯克利大学的官方网站上找到。


相关链接:

  • [1]伯克利函数调用排行榜(Berkeley Function-Calling Leaderboard,简称 BFCL):https://gorilla.cs.berkeley.edu/leaderboard.html
  • [2]伯克利函数调用排行榜(BFCL V3):https://gorilla.cs.berkeley.edu/blogs/13_bfcl_v3_multi_turn.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/64030.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

读构建可扩展分布式系统:方法与实践13可扩展的事件驱动处理

可扩展的事件驱动处理1. 可扩展的事件驱动处理 1.1. 使用消息传递系统进行通信,你可以创建松耦合的架构1.1.1. 消息生产者只是将消息存储在队列中,而不用关心消费者如何处理消息1.1.2. 有一个或多个消费者,并且生产者和消费者的集合可以随着时间的推移而改变1.1.3. 有助于提…

java基础 -反射笔记

710,反射快速入门 代码: 先创建一个 re.properties 文件:classfullpath=com.hspedu.Cat method=hiCat.javapackage com.hspedu;public class Cat {private String name = "招财猫";public void hi() { //常用方法System.out.println("hi " + name);} …

全网最适合入门的面向对象编程教程:52 Python函数方法与接口-Protocol协议与接口

在Python中,协议(Protocol)和接口(Interface)是用于定义类和对象之间交互的一种方式,特别是在实现多态性和代码可重用性时,协议是一种抽象概念,描述了对象所需实现的方法和属性,而不关心具体的类或实现。全网最适合入门的面向对象编程教程:52 Python 函数方法与接口-…

机器学习第6次作业

机器学习作业6 学号:102102156 姓名:高涛 1. 朴素贝叶斯与KNN分类性能比较 1.1 代码1.2 绘制结果2.维数约简可视化 2.1 代码2.2 绘制结果3.1 降维前后分类精度比较 3.1 代码同上 3.2绘制结果

Docker 部署 vue 项目

概述 技术栈:docker + vue + nginx 1、docker下载安装 nginx docker pull nginx2、创建nginx挂载目录 /usr/local/nginx (可根据自己需要存放文件的位置自行创建目录) mkdir -p /usr/local/nginx3、vim 创建default.conf server {listen 80;server_name localhost;#c…

TCP协议三次握手的个人理解

TCP协议的核心是可靠的数据传输,而保证传输是可靠的那就要求客户端和服务端双方都具备正常的收发功能。 基于此,第一次握手的时候,当服务端接收到这个SYN请求时,表明客户端要进行TCP连接,同步序列号seq=x,那么从服务端的角度来看: 1、客户端的发送能力是正常的; 服务端…

[vulnhub]LAMPSecurity: CTF5

https://www.vulnhub.com/entry/lampsecurity-ctf5,84/主机发现端口扫描探测存活主机,139为靶机 nmap -sP 192.168.75.0/24 Starting Nmap 7.93 ( https://nmap.org ) at 2024-09-23 17:27 CST Nmap scan report for 192.168.75.1 Host is up (0.00049s latency). MAC Address…