支持大模型的小模型

news/2024/9/25 19:23:36

 (SLM Meets LLM: Balancing Latency, Interpretability and Consistency in Hallucination Detection )

平衡会话 AI 幻觉检测中的延迟、可解释性和一致性

介绍

大型语言模型(llm)在实时任务(如同步的会 话 ui)中与延迟作斗争。

当额外的开销增加时,比如检查幻觉,那么这个问题就会加剧。 因此,微软研究院提出了一个框架,利用小语言模型(SLM)作为初始检测器, LLM 作为约束推理器,为任何检测到的幻觉生成详细的解释。 目的是通过引入将 llm 生成的解释与 SLM 决策相结合的提示技术,优化实时、可解释的幻觉检测。

考虑到上图,它展示了用 LLM 作为约束推理器的幻觉检测……

初始检测:将grounding sources和假设对输入到小型语言模型(SLM)分类器中。

无幻觉:如果未检测到幻觉,则直接将“无幻觉”结果发送给客户端。

检测到幻觉:如果 SLM 检测到幻觉,基于 llm 的约束推理器会介入来解释 SLM 的决定。

一致性检查:如果推理者同意 SLM 的幻觉检测,则此信息连同原始假设一 起发送给客户。

差异:如果存在分歧,可能存在问题的假设要么被过滤掉,要么被用作改进 SLM 的反馈。

更多关于微软的方法

鉴于在实际使用中很少出现幻觉,使用llm对幻觉文本进行推理的平 均时间和成本是可控的。

这种方法利用了llm现有的推理和解释能力,消除了对大量特定领域 数据和昂贵的微调的需要。

虽然llm传统上被用作端到端解决方案,但最近的方法已经探索了它 们通过潜在特征解释小分类器的能力。

SLM 和 LLM 协议

这种实现的一个挑战是 SLM 的决定和 LLM 的解释之间可能存在差异。

• 这项工作引入了一种用于幻觉检测的约束推理器,平衡了延迟性和可解 释性。

• 提供对上下游一致性的全面分析。

• 提供切实可行的解决方案,以提高检测和解释之间的一致性。

• 展示了在多个开源数据集上的有效性。

总之

• 这项研究的重点是为会话 ui 引入护栏和检查。

• 当与真实用户交互时,结合人在循环的方法有助于通过审查对话进行数 据注释和持续改进。

• 它还增加了发现、观察和解释的元素,提供了对幻觉检测有效性的见解。

• 本研究中呈现的架构提供了对未来的一瞥,展示了一种更加协调的方法, 其中多个模型协同工作。

• 该研究还解决了当前的挑战,如成本、延迟以及对任何额外开销进行批 判性评估的需求。

• 使用小型语言模型是有利的,因为它允许使用开源模型,从而降低了成 本,提供了托管灵活性,并提供了其他好处。

• 此外,这种架构可以异步应用,框架在对话发生后对其进行审查。然后, 这些人工监督的审查可用于微调 SLM 或执行系统更新.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/56668.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

基于颜色模型和边缘检测的火焰识别FPGA实现,包含testbench和matlab验证程序

1.算法运行效果图预览 (完整程序运行后无水印)将FPGA仿真结果导入到matlab显示结果:测试样本1测试样本2测试样本32.算法运行软件版本 vivado2019.2matlab2022a3.部分核心程序 (完整版代码包含注释和操作步骤视频)`timescale 1ns / 1ps // // Company: // Engineer: // //…

exkmp/Z函数

扩展 KMP/exKMP(Z 函数) 首先我们求出 \(ne\) 数组。代表 \(b\) 与 \(b\) 的每一个后缀的最长公共前缀长度。 我们设当前要求 \(ne_x\),且 \(k\) 为使得 \(p=k+ne_k-1\) 最大的位置且 \(0\le k<x\)。于是我们得到了两个蓝块相同。再通过这个图,得出两个绿块相等。

群晖搭建个人图书馆

概述 本文依赖于 github 项目 talebook (https://github.com/talebook ) 本文依赖于 github 项目(GitHub - cxfksword/douban-api-rs: 简单的豆瓣api,主要用于在jellyfin中刮削电影信息) 其实就是面向于新手的个人图书馆项目搭建,但是作者本人也是新手[/笑哭]。 搭建 tale…

业务类中处理点赞、收藏和浏览量

在对点赞、收藏和浏览量进行操作时,获取分布式锁,以确保并发情况下数据的准确性。 先更新缓存,然后将更新数据库的操作放入消息队列中异步处理,以提高响应速度。 缓存预热 在系统启动或定期将热门文章的相关数据加载到缓存中,减少首次访问时的数据库查询。描述 点赞、收藏…

极速全景图下载出错显示Permission denied怎么回事

在极速全景图下载大师下载拼接全景图的过程中, 出现了错误, 提示错误信息: creating file kvmem_xxxxx_xxxxx.swap failed: Permission denied (errno=13)经过排查, 上述错误是由以下原因导致的: - 系统运行内存不足, 导致在拼接过程无法创建缓存文件, 导致出错 解决方案: 检查…

关于园子求救信有感

毕业七年了,写了七年的博客,养成了记录的习惯。7年写了800篇随笔,很杂。前端,java,mysql,linux,php用到啥学啥,学到啥就记录啥。 最近不是很好,工作且算顺利,七年的爱情摇摇欲坠,未来很是模糊,说起来有写记录的习惯也是源于恋爱日记,现在看来全是泪啊。 前几天,看…

一个开源、跨平台的.NET UI框架 - Avalonia UI

前言 今天大姚给大家分享一个开源、免费(MIT License)、跨平台的.NET UI框架:Avalonia UI。Avalonia是一个成熟稳定的平台,用于构建桌面、嵌入式、移动的和Web应用程序。一个代码库,无限可能!!!项目介绍 Avalonia是一个强大的框架,使开发人员能够使用.NET创建跨平台应用程…