纯干货无广告,毕业大论文,如何优雅地拼拼凑凑,降重和润色

news/2024/10/11 22:20:20

目录
  • 拼拼凑凑
    • 风格选定
    • 实例(使用GPT翻译成中文)
    • 拼拼凑凑(手动拼凑)
    • 拼拼凑凑(GPT直述)
      • 知网查重率
      • AIGC检测率
  • 查重
    • 普通查重
    • AIGC检测
  • 降重
    • 直接使用GPT
    • 先缩写后扩写
      • 缩写
      • 扩写
    • 中日英互译
      • 中翻日
      • 日翻英
      • 英翻中
      • 效果
  • 润色(必须得进行)
    • GPT润色
    • 人工润色(推荐)

拼拼凑凑

风格选定

风格1

image-20241011165615373

风格2

image-20241011165737730

风格3

image-20241011165949772

实例(使用GPT翻译成中文)

Attention-Based Multimodal Fusion for Video Description(1)

我们使用YouTube2Text [9] 和 MSR-VTT [32] 视频数据集评估了我们提出的特征融合方法。YouTube2Text包含……

MSR-VTT [32] 包含10,000个网络视频片段,总时长为41.2小时,并提供了200,000个片段-句子对,涵盖了20个类别以及各种类型的视频内容。每个片段平均有大约20个自然语言句子注释。该数据集被分为训练集、验证集和测试集,比例为65%、5%、30%,对应于6,513个、497个和2,990个视频片段。然而,由于这些视频片段托管于YouTube上,部分MSR-VTT视频由于内容或版权问题已被删除。在我们下载这些视频(2017年2月)时,约12%不可用。因此,我们只使用了可用的MSR-VTT数据集子集进行训练和测试,具体为训练集5,763个片段、验证集419个片段和测试集2,616个片段。

Global2Local: A Joint-Hierarchical Attention for Video Captioning(2)

我们在MSVD(Chen 和 Dolan 2011)和 MSR-VTT(Xu 等 2016)数据集上对提出的G2L方法进行了评估。MSVD由……

MSR-VTT是一个广泛使用的视频字幕生成基准数据集,比MSVD更具挑战性。它包含来自20个通用动作类别的10,000个视频片段。每个视频片段附有20个人工标注的自然字幕。我们遵循其标准的数据划分:6,513个片段用于训练,497个片段用于测试,剩余2,990个片段也用于测试。

Multimodal feature fusion based on object relation for video captioning(3)

微软研究视频到文本(翻译的结果,但是这是有问题的)Microsoft research‐video to text(MSR-VTT)[17] 数据集包含10,000个视频片段,分为三个部分:训练、验证和测试。每个视频片段标注了大约20个英文字幕,总共200,000个字幕。此外,MSR-VTT还为每个视频提供类别信息(共20个类别)。根据这些论文中的实验[9, 12],我们将使用公开的划分进行训练和测试,包括6,513个视频片段用于训练,497个片段用于验证,2,990个片段用于测试。

image-20241011165323095

Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network(4)

MSR-VTT是一个用于视频字幕生成的大规模数据集,涵盖了迄今为止最为多样的视觉内容。它包含来自20个类别的10,000个视频片段和200,000个视频-字幕对,总共包含29,000个独特的单词。每个视频片段对应20个英文句子描述。按照现有的工作,我们使用公开的数据划分进行训练和测试,其中6,513个用于训练,497个用于验证,2,990个用于测试。

拼拼凑凑(手动拼凑)

我们使用YouTube2Text [9] 和 MSR-VTT [32] 视频数据集(1)对提出的G2L方法进行了评估。MSVD由……(2)

Microsoft research‐video to text(MSR-VTT)[17] 数据集包含10,000个视频片段,(3)和200,000个视频-字幕对,总共包含29,000个独特的单词。(4)根据这些论文中的实验[9, 12],(3)该数据集被分为训练集、验证集和测试集,(1)其中6,513个【视频片段】用于训练,497【视频片段】个用于验证,2,990个【视频片段】用于测试。(4)然而,由于这些视频片段托管于YouTube上,部分MSR-VTT视频由于内容或版权问题已被删除。在我们下载这些视频(2017年2月)时,约12%不可用。因此,我们只使用了可用的MSR-VTT数据集子集进行训练和测试,具体为训练集5,763个片段、验证集419个片段和测试集2,616个片段。(1)

注意:黄色标注的那一个片段名堂就多了,哪些视频因为内容或者版权问题被删除,亦或者说部分视频找不到,鬼都不知道是不是如此,没人去验证,也很难验证。那么把一些评价不好的数据删掉,保留有益的数据集,模型效果必然不错。这也是很多论文对数据集的基本操作,尤其是私有数据集。

拼拼凑凑(GPT直述)

image-20241011173026086

由于知网查重有字数限制,加了一堆没用的文本

知网查重率

0%

image-20241011175015829

AIGC检测率

0%

image-20241011174832949

现在知道为什么诺奖颁发给ai了吧,但是不能完全相信AI,尤其是用gpt生成段落之后,一定要再次润色,后文会讲到这一点

查重

https://www.cnki.net/ 知网查重

image-20241011173424715

普通查重

image-20241011173323613

AIGC检测

image-20241011173356702

降重

直接使用GPT

直接使用提示词,但是效果不会特别好,建议用后面两种方法

image-20241011175735552

先缩写后扩写

缩写

image-20241011180128510

扩写

image-20241011180323223

中日英互译

中翻日

image-20241011180619117

日翻英

image-20241011180638834

英翻中

image-20241011180756871

效果

原:MSR-VTT数据集是视频描述领域的一个重要大规模基准数据集,广泛用于视频字幕生成的研究。该数据集包含来自20个不同类别的10,000个视频片段,每个视频片段均配有20个由人工标注的英文字幕,总计200,000个视频-字幕对。这些字幕涵盖了29,000个独特的单词,使其成为多样性和内容丰富性的代表。MSR-VTT数据集的标准划分为6,513个视频片段用于训练,497个用于验证,2,990个用于测试,确保了研究结果的可比性和可靠性。该数据集因其广泛的应用场景和挑战性,被广泛采用用于评估和比较各种视频描述算法的性能。

将重后:MSR-VTT数据集是一个大规模的基准数据集,在视频描述领域中发挥着重要作用,并且广泛用于视频字幕生成的研究。该数据集包含从20个不同类别中收集的10,000个视频片段,每个片段附有20个人工标注的英文字幕,总计200,000个视频-字幕对。这些字幕涵盖了29,000个独特的单词,代表了高度的多样性和内容丰富性。MSR-VTT数据集根据标准划分为:6,513个视频片段用于训练,497个用于验证,2,990个用于测试,确保了研究结果的可比性和可靠性。由于其广泛的应用范围和高挑战性,该数据集被广泛用于各种视频描述算法的评估和比较。

润色(必须得进行)

GPT润色

自行编辑提示词,按照你的需求来就行。

image-20241011175555258

人工润色(推荐)

将重后:MSR-VTT数据集是一个大规模的基准数据集,在视频描述领域中发挥着重要作用,并且广泛用于视频字幕生成的研究。该数据集包含从20个不同类别中收集的10,000个视频片段,每个片段附有20个人工标注的英文字幕,总计200,000个视频-字幕对。这些字幕涵盖了29,000个独特的单词,代表了高度的多样性和内容丰富性。MSR-VTT数据集根据标准划分为:6,513个视频片段用于训练,497个用于验证,2,990个用于测试,确保了研究结果的可比性和可靠性。由于其广泛的应用范围和高挑战性,该数据集被广泛用于各种视频描述算法的评估和比较。

微软研究视频到文本(翻译的结果,但是这是有问题的)Microsoft research‐video to text(MSR-VTT)[17] 数据集包含10,000个视频片段,分为三个部分:训练、验证和测试。每个视频片段标注了大约20个英文字幕,总共200,000个字幕。此外,MSR-VTT还为每个视频提供类别信息(共20个类别)。根据这些论文中的实验[9, 12],我们将使用公开的划分进行训练和测试,包括6,513个视频片段用于训练,497个片段用于验证,2,990个片段用于测试。

一时半会找不出好的例子,但是上面两段话应该足够了。无论是拼凑的段落,还是GPT润色后的段落,都要进行人工润色:一般就是对专业词进行修改,通读一两遍保证逻辑顺畅,尤其是要保证上下文的逻辑顺畅

不可否认的是,GPT很强大,特别强大,但一定要人工润色!

不可否认的是,GPT很强大,特别强大,但一定要人工润色!!

不可否认的是,GPT很强大,特别强大,但一定要人工润色!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/70418.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

特斯拉发布Robotaxi,支撑其自动驾驶的FSD你需要了解一下

前言 大家好,我是小徐啊。10月11日,在特斯拉新品发布会上,在位于加州洛杉矶的华纳兄弟探索电影制片厂举行名为“Robotaxi Day”(无人驾驶出租车)的演示活动,该发布活动主题为“我们机器人”(We,Robot)。 这意味着,马斯克将揭示更多特斯拉自动驾驶汽车的最新进展。马斯…

Centos8使用KVM

安装好Centos8后先配置yum源 [root@localhost ~]# cd /etc/yum.repos.d/ [root@localhost yum.repos.d]# mkdir yum.bak [root@localhost yum.repos.d]# ls CentOS-AppStream.repo CentOS-CR.repo CentOS-Extras.repo CentOS-Media.repo CentOS-Vault.repo…

四级平安、吉祥如意、紫气东来

家和万兴济世长,妻贤子孝运恒昌。 南山苍松栖云鹤,东篱梧桐落凤凰。 西川潜龙引紫气,北斗流光降瑞祥。 德高望重仁者寿,恩泽子孙福满堂。为人:谦逊、激情、博学、审问、慎思、明辨、 笃行 学问:纸上得来终觉浅,绝知此事要躬行 为事:工欲善其事,必先利其器。 态…

mac安装ps2023

花了5毛钱从网上找的资源下载的,真累啊,找了好久 https://www.123pan.com/s/65fKVv-fekWA 1、安装时提示error2、包内容中打开install2、错误码501安装错误原因:Mac系统缺少ACC云运行框架,导致安装报错! 3、错误码81adobe create clould 退出登录账号;

密码学承诺之原理和应用 - Kate多项式承诺

主页微信公众号:密码应用技术实战 博客园首页:https://www.cnblogs.com/informatics/ GIT地址:https://github.com/warm3snow简介 多项式承诺是一种实用性比较强的密码学承诺方案,允许一个方(承诺者)向另一个方(验证者)承诺一个多项式的值,而不泄露多项式的具体形式。…

线段树分治略解杂题解析

可能做到好题之后会再更新吧。 总叙 线段树与离线询问结合技巧又被称为线段树分治。 使用线段树分治维护的信息通常会在某一个时间段内出现,要求在离线的前提下回答某一个时刻的信息并,则可以考虑使用线段树分治的技巧。 以下是线段树分治的基本模板: change 将信息按时间段…

多校A层冲刺NOIP2024模拟赛05

A. 好数(number) 很容易想到 \(n^3\) 枚举两个,看第三个是否出现,扩展一下,枚举一个,看剩下需要的和是否出现过,提前处理出两两的和 和最早能合出这个数的位置,复杂的 \(O(n^2)\)点击查看代码 #include<bits/stdc++.h> const int maxn=5000+10; using namespace …

二分图全面学习笔记

二分图全面学习笔记 Part1:二分图的定义与判定方法 首先,我们要知道二分图的定义是什么。 二分图的定义 ​ 如果一张无向图的 \(n\) 个节点可以分成 \(A,B\) 两个不相交的非空集合,并且同一个集合之中的两个点之间没有边相连接,那么称该无向图为二分图 (Bipartite Graph) …