通过大模型完成影视解说视频剪辑1.0

news/2024/9/20 18:43:32

一. 概述

什么是自动化剪辑解说电影的 AI Agent?

自动化剪辑解说电影的 AI Agent 是一种利用大模型技术对电影进行自动化剪辑和解说的系统。这种 AI Agent 能够分析电影中的剧情、人物对话、场景变化等元素,自动生成解说词并进行剪辑,使得观众可以在更短的时间内了解电影的核心内容。

下面为方案流程图:

二. 快速开始

环境

  • 显卡:不低于8G显存
  • python版本:3.9
  • pytorch版本:cu117

1.本地搭建视频理解大模型

  1. 克隆存储库
git clone https://github.com/linyqh/MiniGPT4-VideoLin
cd MiniGPT4-VideoLin
  1. 搭建环境
# 安装pytorch
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117# 安装其他包
pip install -r requirements.txt
  1. 下载 checkpoints
MiniGPT4-Video (Llama2 Chat 7B) MiniGPT4-Video (Mistral 7B)
Download Download
  1. (可选)下载 Llama-2-7b-chat

    国内下载会很慢,建议先提前下载到本地,然后修改模型加载路径,下载方法就不赘述了

  2. 运行demo

python minigpt4_video_inference.py --ckpt path_to_video_checkpoint --cfg-path test_configs/llama2_test_config.yaml
  1. 运行结果

    本文以 《美国队长1》 为例演示效果,展示的片段为给美队注射血清的片段

    最后输出为:

    场景描述:  The video shows a man in a suit wearing grayish-white underwear standing against the background of black and yellow, as he stands before several planted plants with white sheets around them. At some point while looking at his watch on one wristband when no people are present nearby him near a control panel.
    

2.搭建自动化剪辑工具

本步骤参考项目 MoneyPrinterTurbo 只需提供一个视频 主题 或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。

解读项目后,大概原理是提供一个主题,然后利用大模型生成文案和关键词,利用文本转语音的能力生成解说语音,然后根据关键词去 Pexels 网站搜索相关视频,然后配上背景音乐,使用 ImageMagick 工具合成完整视频。

存在问题:

  • MoneyPrinterTurbo 项目最大的问题是视频素材为了确保版权,只能从 Pexels 网站获取,关键词搜索有时候完全不相关,视频素材不能自己提供
但是这个项目的生成音频,生成字母,视频合并还是非常好用的,我们只需要替换其中的素材来源,就不用重复造轮子了!!!
  1. 创建虚拟环境
git clone https://github.com/harry0703/MoneyPrinterTurbo.git
cd MoneyPrinterTurbo
conda create -n MoneyPrinterTurbo python=3.10
conda activate MoneyPrinterTurbo
pip install -r requirements.txt
  1. 安装 ImageMagick

    Windows:

    • 下载 https://imagemagick.org/archive/binaries/ImageMagick-7.1.1-31-Q16-x64-static.exe
    • 安装下载好的 ImageMagick,注意不要修改安装路径
    • 修改 配置文件 config.toml 中的 imagemagick_path 为你的实际安装路径(如果安装的时候没有修改路径,直接取消注释即可)
  2. 启动服务

python main.py

3.制作自己的素材库

大致思路:先根据时间将一个完整的视频裁剪为10分钟的片段,利用前面是视频理解大模型,为每个片段打上标签,便于后面的检索,然后再根据影视解说文案,进行 音画同步 (整个项目中音画同步是最难的部分,目前我也在想各种方案做音画同步的优化)

这部分等有更加好的方案,我再更新吧!!!

参考项目

视频理解大模型:
MiniGPT4-Video
Video-ChatGPT

一键生成短视频
MoneyPrinterTurbo
MoneyPrinterV2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/31845.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

Spring源码分析:List集合注入

pom.xml<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0…

SD安装animatediff插件

在线地址 https://gitcode.net/ranting8323/sd-webui-animatediff 在线安装安装完重启 下载animatediff专用模型和8个镜头(可选) https://huggingface.co/guoyww/animatediff/tree/main启用 Animatediff公司电脑显卡不行,很多东西做不了。更多玩法可以去b站搜一下视频

人工智能-机器学习-逻辑回归

一、逻辑回归-预测考试通过1、导入模块 # 导入模块 import pandas as pd from matplotlib import pyplot as plt from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score ``## 2、读取数据```python # 读取数据(加载数据,加载后打…

【Linux命令学习】lsof查看打开的文件

lsof: list open files作用1:可查端口号被哪个进程占用 比如我们跑自动化,经常会遇到端口号被占用,无法启动driver lsof -i :8081lsof 输出的结果含义:fd:文件描述符的数字,通常是一个正整数。file descriptor type:文件描述符的类型,如 REG 表示普通文件,DIR 表示目…

ECU刷写流程之压缩刷写技术解析

背景在现代汽车电子技术中,ECU(电子控制单元)的软件升级是一项关键任务。为了提高数据传输的效率和安全性,压缩刷写技术应运而生。通过数据压缩传输,我们可以有效地增加带宽利用率,减少刷写工具与ECU之间的数据传输量,从而显著缩短ECU升级时间。此外,为了加强数据的安全…

利用深度循环神经网络对心电图降噪

具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI 我们提出了一种利用由长短期记忆 (LSTM) 单元构建的深度循环神经网络来降 噪心电图信号 (ECG) 的新方法。该网络使 用动态模型 ECG 生成的合成数据进行预训 练,并使用来自 Physionet PDB 心电图信 号数据库的真…

手机里的照片如何压缩变小?教你4个图片压缩方法

图片压缩怎么弄?有时候图片太大,会占用比较多的储存位置,而且分享需要的时间也会比较长;甚至会因为图片过大而上传失败,今天给大家分享4个手机也适用的方法,让你轻松压缩图片,简单又快速! 方法一、QQ 直接使用我们常用到的社交软件QQ来压缩图片是一个非常不错的选择! …