开视频工具

精选开源：文生视频、工作流客户端、配音、剪辑与脚手架。点击图片进入单页详情（图示多为 GitHub 组织头像）。

持续更新可按仓库 PR 外链需联网

视频生成

Wan2.2（万相）

阿里通义万相开源系列，支持文生视频与图生视频；社区热度高，适合作为国产视频大模型基线与工作流评测。

CogVideo / CogVideoX

智谱开源视频生成路线，文档与微调资料较全，适合研究与产品原型。

Open-Sora

HPC-AI Tech 开源视频生成，强调效率与可变分辨率时长，适合做架构学习与二次训练实验。

HunyuanVideo

腾讯混元视频开源框架，可与 Hugging Face 生态衔接，便于企业内评估。

LightX2V

轻量推理底座，适配多类图像/视频任务，减轻环境碎片化。

Phantom

强调主角/物体在多镜头中的一致性，适合虚拟人短剧链路。

LongLive

NVIDIA 研究向更长序列互动视频生成，算力与环境门槛高。

Pyramid Flow

金字塔流匹配路线开源实现，适合跟读新方法论文。

LTX-Video

Lightricks 开放视频生成相关权重与推理，便于对比商业产品开发流程。

Stability generative-models

Stability AI 开源生成管线代码仓库，historically 涵盖 Stable Video Diffusion 等与扩散视频相关的官方实现入口；具体模型权重与许可…

工作流与生图

ComfyUI

节点式扩散工作台，插件与工作流海量，是 Wan/SDXL/视频 I2V 工业化的事实标准之一。

SD WebUI (A1111)

最经典的 Stable Diffusion 一键网页界面，插件与教程资源极度丰富。

Fooocus

类 Midjourney 体验的本地出图工具，强调少旋钮、专注提示词。

InvokeAI

专业向 Creative Engine，画布与工作流管理完善，商用许可友好。

AnimateDiff

为 SD 注入时间维度的经典方案，诸多 Comfy 视频流程的基础模块来源。

ControlNet

结构化条件控制（边缘/深度/姿态等）与生图结合的里程碑项目，亦是大量 Comfy 节点与工作流的概念源头。

InstantID

单张参考图保持人物身份特征的风格化/换脸向技术实现，可做角色一致性的图像侧补充。

rembg

一键人像/主体抠图 CLI 与库，便于给视频静帧或封面做透明素材。

脚手架

text2video

文案→配音→画面的一体化示例项目，易于 fork 做自己的流水线。

text_to_vedio

本地化小说推文/B 站短片实验仓库（命名保留历史拼写）。

字字动画 TypeTale

小说推文与 AI 短剧桌面向客户端（GitHub: TypeTale/TypeTale）。本项目不再把您送到 xiaoge 导航首页：点击下方按钮进入<strong>本站独…

语音

GPT-SoVITS

高人气语音克隆管线，适合做角色配音与小样本音色。

CosyVoice

通义实验室语音开源线，适合做可控 TTS 与产品集成。

edge-tts

Python 封装微软 Edge 在线发音，门槛低，是许多视频自动化首选旁白方案。

Whisper

多语言语音识别基线模型，自动生成字幕与时间轴的基础设施。

faster-whisper

基于 CTranslate2 的 Whisper 高效推理实现，显存与速度优于原版 PyTorch 推理，适合大批量打轴与字幕。

Bark

Suno 开源神经 TTS，可生成带情绪与简单背景音效的语音，适合创意短片与旁白实验。

AudioCraft

Meta 开源音频生成套件（含 MusicGen 等），可为视频自动铺轨、氛围音乐或音效提供素材。

Piper

Rhasspy 系轻量离线神经 TTS，适合端侧或内网无公网 TTS 时的旁白合成。

Coqui TTS

经典开源 TTS 工具包，支持训练与推理多种声线；社区教材多，适合深度定制发音人。

剪辑编码

FFmpeg

音视频处理工业标准 CLI/库，所有严肃视频链路都离不开它。

Shotcut

跨平台开源非线性剪辑，适合做轻量粗剪。

OBS Studio

直播与桌面采集事实标准之一，支持多场景与插件。

Blender

全功能三维与合成套件，内含视频序列编辑器，适合三维+实拍混合管线。

Kdenlive

KDE 非线性视频编辑器，功能完整、跨平台，适合 Linux 桌面用户做长片剪辑。

Natron

开源节点式合成与调色工具，偏影视后期与通道合成，可与 CG 渲染流程衔接。

LosslessCut

基于 FFmpeg 的无损裁切与快速分段，适合粗剪、拆条与归档而不二次编码。

标注数据

Label Studio

多模态数据标注平台，可标视频帧、音频、文本，适合做训练数据质检。

开发库

🤗 Diffusers

Hugging Face 扩散模型流水线库，文生图与视频管线接口统一。

MoviePy

用 Python 写剪辑脚本：剪切、字幕、拼接，适合 Glue 自动化。

Remotion

用 React 写「可编程视频」：模板、数据驱动成片、CI 里出预览，适合产品演示与批量化短视频。

aiortc

Python WebRTC，实时音视频原型与流媒体实验常用。

ffmpeg-python

用 Python 友好地拼 FFmpeg 命令行，适合把转码、拼接、滤镜封装进自动化脚本。

OpenCV

计算机视觉基础库：跟踪、检测、图像处理与简单视频 IO，是大量 AI 视觉前后处理的事实标准。

ModelScope（魔搭）

魔搭社区模型与工具链，便于拉取国内常用文生图/视频相关权重与推理示例。

MMagic

OpenMMLab 旗下生成式工具箱，覆盖图像/视频编辑与恢复等任务，适合科研与工程统一代码风格。

🤗 Transformers

大模型与多模态模型加载、训练与推理的核心库之一，与 Diffusers 常配合使用。

ImageMagick

老牌图像处理瑞士军刀，适合批量缩放、格式转换、水印与简单动图，常作为流水线的 glue。

Gradio

几行代码为模型搭 Web Demo，适合给内部同事或客户快速试用文生图/视频接口。

Streamlit

纯 Python 写交互界面，适合快速做「上传脚本→调参→看结果」的内部工具。

短剧工具

deep-comedy-pro

AI 短剧/视频生产方向的示例管线开源项目。本站提供说明与服务器上的源码 ZIP 快照；使用前请自行审阅包内许可与安全。

LocalMiniDrama

本地优先的 AI 短剧实验台（Vue3 + Electron）：脚本、角色与场景生成可在本机闭环，适合不愿上云的创作者。

CineGen-ShortDrama

Keyframe 驱动的 AI 漫剧 / 分镜工作流，强调镜头与角色一致性，适合从分镜到短片的快速原型。

下载与素材

yt-dlp

youtube-dl 精神的活跃继任者，支持海量站点元数据与格式解析；用于素材归档时请遵守平台 ToS 与版权法。

exiftool

读写照片/视频元数据的标准工具，整理素材库、批量改拍摄时间或版权信息时常用。

PySceneDetect

基于内容变化自动切分镜头，适合长视频拆条、粗剪与数据集构建。

本地与编排

Ollama

本地一键拉取与运行开源权重，方便在剪映脚本、分镜文案、提示词扩写侧挂私有模型。

n8n

可视化工作流与定时任务，可把 Webhook、HTTP、数据库与 AI API 串成稳定管线，适合半自动内容生产。

Flowise

拖拽式 LLM 应用构建器，易与向量库、工具调用组合，用于搭建「写作→审核→出稿」类代理。

资源导航

deep-comedy-pro · AI 短剧流水线

面向 AI 短剧与视频生产的开源示例管线：串联脚本、素材与成片思路。点此进入本站项目页下载源码 ZIP 并阅读部署说明。

字字资源导航页

第三方整理的下载与教程外链聚合（非字字官方）；适合快速跳转飞书/B 站/配音资源，使用前请自检文件安全与版权。主按钮为本站镜面（zizi-123.html），含完整口令表与…