NewFlame, an assistant that learns and improves. Available on

jimeng-mcp-skill

wwwzhouhui/jimeng-mcp-skill

AI & ML

8 installs

About

SKILL.md

jimeng-mcp-skill

wwwzhouhui/jimeng-mcp-skill

AI & ML

8 installs

About

使用jimeng-mcp-server进行AI图像和视频生成。当用户请求从文本生成图像、合成多张图片、从文本描述创建视频或为静态图像添加动画时使用此技能。支持四大核心能力：文生图、图像合成、文生视频、图生视频。需要jimeng-mcp-server在本地运行或通过SSE/HTTP访问。

SKILL.md

即梦 AI 生成技能

概述

即梦技能通过 jimeng-mcp-server 实现 AI 驱动的图像和视频生成，这是一个集成了即梦 AI 多模态生成能力的 MCP（模型上下文协议）服务器。使用此技能可以直接通过自然语言指令创建视觉内容。

核心能力：

🎨 文本生成图像：从文本描述生成高质量图像
🎭 图像合成：智能合并和融合多张图片
🎬 文本生成视频：从文本提示创建短视频
🎞️ 图像生成视频：为静态图像添加动画效果

何时使用此技能：

用户要求生成、创建或制作图像或视频
用户提到"jimeng"、"即梦"或请求AI视觉内容生成
用户提供文本描述并希望得到视觉输出
用户想要组合、合并或合成多张图片
用户想为静态图像添加动画或运动效果

前置条件

使用此技能前，请确保 jimeng-mcp-server 已正确配置：

服务器必须运行，通过以下模式之一：
- stdio 模式：在 MCP 客户端（Claude Desktop、Cherry Studio）中配置
- SSE 模式：作为带 SSE 传输的 HTTP 服务器运行
- HTTP 模式：作为 REST API 服务器运行
环境变量已配置：
- JIMENG_API_KEY：您的即梦 API 密钥（从即梦网站 cookies 获取）
- JIMENG_API_URL：API 端点（默认：http://127.0.0.1:8001）
- JIMENG_MODEL：模型名称（默认：jimeng-4.5）
后端 API 运行中：jimeng-free-api-all Docker 容器必须处于活动状态

详细的设置说明请参考 references/setup_guide.md。

快速开始

基本使用模式

当用户请求图像或视频生成时，遵循以下工作流程：

识别任务类型，基于用户输入
提取必需参数，从请求中获取
调用相应的 jimeng-mcp-server 工具
返回生成的内容 URL 给用户

示例请求

文本生成图像：

用户："用即梦生成一张图片：樱花树下的柴犬"
→ 使用 text_to_image 工具，参数 prompt="樱花树下的柴犬"

图像合成：

用户："帮我合成这两张图片，风格偏向第一张"
→ 使用 image_composition 工具，提供图片 URL

文本生成视频：

用户："创建一个5秒视频：小马过河的故事场景"
→ 使用 text_to_video 工具，设置提示词和时长

图像生成视频：

用户："为这张图片添加动画效果"
→ 使用 image_to_video 工具，提供图片 URL

核心能力

1. 文本生成图像

使用即梦 4.5 引擎从文本描述生成图像。

工具：text_to_image

参数：

prompt（必需）：期望图像的文本描述
model（可选）：模型版本（默认：jimeng-4.5）
ratio（可选）：图像宽高比（"1:1", "4:3", "3:4", "16:9", "9:16"）
resolution（可选）：分辨率预设（"1k", "2k", "4k"，默认：2k）
negativePrompt（可选）：要在生成图像中避免的元素

常见宽高比：

16:9 → 横向/宽屏（视频封面、Banner）
1:1 → 正方形（头像、社交媒体）
9:16 → 竖向/手机屏幕（短视频封面）
4:3 → 标准横向（博客配图）
3:4 → 标准竖向（人像照片）

使用示例：

# 用户请求："生成一张图片：夕阳下的海滩，有椰子树"
{
  "model": "jimeng-4.5",
  "prompt": "夕阳下的海滩，有椰子树",
  "ratio": "16:9",
  "resolution": "2k"
}

返回结果： 返回包含多张图片 URL 的数组，可显示或下载。

提示：

更高分辨率（4k）适合印刷品和高质量展示
较低分辨率（1k）适合快速预览
使用描述性提示词以获得更好的结果
指定艺术风格、光照、氛围以增强控制

2. 图像合成

通过智能融合合并和混合多张图片。

工具：image_composition

参数：

prompt（必需）：如何合成图片的描述
images（必需）：要合成的 2-5 个图片 URL 数组
model（可选）：模型版本（默认：jimeng-4.5）
ratio（可选）：输出图像宽高比（"1:1", "4:3", "3:4", "16:9", "9:16"）
resolution（可选）：分辨率预设（"1k", "2k", "4k"，默认：2k）

使用示例：

# 用户请求："合成这两张图，保留第一张的风格"
{
  "model": "jimeng-4.5",
  "prompt": "将两张图片无缝融合，保持第一张图片的艺术风格",
  "images": [
    "https://example.com/image1.jpg",
    "https://example.com/image2.jpg"
  ],
  "ratio": "4:3",
  "resolution": "2k"
}

使用场景：

将人像与背景融合
图片之间的风格迁移
创建艺术合成作品
合并多张照片的元素

提示：

在提示词中提供清晰的合成说明
图片应具有兼容的分辨率
描述期望的混合风格（无缝、艺术、真实）

3. 文本生成视频

从文本描述创建短视频。

工具：text_to_video

参数：

prompt（必需）：视频场景的文本描述
model（可选）：模型版本（默认：jimeng-video-3.0）
ratio（可选）：视频宽高比（"16:9", "9:16", "4:3", "3:4", "1:1"）
resolution（可选）：预设分辨率（"480p", "720p", "1080p"）

分辨率预设：

"480p" → 快速预览
"720p" → 平衡质量/速度（推荐）
"1080p" → 高质量

使用示例：

# 用户请求："生成5秒视频：小猫在钓鱼"
{
  "model": "jimeng-video-3.0",
  "prompt": "一只橘色小猫坐在河边，手持鱼竿专注地钓鱼，阳光明媚",
  "ratio": "16:9",
  "resolution": "720p"
}

视频特性：

时长：通常 3-5 秒
格式：MP4
生成时间：30-60 秒
帧率：24-30 fps

提示：

包含场景细节、动作和氛围
保持提示词专注于单一清晰的动作
指定一天中的时间、天气或情绪以获得更好的结果
从 720p 开始以平衡质量和速度

4. 图像生成视频动画

为静态图像添加运动和动画效果。

工具：image_to_video

参数：

prompt（必需）：期望动画效果的描述
file_paths（必需）：要添加动画的图片 URL 数组
model（可选）：模型版本（默认：jimeng-video-3.0）
ratio（可选）：视频宽高比（"16:9", "9:16", "4:3", "3:4", "1:1"）
resolution（可选）：预设分辨率（"480p", "720p", "1080p"）

使用示例：

# 用户请求："让这张照片动起来，添加轻柔的镜头缩放"
{
  "model": "jimeng-video-3.0",
  "prompt": "添加轻柔的运动效果和自然的镜头缩放，营造电影感",
  "file_paths": ["https://example.com/photo.jpg"],
  "ratio": "16:9",
  "resolution": "720p"
}

动画类型：

人物动作（Character motion）
镜头运动（Camera movements）
场景转换（Scene transitions）
环境效果（Environmental effects：风、雨等）

提示：

描述期望的运动类型
选择效果时考虑图像内容
人像照片适合细微的动作
风景照片适合平移/缩放效果

工作流程指南

决策树

收到用户请求
    │
    ├─ 包含"生成图片"或"create image"？
    │   └─ 是 → 使用 text_to_image
    │
    ├─ 包含"合成"或"merge/blend images"？
    │   └─ 是 → 使用 image_composition
    │
    ├─ 包含"生成视频"或"create video"？
    │   └─ 是 → 使用 text_to_video
    │
    └─ 包含"动画"或"animate image"？
        └─ 是 → 使用 image_to_video

参数提取

处理用户请求时：

提取提示词：用户对期望内容的描述
识别宽高比：提取尺寸偏好（横向/竖向/正方形）对应 ratio 参数
解析分辨率需求：寻找质量要求，对应 resolution 参数
收集图片 URL：用于合成和动画任务

错误处理

如果工具执行失败：

检查服务器状态：验证 jimeng-mcp-server 是否运行
验证 API 密钥：确保 JIMENG_API_KEY 已配置
检查参数：确认所有必需字段已提供
检查图片 URL：验证合成/动画的 URL 是否可访问
清晰报告错误：解释问题并建议解决方案

常见错误：

API key not configured：在环境中设置 JIMENG_API_KEY
Server not responding：启动 jimeng-free-api-all Docker 容器
Invalid image URL：确保 URL 公开可访问
Generation timeout：大型视频可能需要 60+ 秒

高级用法

组合多个工具

对于复杂的创意任务，可以链式使用工具：

示例：创建动画艺术作品

使用 text_to_image 生成基础图像
使用 image_to_video 为结果添加动画

示例：合成和优化

使用 image_composition 合成图片
使用调整后的提示词生成变体

优化技巧

加快生成速度：

使用较低分辨率（720p 而非 1080p，或 1k 而非 2k）
保持提示词简洁但具有描述性

提高质量：

使用详细、具体的提示词
根据场景选择合适的 ratio（宽高比）
使用更高的 resolution（2k 或 4k）
指定艺术风格和技术
包含光照和氛围描述

批量处理

当用户请求多次生成时：

按顺序处理请求（一次一个）
为每个项目提供进度更新
在最终响应前收集所有结果
考虑资源限制（API 配额）

故障排除

服务器连接问题

症状：工具返回连接错误

解决方案：

检查 jimeng-free-api-all Docker 容器是否运行：
```
docker ps | grep jimeng
```
验证服务器是否可访问：
```
curl http://127.0.0.1:8001/health
```
如有需要重启 Docker 容器

API 密钥问题

症状："Invalid API key"或身份验证错误

解决方案：

验证 .env 文件中的 JIMENG_API_KEY
从即梦网站 cookies 获取新的 API 密钥（sessionid 值）
确保密钥格式正确（无额外空格或引号）

生成质量问题

症状：质量差或意外结果

解决方案：

使用更具体的细节优化提示词
调整 ratio 参数选择合适的宽高比
尝试不同的 resolution 分辨率
添加 negativePrompt 以排除不需要的元素

超时错误

症状：生成时间过长或超时

解决方案：

视频生成通常需要 30-60 秒 - 请耐心等待
如果持续超时，尝试较低分辨率
检查服务器资源使用情况
验证到即梦 API 的网络连接

资源

references/

setup_guide.md：详细的安装和配置说明
api_reference.md：所有工具的完整 API 文档

项目链接

GitHub 仓库：https://github.com/wwwzhouhui/jimeng-mcp-server
后端 API：https://github.com/wwwzhouhui/jimeng-free-api-all
即梦官网：https://jimeng.jianying.com/

最佳实践

始终在尝试生成前验证服务器状态
根据用例和速度要求使用适当的分辨率（ratio 控制比例，resolution 控制清晰度）
提供详细的提示词以获得更好的生成质量
优雅地处理错误并提供清晰的用户反馈
处理多个请求时考虑速率限制
在复杂合成前先用简单提示词测试
缓存常用参数，如首选 ratio 和 resolution

限制

免费层限制：官方即梦 API 每天 66 积分
视频时长：通常限制为 3-10 秒
生成时间：视频可能需要 30-60 秒生成
图像合成：2-3 张图片效果最佳，最多支持 5 张
服务器依赖：需要 jimeng-free-api-all 后端运行
网络要求：必须有互联网访问以调用即梦 API

About

SKILL.md

About

SKILL.md

即梦 AI 生成技能

概述

核心能力：

🎨 文本生成图像：从文本描述生成高质量图像
🎭 图像合成：智能合并和融合多张图片
🎬 文本生成视频：从文本提示创建短视频
🎞️ 图像生成视频：为静态图像添加动画效果

何时使用此技能：

用户要求生成、创建或制作图像或视频
用户提到"jimeng"、"即梦"或请求AI视觉内容生成
用户提供文本描述并希望得到视觉输出
用户想要组合、合并或合成多张图片
用户想为静态图像添加动画或运动效果

前置条件

使用此技能前，请确保 jimeng-mcp-server 已正确配置：

服务器必须运行，通过以下模式之一：
- stdio 模式：在 MCP 客户端（Claude Desktop、Cherry Studio）中配置
- SSE 模式：作为带 SSE 传输的 HTTP 服务器运行
- HTTP 模式：作为 REST API 服务器运行
环境变量已配置：
- JIMENG_API_KEY：您的即梦 API 密钥（从即梦网站 cookies 获取）
- JIMENG_API_URL：API 端点（默认：http://127.0.0.1:8001）
- JIMENG_MODEL：模型名称（默认：jimeng-4.5）
后端 API 运行中：jimeng-free-api-all Docker 容器必须处于活动状态

详细的设置说明请参考 references/setup_guide.md。

快速开始

基本使用模式

当用户请求图像或视频生成时，遵循以下工作流程：

识别任务类型，基于用户输入
提取必需参数，从请求中获取
调用相应的 jimeng-mcp-server 工具
返回生成的内容 URL 给用户

示例请求

文本生成图像：

用户："用即梦生成一张图片：樱花树下的柴犬"
→ 使用 text_to_image 工具，参数 prompt="樱花树下的柴犬"

图像合成：

用户："帮我合成这两张图片，风格偏向第一张"
→ 使用 image_composition 工具，提供图片 URL

文本生成视频：

用户："创建一个5秒视频：小马过河的故事场景"
→ 使用 text_to_video 工具，设置提示词和时长

图像生成视频：

用户："为这张图片添加动画效果"
→ 使用 image_to_video 工具，提供图片 URL

核心能力

1. 文本生成图像

使用即梦 4.5 引擎从文本描述生成图像。

工具：text_to_image

参数：

prompt（必需）：期望图像的文本描述
model（可选）：模型版本（默认：jimeng-4.5）
ratio（可选）：图像宽高比（"1:1", "4:3", "3:4", "16:9", "9:16"）
resolution（可选）：分辨率预设（"1k", "2k", "4k"，默认：2k）
negativePrompt（可选）：要在生成图像中避免的元素

常见宽高比：

16:9 → 横向/宽屏（视频封面、Banner）
1:1 → 正方形（头像、社交媒体）
9:16 → 竖向/手机屏幕（短视频封面）
4:3 → 标准横向（博客配图）
3:4 → 标准竖向（人像照片）

使用示例：

# 用户请求："生成一张图片：夕阳下的海滩，有椰子树"
{
  "model": "jimeng-4.5",
  "prompt": "夕阳下的海滩，有椰子树",
  "ratio": "16:9",
  "resolution": "2k"
}

返回结果： 返回包含多张图片 URL 的数组，可显示或下载。

提示：

更高分辨率（4k）适合印刷品和高质量展示
较低分辨率（1k）适合快速预览
使用描述性提示词以获得更好的结果
指定艺术风格、光照、氛围以增强控制

2. 图像合成

通过智能融合合并和混合多张图片。

工具：image_composition

参数：

prompt（必需）：如何合成图片的描述
images（必需）：要合成的 2-5 个图片 URL 数组
model（可选）：模型版本（默认：jimeng-4.5）
ratio（可选）：输出图像宽高比（"1:1", "4:3", "3:4", "16:9", "9:16"）
resolution（可选）：分辨率预设（"1k", "2k", "4k"，默认：2k）

使用示例：

# 用户请求："合成这两张图，保留第一张的风格"
{
  "model": "jimeng-4.5",
  "prompt": "将两张图片无缝融合，保持第一张图片的艺术风格",
  "images": [
    "https://example.com/image1.jpg",
    "https://example.com/image2.jpg"
  ],
  "ratio": "4:3",
  "resolution": "2k"
}

使用场景：

将人像与背景融合
图片之间的风格迁移
创建艺术合成作品
合并多张照片的元素

提示：

在提示词中提供清晰的合成说明
图片应具有兼容的分辨率
描述期望的混合风格（无缝、艺术、真实）

3. 文本生成视频

从文本描述创建短视频。

工具：text_to_video

参数：

prompt（必需）：视频场景的文本描述
model（可选）：模型版本（默认：jimeng-video-3.0）
ratio（可选）：视频宽高比（"16:9", "9:16", "4:3", "3:4", "1:1"）
resolution（可选）：预设分辨率（"480p", "720p", "1080p"）

分辨率预设：

"480p" → 快速预览
"720p" → 平衡质量/速度（推荐）
"1080p" → 高质量

使用示例：

# 用户请求："生成5秒视频：小猫在钓鱼"
{
  "model": "jimeng-video-3.0",
  "prompt": "一只橘色小猫坐在河边，手持鱼竿专注地钓鱼，阳光明媚",
  "ratio": "16:9",
  "resolution": "720p"
}

视频特性：

时长：通常 3-5 秒
格式：MP4
生成时间：30-60 秒
帧率：24-30 fps

提示：

包含场景细节、动作和氛围
保持提示词专注于单一清晰的动作
指定一天中的时间、天气或情绪以获得更好的结果
从 720p 开始以平衡质量和速度

4. 图像生成视频动画

为静态图像添加运动和动画效果。

工具：image_to_video

参数：

prompt（必需）：期望动画效果的描述
file_paths（必需）：要添加动画的图片 URL 数组
model（可选）：模型版本（默认：jimeng-video-3.0）
ratio（可选）：视频宽高比（"16:9", "9:16", "4:3", "3:4", "1:1"）
resolution（可选）：预设分辨率（"480p", "720p", "1080p"）

使用示例：

# 用户请求："让这张照片动起来，添加轻柔的镜头缩放"
{
  "model": "jimeng-video-3.0",
  "prompt": "添加轻柔的运动效果和自然的镜头缩放，营造电影感",
  "file_paths": ["https://example.com/photo.jpg"],
  "ratio": "16:9",
  "resolution": "720p"
}

动画类型：

人物动作（Character motion）
镜头运动（Camera movements）
场景转换（Scene transitions）
环境效果（Environmental effects：风、雨等）

提示：

描述期望的运动类型
选择效果时考虑图像内容
人像照片适合细微的动作
风景照片适合平移/缩放效果

工作流程指南

决策树

收到用户请求
    │
    ├─ 包含"生成图片"或"create image"？
    │   └─ 是 → 使用 text_to_image
    │
    ├─ 包含"合成"或"merge/blend images"？
    │   └─ 是 → 使用 image_composition
    │
    ├─ 包含"生成视频"或"create video"？
    │   └─ 是 → 使用 text_to_video
    │
    └─ 包含"动画"或"animate image"？
        └─ 是 → 使用 image_to_video

参数提取

处理用户请求时：

提取提示词：用户对期望内容的描述
识别宽高比：提取尺寸偏好（横向/竖向/正方形）对应 ratio 参数
解析分辨率需求：寻找质量要求，对应 resolution 参数
收集图片 URL：用于合成和动画任务

错误处理

如果工具执行失败：

检查服务器状态：验证 jimeng-mcp-server 是否运行
验证 API 密钥：确保 JIMENG_API_KEY 已配置
检查参数：确认所有必需字段已提供
检查图片 URL：验证合成/动画的 URL 是否可访问
清晰报告错误：解释问题并建议解决方案

常见错误：

API key not configured：在环境中设置 JIMENG_API_KEY
Server not responding：启动 jimeng-free-api-all Docker 容器
Invalid image URL：确保 URL 公开可访问
Generation timeout：大型视频可能需要 60+ 秒

高级用法

组合多个工具

对于复杂的创意任务，可以链式使用工具：

示例：创建动画艺术作品

使用 text_to_image 生成基础图像
使用 image_to_video 为结果添加动画

示例：合成和优化

使用 image_composition 合成图片
使用调整后的提示词生成变体

优化技巧

加快生成速度：

使用较低分辨率（720p 而非 1080p，或 1k 而非 2k）
保持提示词简洁但具有描述性

提高质量：

使用详细、具体的提示词
根据场景选择合适的 ratio（宽高比）
使用更高的 resolution（2k 或 4k）
指定艺术风格和技术
包含光照和氛围描述

批量处理

当用户请求多次生成时：

按顺序处理请求（一次一个）
为每个项目提供进度更新
在最终响应前收集所有结果
考虑资源限制（API 配额）

故障排除

服务器连接问题

症状：工具返回连接错误

解决方案：

检查 jimeng-free-api-all Docker 容器是否运行：
```
docker ps | grep jimeng
```
验证服务器是否可访问：
```
curl http://127.0.0.1:8001/health
```
如有需要重启 Docker 容器

API 密钥问题

症状："Invalid API key"或身份验证错误

解决方案：

验证 .env 文件中的 JIMENG_API_KEY
从即梦网站 cookies 获取新的 API 密钥（sessionid 值）
确保密钥格式正确（无额外空格或引号）

生成质量问题

症状：质量差或意外结果

解决方案：

使用更具体的细节优化提示词
调整 ratio 参数选择合适的宽高比
尝试不同的 resolution 分辨率
添加 negativePrompt 以排除不需要的元素

超时错误

症状：生成时间过长或超时

解决方案：

视频生成通常需要 30-60 秒 - 请耐心等待
如果持续超时，尝试较低分辨率
检查服务器资源使用情况
验证到即梦 API 的网络连接

资源

references/

setup_guide.md：详细的安装和配置说明
api_reference.md：所有工具的完整 API 文档

项目链接

GitHub 仓库：https://github.com/wwwzhouhui/jimeng-mcp-server
后端 API：https://github.com/wwwzhouhui/jimeng-free-api-all
即梦官网：https://jimeng.jianying.com/

最佳实践

始终在尝试生成前验证服务器状态
根据用例和速度要求使用适当的分辨率（ratio 控制比例，resolution 控制清晰度）
提供详细的提示词以获得更好的生成质量
优雅地处理错误并提供清晰的用户反馈
处理多个请求时考虑速率限制
在复杂合成前先用简单提示词测试
缓存常用参数，如首选 ratio 和 resolution

限制

免费层限制：官方即梦 API 每天 66 积分
视频时长：通常限制为 3-10 秒
生成时间：视频可能需要 30-60 秒生成
图像合成：2-3 张图片效果最佳，最多支持 5 张
服务器依赖：需要 jimeng-free-api-all 后端运行
网络要求：必须有互联网访问以调用即梦 API