图片识别与分析工具。使用视觉大模型识别图片内容,输出详细客观的识别结果供主模型分析。当用户发图片时,主模型必须直接调用此 skill,然后基于识别结果进行分析和回答。支持 SiliconFlow(默认)、OpenAI、Anthropic 等多服务商。
用户发图片 → 主模型直接调用 skill → skill 识别图片 → skill 输出详细结果 → 主模型分析+网络搜索 → 给出准确回答
image 工具,不要跳过 skill用户: [图片] 这个 meme 笑点在哪?
主模型: python scripts/analyze_image.py meme.jpg
↓
Skill 输出: 详细识别结果(文字+元素)
↓
主模型: 基于识别结果进行分析
- 如果需要背景知识 → 网络搜索
- 如果需要验证 → 网络搜索
↓
主模型回答: 结合事实的准确解析
❌ 直接调用 image 工具回答
❌ 跳过 skill 自己猜测
❌ skill 做过多分析解读
❌ 不验证信息就回答
# 基本用法(推荐)
python scripts/analyze_image.py /path/to/image.jpg
# 指定自定义问题
python scripts/analyze_image.py image.jpg -q "只提取文字"
# 智能模式(更精准,适合复杂图片)
python scripts/analyze_image.py meme.png -m smart
# 简短输出
python scripts/analyze_image.py screenshot.png -s
# 指定服务商
python scripts/analyze_image.py photo.jpg --provider openai
| 参数 | 说明 | 示例 |
|---|---|---|
image |
图片路径或 URL | /path/to/image.jpg |
-q, --question |
自定义问题 | -q "提取所有文字" |
-m, --model |
模型选择 | -m smart |
-s, --short |
简短模式 | -s |
--provider |
指定服务商 | --provider openai |
-c, --compress |
压缩图片 | -c |
| 服务商 | 默认模型 | 特点 | 配置键 |
|---|---|---|---|
| SiliconFlow | deepseek-ai/deepseek-vl2 | 默认,快速稳定 | siliconflow_api_key |
| OpenAI | gpt-4o | 通用强大 | openai_api_key |
| Anthropic | claude-sonnet-4 | 推理能力强 | anthropic_api_key |
| 模式 | 模型 | 速度 | 适用场景 |
|---|---|---|---|
| fast | deepseek-ai/deepseek-vl2 | ~5秒 | 默认,详细识别日常图片 |
| smart | Qwen/Qwen2.5-VL-72B-Instruct | ~2分钟 | 复杂图片、图表、需要精准分析 |
| balanced | deepseek-ai/deepseek-vl 待测试 | 2-turbo | 平衡速度与精度 |
文件: config/default.json
{
"provider": "siliconflow",
"api_key": "sk-xxx",
"model": "fast"
}
也可通过环境变量:
SILICONFLOW_API_KEYOPENAI_API_KEYANTHROPIC_API_KEY当识别图片时,skill 会输出:
1. 图片类型:截图/表情包/聊天记录等
2. 清晰文字:完整提取所有文字
3. 画面元素:列出所有视觉元素
4. 整体布局:图片结构
5. 风格氛围:简约/搞笑/暗黑等
6. 其他细节:值得注意的元素
重要原则:
| 错误 | 解决方案 |
|---|---|
| API key 失效 | 检查配置或环境变量 |
| 图片不存在 | 检查路径是否正确 |
| 超时 | 切换到 fast 模式重试 |
| 服务商不支持 | 切换到其他服务商 |
2026-02-04 优化:
2026-02-06 整合: