Use when you have a written implementation plan to execute in a separate session with review checkpoints
0
0
# Install this skill:
npx skills add Mapotofsky/my-agent-skills --skill "pdf-reader"
Install specific skill from multi-skill repository
# Description
读取与解析PDF文件文本与表格。用户要求读取、解析、提取或摘要PDF内容时调用。
# SKILL.md
name: pdf-reader
description: 读取与解析PDF文件文本与表格。用户要求读取、解析、提取或摘要PDF内容时调用。
dependency:
python:
- PyPDF2>=3.0.0
PDF文档读取专家(PDF)
任务目标
- 用于读取.pdf文件并提取文本内容与基本结构
- 能力包含:
- 逐页提取纯文本
- 提供合并后的全文
- 基本页统计信息
- 简单元数据读取(标题、作者等,如可用)
- 触发条件:
- 用户提供.pdf文件路径
- 用户要求读取、解析或提取PDF内容
前置准备
- 依赖说明:
pdfminer.six>=20221105 PyPDF2>=3.0.0 - 无需额外文件准备
操作步骤
步骤1:解析PDF文件
调用 scripts/read_pdf.py 读取PDF:
- 输入:PDF文件路径
- 输出:结构化JSON数据
步骤2:输出结构化内容
输出包含:
- content:合并后的纯文本
- metadata:可用时的PDF元数据
- statistics:页数与字符数统计
输出格式
{
"success": true/false,
"file_path": "输入路径",
"content": "合并后的纯文本",
"metadata": {
"title": "可选",
"author": "可选",
"creator": "可选",
"producer": "可选",
"subject": "可选"
},
"statistics": {
"page_count": 0,
"char_count": 0
},
"error": "错误信息或null"
}
资源索引
- 读取脚本:见 scripts/read_pdf.py
- 用途:读取PDF并提取每页文本与元数据
- 参数:file_path - PDF文件路径
- 适用场景:任意PDF文档解析
使用示例
功能:读取项目白皮书.pdf
输入:D:\docs\whitepaper.pdf
执行方式:
1. 调用read_pdf.py读取文件
2. 输出每页与全文结构化结果
3. 需要时再进行摘要或分析
适用场景
- 文档内容提取与检索
- 报告内容摘要前的文本读取
- 法规、论文PDF文本解析
# Supported AI Coding Agents
This skill is compatible with the SKILL.md standard and works with all major AI coding agents:
Amp
Antigravity
Claude Code
Clawdbot
Codex
Cursor
Droid
Gemini CLI
GitHub Copilot
Goose
Kilo Code
Kiro CLI
OpenCode
Roo Code
Trae
Windsurf
Learn more about the SKILL.md standard and how to use these skills with your preferred AI coding agent.