Search: evaluation | AgentSkillsRepo

meta-prompt 0.00

mindrally / skills-meta-prompt exact

Meta-prompting framework for critiquing responses, analyzing solution trajectories, and evaluating AI-generated content quality

★ 3 ai

eval-harness 0.00

ValorVie / custom-skills-eval-harness exact

A formal evaluation framework for Claude Code sessions, implementing eval-driven development (EDD) principles.

★ 0 ai

eval-harness 0.00

secucon / cc-sys-eval-harness exact

Formal evaluation framework for Claude Code sessions implementing eval-driven development (EDD) principles

★ 0 ai

eval-harness 0.00

UrlAudit / claude-toolbox-eval-harness exact

Formal evaluation framework for Claude Code sessions implementing eval-driven development (EDD) principles

★ 0 ai

upskill 0.00

clawdbotborges / upskill-skill exact

Generate, evaluate, and iterate on agent skills using HuggingFace's Upskill tool. Transfer domain expertise from frontier models to smaller/local models.

★ 0 ai

quality-auditor 0.00

daffy0208 / ai-dev-standards-quality-auditor exact

Comprehensive quality auditing and evaluation of tools, frameworks, and systems against industry best practices with detailed scoring across 12 critical dimensions

★ 7 ai

solution-space 0.00

open-horizon-labs / skills-solution-space exact

Explore candidate solutions before committing. Use when you have a problem statement and need to evaluate approaches - band-aid, optimize, reframe, or redesign.

★ 0 ai

llm-evals-toolkit 0.00

Y4rd13 / fullstack-ml-ai-agent-skills-llm-evals-toolkit exact

Skill for building LLM evaluation.

★ 0 ai

deep-research 0.00

Tomlord1122 / tomtom-skill-deep-research exact

Deep research expert for comprehensive technical investigations. Use when conducting technology evaluations, comparing solutions, analyzing papers, or exploring technical trends.

★ 0 tools

quality-metrics 0.00

proffesor-for-testing / agentic-qe-quality-metrics exact

Measure quality effectively with actionable metrics. Use when establishing quality dashboards, defining KPIs, or evaluating test effectiveness.

★ 148 ai

agenticsfoundation agents quality-engineering agenticqe

research-analyst 0.00

erichowens / some-claude-skills-research-analyst exact

Conducts thorough landscape research, competitive analysis, best practices evaluation, and evidence-based recommendations. Expert in market research and trend analysis.

★ 20 development

compare 0.00

synaptiai / agent-capability-standard-compare exact

Compare multiple alternatives using explicit criteria, weighted scoring, and tradeoff analysis. Use when choosing between options, evaluating alternatives, or making decisions.

★ 1 ai

agent-capabilities ai-agents ai-safety capability-framework

Financial Analyst 0.00

eddiebe147 / claude-settings-financial-analyst exact

Analyze financial data, build models, evaluate investments, and provide data-driven financial recommendations

★ 8 ai

prompt-engineer 0.00

Jeffallan / claude-skills-prompt-engineer exact

Use when designing prompts for LLMs, optimizing model performance, building evaluation frameworks, or implementing advanced prompting techniques like chain-of-thought, few-shot learning, or...

★ 134 ai

ai-agents claude claude-code claude-marketplace

peer-review 0.00

jackspace / claudeskillz-peer-review exact

Systematic peer review toolkit. Evaluate methodology, statistics, design, reproducibility, ethics, figure integrity, reporting standards, for manuscript and grant review across disciplines.

★ 8 ai

agentic-coding ai-skills automation bioinformatics

peer-review 0.00

ovachiever / droid-tings-peer-review exact

Systematic peer review toolkit. Evaluate methodology, statistics, design, reproducibility, ethics, figure integrity, reporting standards, for manuscript and grant review across disciplines.

★ 19 devops

constrain 0.00

synaptiai / agent-capability-standard-constrain exact

Enforce policies, guardrails, and permission boundaries; refuse unsafe actions and apply least privilege. Use when evaluating actions against policies, checking permissions, or reducing scope to...

★ 1 ai

agent-capabilities ai-agents ai-safety capability-framework

scientific-critical-thinking 0.00

ovachiever / droid-tings-scientific-critical-thinking exact

Evaluate research rigor. Assess methodology, experimental design, statistical validity, biases, confounding, evidence quality (GRADE, Cochrane ROB), for critical analysis of scientific claims.

★ 19 ai

scientific-critical-thinking 0.00

jackspace / claudeskillz-scientific-critical-thinking exact

Evaluate research rigor. Assess methodology, experimental design, statistical validity, biases, confounding, evidence quality (GRADE, Cochrane ROB), for critical analysis of scientific claims.

★ 8 ai

agentic-coding ai-skills automation bioinformatics

classification-helper 0.00

dkyazzentwatwa / chatgpt-skills-classification-helper exact

Quick classifier training with automatic model selection, hyperparameter tuning, and comprehensive evaluation metrics.

★ 7 ai

chatgpt claude-skills

Confirm

Submit a Skill