sofka-cloud-service-discovery

by @javiermontano-sofka in DevOps & Cloud

# Install this skill:

npx skills add javiermontano-sofka/sdf --skill "sofka-cloud-service-discovery"

Install specific skill from multi-skill repository

# Description

# SKILL.md

name: sofka-cloud-service-discovery
description: >
Cloud-as-a-Service discovery — cloud readiness assessment, DevOps maturity (DORA), cloud operations model,
FinOps assessment, cloud security posture, and cloud services roadmap. Distinct from cloud-migration
(which covers migration strategy); this covers Cloud as an ongoing service offering.
Use when the user asks to "assess cloud operations", "evaluate DevOps maturity", "DORA assessment",
"FinOps evaluation", "cloud security posture", "SRE maturity", "cloud operations model",
"cloud service roadmap", or mentions cloud-as-a-service, platform engineering, toil reduction,
FinOps, cloud cost optimization, or cloud operations.
model: opus
context: fork
allowed-tools:
- Read
- Write
- Edit
- Glob
- Grep
- Bash

Cloud Service Discovery — Cloud Operations Assessment & Roadmap

Genera un discovery integral de Cloud-as-a-Service que cubre cloud readiness assessment, DevOps maturity (DORA), cloud operations model, FinOps assessment, cloud security posture, y cloud services roadmap. Distinto de cloud-migration (que cubre estrategia de migración); este skill cubre Cloud como oferta de servicio continuo — operaciones, optimización, y madurez de la plataforma cloud.

Principio Rector

La nube no es un destino — es un modelo operativo. Migrar sin transformar las operaciones es trasladar los mismos problemas a una factura mensual más cara.

Operaciones cloud-native, no lift-and-shift de procesos. Mover workloads a la nube sin adoptar prácticas cloud-native (IaC, CI/CD, observability, SRE) es pagar más por lo mismo. La transformación operativa es tan importante como la migración técnica.
DORA metrics como brújula. Deployment frequency, lead time, change failure rate, y MTTR son los indicadores más confiables de madurez DevOps. Sin medirlos, la mejora es anecdótica.
FinOps es una disciplina, no un dashboard. La optimización de costos cloud requiere cultura (accountability), proceso (showback/chargeback), y herramientas (tagging, right-sizing). Sin los tres, los costos crecen sin control.

Inputs

The user provides a project or client name as $ARGUMENTS. Parse $1 as the project/client name used throughout all output artifacts.

Parameters:
- {MODO}: piloto-auto (default) | desatendido | supervisado | paso-a-paso
- piloto-auto: Auto para cloud readiness y DORA assessment, HITL para FinOps findings y security posture decisions.
- desatendido: Cero interrupciones. Discovery completo automatizado. Supuestos documentados.
- supervisado: Autónomo con checkpoint al completar cada sección.
- paso-a-paso: Confirma antes de cada sección del discovery.
- {FORMATO}: markdown (default) | html | dual
- {VARIANTE}: ejecutiva (~40% — S1 + S2 + S6 only) | técnica (full 6 sections, default)

Before generating discovery, detect existing cloud context:

!find . -name "*.tf" -o -name "*.yaml" -path "*/k8s/*" -o -name "Dockerfile" -o -name "*.helmfile*" | head -20

If reference materials exist, load them:

Read ${CLAUDE_SKILL_DIR}/references/

When to Use

El cliente ya está en la nube (parcial o totalmente) y necesita evaluar su madurez operativa
Se requiere un assessment de DevOps/DORA para establecer baseline y definir mejoras
El cliente necesita optimizar costos cloud (FinOps)
Se busca establecer o mejorar el modelo de operaciones cloud (SRE, incident management, platform engineering)
Se requiere evaluar la postura de seguridad cloud
El cliente busca un servicio continuo de cloud operations (no un proyecto de migración puntual)

When NOT to Use

Planificación de migración a cloud (workloads on-prem → cloud) --> use cloud-migration
Diseño de arquitectura cloud-native para aplicaciones nuevas --> use cloud-native-architecture
Diseño de infraestructura (VPC, compute, storage) --> use infrastructure-architecture
Assessment general de estado actual --> use asis-analysis con {TIPO_SERVICIO}=Cloud

Delivery Structure: 6 Sections

S1: Cloud Readiness Assessment

Evaluación del estado actual de adopción cloud y readiness para servicios cloud avanzados.

Infrastructure current state:
- Cloud provider(s): AWS, Azure, GCP, multi-cloud, hybrid
- Workloads en cloud vs on-premises (% distribution)
- IaC coverage: Terraform, CloudFormation, Pulumi, ARM templates, manual
- Container adoption: Docker, Kubernetes, ECS/EKS/AKS/GKE, serverless

Cloud adoption stage:

Stage	Descripción	Indicadores
No cloud	100% on-premises	Sin cuentas cloud, sin skills cloud
Lift-and-shift	VMs en cloud sin modernización	EC2/VM instances, misma arquitectura
Cloud-optimized	Uso de managed services, algunos patterns cloud-native	RDS, S3, managed K8s, some IaC
Cloud-native	Arquitectura diseñada para cloud, microservices, serverless	Containers, serverless, event-driven, full IaC
Multi-cloud	Estrategia multi-cloud deliberada	Workloads distribuidos, abstraction layers

Team cloud skills assessment:
- Certificaciones cloud del equipo (AWS SA, Azure Admin, GCP Pro, CKA/CKAD)
- Experiencia práctica vs teórica
- Gaps de skills por dominio (networking, security, data, DevOps)

Process readiness:
- Change management para infraestructura (¿se usa IaC o se hacen cambios manuales?)
- Incident response: ¿Existe un proceso formal? ¿On-call rotation?
- Release management: ¿CI/CD? ¿Manual deployments?

Output: Cloud readiness scorecard con stage assessment y gap analysis.

S2: DevOps Maturity Model (DORA)

Assessment de madurez DevOps usando las 4 métricas DORA.

4 DORA Metrics:

Métrica	Elite	High	Medium	Low
Deployment Frequency	On-demand (multiple/day)	Daily to weekly	Weekly to monthly	Monthly to semi-annually
Lead Time for Changes	< 1 hour	1 day to 1 week	1 week to 1 month	1 to 6 months
Change Failure Rate	0-15%	16-30%	31-45%	46-60%
MTTR	< 1 hour	< 1 day	< 1 week	> 1 week

DORA Level Classification:
- Elite: Las 4 métricas en rango elite
- High: Mayoría en high, ninguna en low
- Medium: Mix de medium y high
- Low: Alguna métrica en low

Practices assessment:

Práctica	Nivel 1 (Ad-hoc)	Nivel 2 (Defined)	Nivel 3 (Managed)	Nivel 4 (Optimized)
IaC	Manual infra changes	Some scripts	Terraform/Pulumi managed	GitOps, drift detection
CI/CD	Manual builds/deploys	CI pipeline exists	CD to staging	CD to production, canary/blue-green
Monitoring	No monitoring	Basic metrics	APM + logs + traces	Full observability, SLOs, error budgets
Incident Management	Ad-hoc response	Runbooks exist	On-call rotation, PagerDuty	Blameless postmortems, chaos engineering

Output: DORA scorecard con nivel actual, benchmark contra industria, y improvement targets.

S3: Cloud Operations Model

Evaluación del modelo de operaciones cloud actual y diseño del target.

SRE practices:
- SLIs/SLOs/SLAs definidos por servicio
- Error budgets implementados y respetados
- Blameless postmortems con action items tracked
- Chaos engineering (GameDays, Chaos Monkey, Litmus)

Incident management:
- Proceso de incident response (detect → triage → mitigate → resolve → learn)
- Severities definidas (SEV1-SEV4) con SLAs de respuesta
- On-call rotation: cobertura, compensación, burnout prevention
- Escalation paths claros y documentados

Capacity planning:
- Auto-scaling configurado y validado
- Capacity forecasting basado en trends
- Performance testing regular (load, stress, soak)

Cost management:
- Budget alerts por cuenta/proyecto
- Resource tagging discipline
- Regular right-sizing reviews

Security operations (SecOps):
- Vulnerability scanning automatizado
- Patch management cadence
- Security incident response integrado con incident management general

Toil measurement and reduction strategy:
- Definición de toil (manual, repetitive, automatable, no value-adding)
- Toil budget: máximo 50% del tiempo de un SRE debe ser toil (Google SRE book)
- Top-5 toil tasks con plan de automatización

Output: Cloud operations model assessment con current state vs target state por práctica.

S4: FinOps Assessment

Evaluación de la madurez FinOps y oportunidades de optimización de costos cloud.

FinOps Maturity Levels:

Nivel	Nombre	Descripción
Crawl	Reactivo	Facturas llegan, sorprenden, nadie es accountable
Walk	Proactivo	Visibilidad de costos, tagging parcial, alertas básicas
Run	Optimizado	Showback/chargeback, forecasting, continuous optimization

Assessment dimensions:

Cost visibility:
- ¿Se puede ver el costo por servicio, equipo, proyecto, ambiente?
- ¿Los dashboards de costos existen y son consultados?
- ¿Quién recibe las facturas y quién es accountable?

Tagging compliance:
- ¿Existe una tagging policy definida?
- ¿Qué % de recursos están correctamente taggeados?
- Tags mínimos: owner, environment, project, cost-center

Showback/chargeback model:
- ¿Los equipos conocen cuánto cuesta lo que consumen?
- ¿Existe chargeback formal (costos asignados a P&L del equipo)?
- ¿O al menos showback (visibilidad sin impacto en P&L)?

Optimization opportunities:
- Reserved Instances / Savings Plans: Workloads estables sin RI/SP comprometidos
- Spot instances: Workloads tolerantes a interrupciones sin uso de spot
- Right-sizing: Instancias sobre-provisionadas (CPU/memory utilization <30%)
- Storage optimization: Datos en tiers incorrectos, snapshots obsoletos, EBS sin attach
- Idle resources: Load balancers sin targets, IPs elásticas sin uso, databases de staging 24/7

Waste identification:
- Recursos sin tag de owner (huérfanos)
- Ambientes non-prod encendidos 24/7 (deberían tener schedule)
- Recursos de tests/PoC abandonados

Output: FinOps assessment con maturity level, optimization opportunities cuantificadas (% savings potencial), y waste inventory.

S5: Cloud Security Posture

Evaluación de la postura de seguridad cloud.

Shared responsibility model adherence:
- ¿El equipo entiende qué es responsabilidad del provider vs del cliente?
- ¿Hay gaps en la cobertura del cliente? (e.g., encryption at rest, IAM, patching de OS)

IAM hygiene:
- Principio de least privilege: ¿Se otorgan permisos mínimos?
- Root/admin accounts: ¿Están protegidas con MFA? ¿Se usan para operaciones diarias? (red flag)
- Service accounts: ¿Rotación de keys? ¿Permisos acotados?
- Federation: ¿SSO via SAML/OIDC? ¿O credenciales locales?

Network segmentation:
- VPC/VNET design: ¿Separación por ambiente (dev/staging/prod)?
- Security groups / NSGs: ¿Reglas acotadas o overly permissive (0.0.0.0/0)?
- Private endpoints para servicios managed
- WAF y DDoS protection en workloads públicos

Encryption coverage:
- At rest: ¿KMS managed keys? ¿Customer managed keys?
- In transit: TLS 1.2+ enforced
- Key rotation: ¿Automática? ¿Cadencia?

Compliance alignment:
- SOC2: Controles relevantes cubiertos
- ISO 27001: Controles de Annex A aplicables
- PCI-DSS: Si aplica (procesamiento de pagos)
- GDPR/regulaciones locales de datos personales

Security tools assessment:
- CSPM (Cloud Security Posture Management): AWS Security Hub, Azure Defender, GCP SCC
- CWPP (Cloud Workload Protection): Runtime protection, vulnerability scanning
- SIEM: Integración de logs cloud con SIEM corporativo
- SOAR: Automatización de respuesta a incidentes de seguridad

Output: Security posture assessment con findings por categoría, severity scoring, y remediation priorities.

S6: Cloud Services Roadmap

Roadmap de servicios cloud faseado con capability milestones.

Quick Wins (Meses 1-3):
- Cost optimization: Right-sizing, RI/SP procurement, idle resource cleanup
- Tagging enforcement: Policy + automation para compliance
- Security quick fixes: MFA enforcement, overly permissive rules, encryption gaps
- Monitoring basics: Dashboards, alertas, log centralization

Medium-Term (Meses 4-9):
- Platform engineering: Internal developer platform, golden paths, self-service
- SRE maturity: SLIs/SLOs, error budgets, incident management formalization
- IaC coverage: Migrate manual infra to Terraform/Pulumi, drift detection
- CI/CD maturity: CD to production, canary/blue-green deployments
- FinOps operationalization: Showback dashboards, regular optimization reviews

Strategic (Meses 10-18):
- Multi-cloud strategy: Si aplica, abstraction layers, policy-as-code cross-cloud
- FinOps excellence: Chargeback model, forecasting, unit economics
- Advanced SRE: Chaos engineering, performance engineering, capacity planning
- Security automation: Shift-left security, policy-as-code, automated remediation
- Platform maturity: Full self-service, compliance-as-code, developer experience optimization

Per phase:
- Capability milestones con acceptance criteria
- Team requirements (roles, skills, headcount)
- DORA targets por fase
- Budget magnitude indicators (FTE-meses, NOT prices)

Output: Roadmap visual faseado con capability milestones, DORA targets, y team evolution.

Trade-off Matrix

Decisión	Habilita	Restringe	Cuándo Usar
SRE model	Reliability, operability	Investment in practices, cultural shift	Workloads críticos, SLAs contractuales
Platform engineering	Developer productivity, consistency	Team and tooling investment	>10 dev teams, repetitive infra requests
Multi-cloud	Vendor independence, best-of-breed	Complexity, skill dilution	Regulatory requirement, strategic diversification
FinOps dedicated team	Cost discipline, savings	Headcount, organizational buy-in	Cloud spend >$100K/month
Managed services over self-managed	Lower ops burden	Less control, potential lock-in	Team < 3 SREs, operational simplicity priority
GitOps	Auditability, consistency, rollback	Learning curve, tooling (ArgoCD/Flux)	Kubernetes environments, compliance requirements

Assumptions

El cliente tiene workloads en cloud (parcial o totalmente) — no es un assessment pre-migración
Hay acceso a consolas cloud, billing dashboards, y monitoring tools para el assessment
El equipo del cliente puede proporcionar información sobre procesos operativos actuales
Existen stakeholders técnicos disponibles para validar findings (SRE, DevOps, Security)
El cloud provider principal está definido (AWS, Azure, o GCP) — multi-cloud se evalúa si aplica

Limits

No cubre migración de workloads on-prem a cloud (use cloud-migration)
No diseña arquitectura cloud-native para aplicaciones nuevas (use cloud-native-architecture)
No ejecuta optimizaciones — produce el assessment y roadmap para aprobación
Penetration testing y vulnerability assessment profundo están fuera del scope (requieren herramientas especializadas y autorización)
El assessment de FinOps es basado en información disponible — no reemplaza un análisis de billing detallado con acceso a Cost Explorer/Cost Management

Edge Cases

Multi-cloud con diferentes niveles de madurez por provider:
Evaluar cada cloud por separado en S1-S5. El roadmap (S6) debe considerar dónde invertir en madurez y dónde consolidar workloads.

Startup con infraestructura 100% serverless:
DORA metrics siguen siendo relevantes pero las métricas de infra cambian. El foco se desplaza a observability, cost per invocation, y cold start optimization. SRE practices se simplifican.

Organización regulada (banca, salud):
S5 (Security Posture) se convierte en la sección más crítica. Compliance frameworks (SOC2, PCI-DSS, HIPAA) dictan el roadmap. Security gates son pre-requisito para avanzar en otras áreas.

Cloud spend fuera de control (>50% growth YoY sin growth de negocio):
S4 (FinOps) es la prioridad inmediata. Quick wins de cost optimization primero. Establecer governance de costos antes de invertir en otras capabilities.

Equipo sin experiencia cloud (todo outsourced):
El roadmap debe incluir knowledge transfer y upskilling como workstream explícito. Dependency en vendor externo es un riesgo que se documenta en el assessment.

Validation Gate

Before finalizing delivery, verify:

[ ] Cloud readiness assessment identifica stage de adopción con evidencia
[ ] DORA metrics medidas o estimadas con nivel de confianza documentado
[ ] Las 4 prácticas DevOps (IaC, CI/CD, Monitoring, Incident Management) evaluadas con nivel 1-4
[ ] Cloud operations model cubre SRE, incident management, capacity planning, y toil measurement
[ ] FinOps assessment incluye maturity level, optimization opportunities, y waste identification
[ ] Cloud security posture cubre IAM, networking, encryption, y compliance alignment
[ ] Roadmap faseado con quick wins (meses 1-3), medium-term (4-9), y strategic (10-18)
[ ] DORA targets definidos por fase del roadmap
[ ] Budget expresado en magnitudes (FTE-meses), NUNCA en precios
[ ] Findings de security tienen severity scoring y remediation priorities
[ ] Toil top-5 identificado con plan de automatización

Output Format Protocol

Format	Default	Description
`markdown`	Yes	Rich Markdown + Mermaid diagrams. Token-efficient.
`html`	On demand	Branded HTML (Design System). Visual impact.
`dual`	On demand	Both formats.

Default output is Markdown with embedded Mermaid diagrams. HTML generation requires explicit {FORMATO}=html parameter.

Output Artifact

Primary: Cloud_Service_Discovery_{project}.md -- Cloud readiness assessment, DORA metrics baseline, cloud operations model, FinOps assessment with optimization opportunities, cloud security posture, and phased cloud services roadmap with capability milestones.

Diagramas incluidos:
- DORA metrics dashboard: 4 metrics with current level vs target
- Cloud operations maturity radar: SRE, IaC, CI/CD, Monitoring, Incident Management, FinOps
- FinOps optimization waterfall: current spend → savings opportunities → optimized spend
- Cloud services roadmap: phased Gantt with capability milestones

Autor: Javier Montaño | Última actualización: 14 de marzo de 2026

# Supported AI Coding Agents

This skill is compatible with the SKILL.md standard and works with all major AI coding agents:

⚡ Amp 🚀 Antigravity 🤖 Claude Code 🦀 Clawdbot 📝 Codex ▶️ Cursor 🤖 Droid 💎 Gemini CLI 🐙 GitHub Copilot 🪿 Goose 📊 Kilo Code 🔧 Kiro CLI 💻 OpenCode 🦘 Roo Code 🌲 Trae 🏄 Windsurf

Learn more about the SKILL.md standard and how to use these skills with your preferred AI coding agent.