Implement GitOps workflows with ArgoCD and Flux for automated, declarative Kubernetes...
npx skills add javiermontano-sofka/sdf --skill "sofka-cloud-service-discovery"
Install specific skill from multi-skill repository
# Description
>
# SKILL.md
name: sofka-cloud-service-discovery
description: >
Cloud-as-a-Service discovery — cloud readiness assessment, DevOps maturity (DORA), cloud operations model,
FinOps assessment, cloud security posture, and cloud services roadmap. Distinct from cloud-migration
(which covers migration strategy); this covers Cloud as an ongoing service offering.
Use when the user asks to "assess cloud operations", "evaluate DevOps maturity", "DORA assessment",
"FinOps evaluation", "cloud security posture", "SRE maturity", "cloud operations model",
"cloud service roadmap", or mentions cloud-as-a-service, platform engineering, toil reduction,
FinOps, cloud cost optimization, or cloud operations.
model: opus
context: fork
allowed-tools:
- Read
- Write
- Edit
- Glob
- Grep
- Bash
Cloud Service Discovery — Cloud Operations Assessment & Roadmap
Genera un discovery integral de Cloud-as-a-Service que cubre cloud readiness assessment, DevOps maturity (DORA), cloud operations model, FinOps assessment, cloud security posture, y cloud services roadmap. Distinto de cloud-migration (que cubre estrategia de migración); este skill cubre Cloud como oferta de servicio continuo — operaciones, optimización, y madurez de la plataforma cloud.
Principio Rector
La nube no es un destino — es un modelo operativo. Migrar sin transformar las operaciones es trasladar los mismos problemas a una factura mensual más cara.
- Operaciones cloud-native, no lift-and-shift de procesos. Mover workloads a la nube sin adoptar prácticas cloud-native (IaC, CI/CD, observability, SRE) es pagar más por lo mismo. La transformación operativa es tan importante como la migración técnica.
- DORA metrics como brújula. Deployment frequency, lead time, change failure rate, y MTTR son los indicadores más confiables de madurez DevOps. Sin medirlos, la mejora es anecdótica.
- FinOps es una disciplina, no un dashboard. La optimización de costos cloud requiere cultura (accountability), proceso (showback/chargeback), y herramientas (tagging, right-sizing). Sin los tres, los costos crecen sin control.
Inputs
The user provides a project or client name as $ARGUMENTS. Parse $1 as the project/client name used throughout all output artifacts.
Parameters:
- {MODO}: piloto-auto (default) | desatendido | supervisado | paso-a-paso
- piloto-auto: Auto para cloud readiness y DORA assessment, HITL para FinOps findings y security posture decisions.
- desatendido: Cero interrupciones. Discovery completo automatizado. Supuestos documentados.
- supervisado: Autónomo con checkpoint al completar cada sección.
- paso-a-paso: Confirma antes de cada sección del discovery.
- {FORMATO}: markdown (default) | html | dual
- {VARIANTE}: ejecutiva (~40% — S1 + S2 + S6 only) | técnica (full 6 sections, default)
Before generating discovery, detect existing cloud context:
!find . -name "*.tf" -o -name "*.yaml" -path "*/k8s/*" -o -name "Dockerfile" -o -name "*.helmfile*" | head -20
If reference materials exist, load them:
Read ${CLAUDE_SKILL_DIR}/references/
When to Use
- El cliente ya está en la nube (parcial o totalmente) y necesita evaluar su madurez operativa
- Se requiere un assessment de DevOps/DORA para establecer baseline y definir mejoras
- El cliente necesita optimizar costos cloud (FinOps)
- Se busca establecer o mejorar el modelo de operaciones cloud (SRE, incident management, platform engineering)
- Se requiere evaluar la postura de seguridad cloud
- El cliente busca un servicio continuo de cloud operations (no un proyecto de migración puntual)
When NOT to Use
- Planificación de migración a cloud (workloads on-prem → cloud) --> use cloud-migration
- Diseño de arquitectura cloud-native para aplicaciones nuevas --> use cloud-native-architecture
- Diseño de infraestructura (VPC, compute, storage) --> use infrastructure-architecture
- Assessment general de estado actual --> use asis-analysis con {TIPO_SERVICIO}=Cloud
Delivery Structure: 6 Sections
S1: Cloud Readiness Assessment
Evaluación del estado actual de adopción cloud y readiness para servicios cloud avanzados.
Infrastructure current state:
- Cloud provider(s): AWS, Azure, GCP, multi-cloud, hybrid
- Workloads en cloud vs on-premises (% distribution)
- IaC coverage: Terraform, CloudFormation, Pulumi, ARM templates, manual
- Container adoption: Docker, Kubernetes, ECS/EKS/AKS/GKE, serverless
Cloud adoption stage:
| Stage | Descripción | Indicadores |
|---|---|---|
| No cloud | 100% on-premises | Sin cuentas cloud, sin skills cloud |
| Lift-and-shift | VMs en cloud sin modernización | EC2/VM instances, misma arquitectura |
| Cloud-optimized | Uso de managed services, algunos patterns cloud-native | RDS, S3, managed K8s, some IaC |
| Cloud-native | Arquitectura diseñada para cloud, microservices, serverless | Containers, serverless, event-driven, full IaC |
| Multi-cloud | Estrategia multi-cloud deliberada | Workloads distribuidos, abstraction layers |
Team cloud skills assessment:
- Certificaciones cloud del equipo (AWS SA, Azure Admin, GCP Pro, CKA/CKAD)
- Experiencia práctica vs teórica
- Gaps de skills por dominio (networking, security, data, DevOps)
Process readiness:
- Change management para infraestructura (¿se usa IaC o se hacen cambios manuales?)
- Incident response: ¿Existe un proceso formal? ¿On-call rotation?
- Release management: ¿CI/CD? ¿Manual deployments?
Output: Cloud readiness scorecard con stage assessment y gap analysis.
S2: DevOps Maturity Model (DORA)
Assessment de madurez DevOps usando las 4 métricas DORA.
4 DORA Metrics:
| Métrica | Elite | High | Medium | Low |
|---|---|---|---|---|
| Deployment Frequency | On-demand (multiple/day) | Daily to weekly | Weekly to monthly | Monthly to semi-annually |
| Lead Time for Changes | < 1 hour | 1 day to 1 week | 1 week to 1 month | 1 to 6 months |
| Change Failure Rate | 0-15% | 16-30% | 31-45% | 46-60% |
| MTTR | < 1 hour | < 1 day | < 1 week | > 1 week |
DORA Level Classification:
- Elite: Las 4 métricas en rango elite
- High: Mayoría en high, ninguna en low
- Medium: Mix de medium y high
- Low: Alguna métrica en low
Practices assessment:
| Práctica | Nivel 1 (Ad-hoc) | Nivel 2 (Defined) | Nivel 3 (Managed) | Nivel 4 (Optimized) |
|---|---|---|---|---|
| IaC | Manual infra changes | Some scripts | Terraform/Pulumi managed | GitOps, drift detection |
| CI/CD | Manual builds/deploys | CI pipeline exists | CD to staging | CD to production, canary/blue-green |
| Monitoring | No monitoring | Basic metrics | APM + logs + traces | Full observability, SLOs, error budgets |
| Incident Management | Ad-hoc response | Runbooks exist | On-call rotation, PagerDuty | Blameless postmortems, chaos engineering |
Output: DORA scorecard con nivel actual, benchmark contra industria, y improvement targets.
S3: Cloud Operations Model
Evaluación del modelo de operaciones cloud actual y diseño del target.
SRE practices:
- SLIs/SLOs/SLAs definidos por servicio
- Error budgets implementados y respetados
- Blameless postmortems con action items tracked
- Chaos engineering (GameDays, Chaos Monkey, Litmus)
Incident management:
- Proceso de incident response (detect → triage → mitigate → resolve → learn)
- Severities definidas (SEV1-SEV4) con SLAs de respuesta
- On-call rotation: cobertura, compensación, burnout prevention
- Escalation paths claros y documentados
Capacity planning:
- Auto-scaling configurado y validado
- Capacity forecasting basado en trends
- Performance testing regular (load, stress, soak)
Cost management:
- Budget alerts por cuenta/proyecto
- Resource tagging discipline
- Regular right-sizing reviews
Security operations (SecOps):
- Vulnerability scanning automatizado
- Patch management cadence
- Security incident response integrado con incident management general
Toil measurement and reduction strategy:
- Definición de toil (manual, repetitive, automatable, no value-adding)
- Toil budget: máximo 50% del tiempo de un SRE debe ser toil (Google SRE book)
- Top-5 toil tasks con plan de automatización
Output: Cloud operations model assessment con current state vs target state por práctica.
S4: FinOps Assessment
Evaluación de la madurez FinOps y oportunidades de optimización de costos cloud.
FinOps Maturity Levels:
| Nivel | Nombre | Descripción |
|---|---|---|
| Crawl | Reactivo | Facturas llegan, sorprenden, nadie es accountable |
| Walk | Proactivo | Visibilidad de costos, tagging parcial, alertas básicas |
| Run | Optimizado | Showback/chargeback, forecasting, continuous optimization |
Assessment dimensions:
Cost visibility:
- ¿Se puede ver el costo por servicio, equipo, proyecto, ambiente?
- ¿Los dashboards de costos existen y son consultados?
- ¿Quién recibe las facturas y quién es accountable?
Tagging compliance:
- ¿Existe una tagging policy definida?
- ¿Qué % de recursos están correctamente taggeados?
- Tags mínimos: owner, environment, project, cost-center
Showback/chargeback model:
- ¿Los equipos conocen cuánto cuesta lo que consumen?
- ¿Existe chargeback formal (costos asignados a P&L del equipo)?
- ¿O al menos showback (visibilidad sin impacto en P&L)?
Optimization opportunities:
- Reserved Instances / Savings Plans: Workloads estables sin RI/SP comprometidos
- Spot instances: Workloads tolerantes a interrupciones sin uso de spot
- Right-sizing: Instancias sobre-provisionadas (CPU/memory utilization <30%)
- Storage optimization: Datos en tiers incorrectos, snapshots obsoletos, EBS sin attach
- Idle resources: Load balancers sin targets, IPs elásticas sin uso, databases de staging 24/7
Waste identification:
- Recursos sin tag de owner (huérfanos)
- Ambientes non-prod encendidos 24/7 (deberían tener schedule)
- Recursos de tests/PoC abandonados
Output: FinOps assessment con maturity level, optimization opportunities cuantificadas (% savings potencial), y waste inventory.
S5: Cloud Security Posture
Evaluación de la postura de seguridad cloud.
Shared responsibility model adherence:
- ¿El equipo entiende qué es responsabilidad del provider vs del cliente?
- ¿Hay gaps en la cobertura del cliente? (e.g., encryption at rest, IAM, patching de OS)
IAM hygiene:
- Principio de least privilege: ¿Se otorgan permisos mínimos?
- Root/admin accounts: ¿Están protegidas con MFA? ¿Se usan para operaciones diarias? (red flag)
- Service accounts: ¿Rotación de keys? ¿Permisos acotados?
- Federation: ¿SSO via SAML/OIDC? ¿O credenciales locales?
Network segmentation:
- VPC/VNET design: ¿Separación por ambiente (dev/staging/prod)?
- Security groups / NSGs: ¿Reglas acotadas o overly permissive (0.0.0.0/0)?
- Private endpoints para servicios managed
- WAF y DDoS protection en workloads públicos
Encryption coverage:
- At rest: ¿KMS managed keys? ¿Customer managed keys?
- In transit: TLS 1.2+ enforced
- Key rotation: ¿Automática? ¿Cadencia?
Compliance alignment:
- SOC2: Controles relevantes cubiertos
- ISO 27001: Controles de Annex A aplicables
- PCI-DSS: Si aplica (procesamiento de pagos)
- GDPR/regulaciones locales de datos personales
Security tools assessment:
- CSPM (Cloud Security Posture Management): AWS Security Hub, Azure Defender, GCP SCC
- CWPP (Cloud Workload Protection): Runtime protection, vulnerability scanning
- SIEM: Integración de logs cloud con SIEM corporativo
- SOAR: Automatización de respuesta a incidentes de seguridad
Output: Security posture assessment con findings por categoría, severity scoring, y remediation priorities.
S6: Cloud Services Roadmap
Roadmap de servicios cloud faseado con capability milestones.
Quick Wins (Meses 1-3):
- Cost optimization: Right-sizing, RI/SP procurement, idle resource cleanup
- Tagging enforcement: Policy + automation para compliance
- Security quick fixes: MFA enforcement, overly permissive rules, encryption gaps
- Monitoring basics: Dashboards, alertas, log centralization
Medium-Term (Meses 4-9):
- Platform engineering: Internal developer platform, golden paths, self-service
- SRE maturity: SLIs/SLOs, error budgets, incident management formalization
- IaC coverage: Migrate manual infra to Terraform/Pulumi, drift detection
- CI/CD maturity: CD to production, canary/blue-green deployments
- FinOps operationalization: Showback dashboards, regular optimization reviews
Strategic (Meses 10-18):
- Multi-cloud strategy: Si aplica, abstraction layers, policy-as-code cross-cloud
- FinOps excellence: Chargeback model, forecasting, unit economics
- Advanced SRE: Chaos engineering, performance engineering, capacity planning
- Security automation: Shift-left security, policy-as-code, automated remediation
- Platform maturity: Full self-service, compliance-as-code, developer experience optimization
Per phase:
- Capability milestones con acceptance criteria
- Team requirements (roles, skills, headcount)
- DORA targets por fase
- Budget magnitude indicators (FTE-meses, NOT prices)
Output: Roadmap visual faseado con capability milestones, DORA targets, y team evolution.
Trade-off Matrix
| Decisión | Habilita | Restringe | Cuándo Usar |
|---|---|---|---|
| SRE model | Reliability, operability | Investment in practices, cultural shift | Workloads críticos, SLAs contractuales |
| Platform engineering | Developer productivity, consistency | Team and tooling investment | >10 dev teams, repetitive infra requests |
| Multi-cloud | Vendor independence, best-of-breed | Complexity, skill dilution | Regulatory requirement, strategic diversification |
| FinOps dedicated team | Cost discipline, savings | Headcount, organizational buy-in | Cloud spend >$100K/month |
| Managed services over self-managed | Lower ops burden | Less control, potential lock-in | Team < 3 SREs, operational simplicity priority |
| GitOps | Auditability, consistency, rollback | Learning curve, tooling (ArgoCD/Flux) | Kubernetes environments, compliance requirements |
Assumptions
- El cliente tiene workloads en cloud (parcial o totalmente) — no es un assessment pre-migración
- Hay acceso a consolas cloud, billing dashboards, y monitoring tools para el assessment
- El equipo del cliente puede proporcionar información sobre procesos operativos actuales
- Existen stakeholders técnicos disponibles para validar findings (SRE, DevOps, Security)
- El cloud provider principal está definido (AWS, Azure, o GCP) — multi-cloud se evalúa si aplica
Limits
- No cubre migración de workloads on-prem a cloud (use cloud-migration)
- No diseña arquitectura cloud-native para aplicaciones nuevas (use cloud-native-architecture)
- No ejecuta optimizaciones — produce el assessment y roadmap para aprobación
- Penetration testing y vulnerability assessment profundo están fuera del scope (requieren herramientas especializadas y autorización)
- El assessment de FinOps es basado en información disponible — no reemplaza un análisis de billing detallado con acceso a Cost Explorer/Cost Management
Edge Cases
Multi-cloud con diferentes niveles de madurez por provider:
Evaluar cada cloud por separado en S1-S5. El roadmap (S6) debe considerar dónde invertir en madurez y dónde consolidar workloads.
Startup con infraestructura 100% serverless:
DORA metrics siguen siendo relevantes pero las métricas de infra cambian. El foco se desplaza a observability, cost per invocation, y cold start optimization. SRE practices se simplifican.
Organización regulada (banca, salud):
S5 (Security Posture) se convierte en la sección más crítica. Compliance frameworks (SOC2, PCI-DSS, HIPAA) dictan el roadmap. Security gates son pre-requisito para avanzar en otras áreas.
Cloud spend fuera de control (>50% growth YoY sin growth de negocio):
S4 (FinOps) es la prioridad inmediata. Quick wins de cost optimization primero. Establecer governance de costos antes de invertir en otras capabilities.
Equipo sin experiencia cloud (todo outsourced):
El roadmap debe incluir knowledge transfer y upskilling como workstream explícito. Dependency en vendor externo es un riesgo que se documenta en el assessment.
Validation Gate
Before finalizing delivery, verify:
- [ ] Cloud readiness assessment identifica stage de adopción con evidencia
- [ ] DORA metrics medidas o estimadas con nivel de confianza documentado
- [ ] Las 4 prácticas DevOps (IaC, CI/CD, Monitoring, Incident Management) evaluadas con nivel 1-4
- [ ] Cloud operations model cubre SRE, incident management, capacity planning, y toil measurement
- [ ] FinOps assessment incluye maturity level, optimization opportunities, y waste identification
- [ ] Cloud security posture cubre IAM, networking, encryption, y compliance alignment
- [ ] Roadmap faseado con quick wins (meses 1-3), medium-term (4-9), y strategic (10-18)
- [ ] DORA targets definidos por fase del roadmap
- [ ] Budget expresado en magnitudes (FTE-meses), NUNCA en precios
- [ ] Findings de security tienen severity scoring y remediation priorities
- [ ] Toil top-5 identificado con plan de automatización
Output Format Protocol
| Format | Default | Description |
|---|---|---|
markdown |
Yes | Rich Markdown + Mermaid diagrams. Token-efficient. |
html |
On demand | Branded HTML (Design System). Visual impact. |
dual |
On demand | Both formats. |
Default output is Markdown with embedded Mermaid diagrams. HTML generation requires explicit {FORMATO}=html parameter.
Output Artifact
Primary: Cloud_Service_Discovery_{project}.md -- Cloud readiness assessment, DORA metrics baseline, cloud operations model, FinOps assessment with optimization opportunities, cloud security posture, and phased cloud services roadmap with capability milestones.
Diagramas incluidos:
- DORA metrics dashboard: 4 metrics with current level vs target
- Cloud operations maturity radar: SRE, IaC, CI/CD, Monitoring, Incident Management, FinOps
- FinOps optimization waterfall: current spend → savings opportunities → optimized spend
- Cloud services roadmap: phased Gantt with capability milestones
Autor: Javier Montaño | Última actualización: 14 de marzo de 2026
# Supported AI Coding Agents
This skill is compatible with the SKILL.md standard and works with all major AI coding agents:
Learn more about the SKILL.md standard and how to use these skills with your preferred AI coding agent.