CyberKB: Cómo construí una base de conocimiento de ciberseguridad con IA y Claude Sonnet — mi proyecto en Evolve

#cybersecurity #python #infosec #networking

Cuando empecé el Master en Ciberseguridad, tenía el mismo problema que creo que tiene todo el mundo al principio: el conocimiento se dispersa. Apuntes en Notion, PDFs en carpetas, comandos copiados en un bloc de notas, CVEs guardados en favoritos del navegador… Todo está en algún sitio, pero nunca donde lo necesitas.
Mi proyecto final fue intentar resolver eso. El resultado se llama CyberKB.
¿Qué es CyberKB?
Es una aplicación web local — corre en tu máquina, sin nube — diseñada para centralizar y organizar conocimiento de ciberseguridad mientras estudias o trabajas. El stack: FastAPI + SQLite + Claude Sonnet (Anthropic) + D3.js.
Lo que me pareció más interesante del reto fue que no quería solo un "gestor de notas con buscador". Quería que la herramienta entendiera el contenido — que supiera que una nota sobre nmap tiene que estar relacionada con reconocimiento, con TCP/IP, con enumeración de puertos — sin que yo tuviera que etiquetarlo todo a mano.
El reto técnico: hacer que la IA entienda el contexto
El módulo más complejo fue el pipeline de ingesta de documentos. El flujo es:

Subes un PDF, ODT, TXT o Markdown
Se extrae el texto (pdfplumber para PDFs, odfpy para ODT)
El texto se envía a Claude Sonnet con un prompt estructurado → Claude devuelve un JSON con categoría, resumen, tags, comandos detectados, herramientas mencionadas y CVEs
Todo se persiste en SQLite
Una segunda llamada a Claude extrae entidades (técnicas de ataque, protocolos, herramientas, vulnerabilidades…) y sus relaciones
Esas entidades alimentan el grafo de conocimiento en D3.js

Lo que más me costó fue el diseño del prompt de extracción de entidades. Las primeras versiones devolvían demasiado ruido — cualquier sustantivo técnico acababa siendo un nodo. Tuve que iterar bastante para conseguir que Claude distinguiera entre una entidad relevante para el grafo (por ejemplo, SQL Injection como técnica de ataque) y una mención de pasada que no merecía convertirse en nodo.
El módulo OSINT
Integré 15 herramientas de reconocimiento agrupadas por tipo de objetivo: dominio, IP/red, email y URL/web. Todas las consultas son asíncronas con httpx para no bloquear la interfaz mientras esperas respuesta de APIs externas.
Algunas no requieren API key (WHOIS, DNS, subdominios vía crt.sh, Wayback Machine, geolocalización IP via ip-api.com). Otras necesitan registro gratuito: Shodan, VirusTotal, Hunter.io, Have I Been Pwned.
Lo útil aquí es el historial: todos los resultados se guardan en SQLite y son accesibles desde un panel lateral. Si tres semanas después necesitas volver a ver qué subdominios tenía un dominio en un momento dado, están ahí.
El grafo de conocimiento
Esta fue la parte más visual del proyecto. Usé D3.js v7 con simulación fuerza-dirigida para renderizar las entidades extraídas por Claude como un grafo interactivo.
Hay 7 tipos de entidades, cada uno con su color:

⚔ Técnicas de ataque → rojo
🛡 Técnicas de defensa → azul
⚙ Herramientas → verde
📡 Protocolos → amarillo
⚠ Vulnerabilidades/CVEs → naranja
📋 Metodologías → violeta
💡 Conceptos fundamentales → cian

El tamaño de cada nodo refleja la frecuencia con la que aparece en los documentos. Al hacer clic en un nodo aparece un panel lateral con su descripción y las notas donde está mencionado.
Lo que me sorprendió al usarlo con mis propios apuntes fue ver los clusters que se formaban solos — cómo Metasploit, msfvenom y reverse shell gravitaban naturalmente hacia el mismo espacio del grafo junto a técnicas de post-explotación. Eso es exactamente el tipo de conexión que cuando estudias a veces no ves con claridad.
Lo que haría diferente
El mayor punto débil actual es que la extracción de entidades es costosa en tokens cuando el documento es largo. Haría chunking más inteligente antes de enviar a Claude, en lugar de mandar el texto completo. También añadiría exportación del grafo a JSON para poder importar/exportar bases de conocimiento entre instalaciones.
Conclusión
CyberKB resolvió el problema que quería resolver: tengo un sitio donde va todo el conocimiento, y ese sitio entiende lo que estoy guardando. Si eres estudiante de ciberseguridad o trabajas en el sector, el problema de la dispersión del conocimiento es real — espero que el enfoque sea útil.
El repositorio está en GitHub con instrucciones de instalación completas:
👉 github.com/Xelu94/Proyecto-Master-Ciberseguridad-Evolve-JoseLuisCuartero

Proyecto académico desarrollado durante el Master en Ciberseguridad de Evolve.

DEV Community

CyberKB: Cómo construí una base de conocimiento de ciberseguridad con IA y Claude Sonnet — mi proyecto en Evolve

Top comments (0)