Sandbox de I+D

AI-Gen Lab. Donde estresamos la IA antes de que llegue a tu negocio.

Nuestro laboratorio de investigación aplicada: pruebas de fatiga de modelos, desarrollo experimental de agentes autónomos y análisis de vulnerabilidades de seguridad. Lo que aquí sobrevive, se convierte en producto.

Ver la bitácora Proponer colaboración

OWASP LLM Top 10 NIST AI RMF ISO/IEC 42001 MITRE ATLAS

aigen-lab · red-team-suite · demo ilustrativa

$ aigen-lab stress --model target-llm --suite owasp-top10 › Cargando vectores de ataque… ✓ LLM01 Prompt Injection ......... contenido ! LLM02 Insecure Output ........... hallazgos elevados ✓ LLM06 Sensitive Disclosure ..... sin fugas ✗ LLM04 Model DoS ................. degradación detectada › Elevando hallazgos a revisión humana… ✓ Trazabilidad: cada caso vinculado a su evidencia — motor, pesos y payloads: reservados

Principio del laboratorio

Honestidad científica: mostramos el método, reservamos el motor.

El Lab existe para una cosa: fallar pronto y en privado, para que tú no falles tarde y en producción. Publicamos lo que aprendemos —patrones de riesgo, límites reales, criterios de control— pero no la arquitectura interna, los evaluadores ni los pesos que dan ventaja a nuestros clientes.

Sin claims de "100% de acierto". Reportamos tasas, límites y condiciones de fallo.
Reproducibilidad interna, no demos irreproducibles de cara a galería.
Revisión humana experta antes de elevar cualquier hallazgo a un cliente.
Propiedad intelectual reservada: el conocimiento que da ventaja competitiva queda reservado.

Cuaderno de bitácora

Líneas de investigación abiertas.

Una selección de lo que estamos probando. Resultados de alto nivel; el detalle técnico se comparte bajo NDA con clientes y socios.

LB-01 · Stress-testing de LLMs ¿Cuánto aguanta un modelo antes de alucinar bajo presión documental?

Sometemos modelos a cargas contradictorias de pliegos y contratos para medir el punto en que la fiabilidad se degrada. El objetivo es definir umbrales operativos seguros, no titulares.

LB-02 · Agentes autónomos Agentes que preparan, no que deciden.

Prototipos de agentes que estructuran documentación, comparan versiones y proponen borradores — siempre con un punto de parada obligatorio antes de cualquier acción con consecuencias.

LB-03 · Seguridad & adversarial Pensar como un atacante para proteger a un comprador.

Evaluamos prompt injection, fuga de datos y manipulación de salidas contra el catálogo OWASP LLM. Lo que rompemos aquí se convierte en controles del toolkit de Assurance.

Cómo medimos

Métricas, no impresiones.

Dos indicadores guían el trabajo del Lab y alimentan los informes de Assurance. Se describen aquí a nivel conceptual; su cálculo interno queda reservado.

I_fd = (D_verificados / D_totales) · w_fuente Índice de Fiabilidad Documental — proporción de hallazgos con evidencia verificable a la fuente, ponderada por la criticidad del documento. Cuanto mayor, más defendible la decisión.

R_a = Σ ( p_i · s_i · (1 − c_i) ) Riesgo agregado — suma de cada riesgo detectado por su probabilidad (p), severidad (s) y el complemento del control humano aplicado (c). El control humano reduce el riesgo; nunca lo elimina del todo.

Fichas de prototipo

En el banco de pruebas.

Fase experimental

Clause Diff Engine

Comparación semántica de cláusulas entre versiones de un contrato, señalando cambios de obligación, plazo y penalización.

No apto para producción. Resultados sujetos a validación humana.

Fase experimental

Tender Risk Map

Mapa visual de riesgos de una licitación: obligaciones omitidas, incoherencias y desviaciones frente al pliego, con trazabilidad a la fuente.

Alimenta el motor de C2Pro. Preparado para validación con organizaciones piloto.

Fase experimental

Vendor Probe

Cuestionario asistido de due diligence que evalúa la postura de seguridad y gobernanza de un proveedor de software con IA.

Base del toolkit de Assurance. Revisión experta obligatoria.

Colabora con el Lab

¿Un caso documental complejo que ningún software resuelve bien?

Seleccionamos un número reducido de retos reales para investigar junto a organizaciones piloto. Acceso temprano a prototipos, condiciones de fundador y un informe de hallazgos bajo NDA.

Acceso temprano a prototipos del Lab
Informe de hallazgos bajo NDA
Sin uso de tus documentos para entrenar modelos externos

AI-Gen Lab. Donde estresamos la IA antes de que llegue a tu negocio.

Honestidad científica: mostramos el método, reservamos el motor.

Líneas de investigación abiertas.

Métricas, no impresiones.

En el banco de pruebas.

Clause Diff Engine

Tender Risk Map

Vendor Probe

¿Un caso documental complejo que ningún software resuelve bien?

Proponer una colaboración