By Antonio Moreno

Los puntos de referencia de IA buscan mejorar la seguridad empresarial

DATE: febrero 07, 2026
READ: ...
TAGS: ,
ACTION: /

 Los agentes de IA proliferan y adquieren una autonomía cada vez mayor. Desde la navegación web avanzada hasta la mejora recursiva de sus propias capacidades de programación, la IA agéntica promete reorganizar la economía digital y redefinir la arquitectura de internet.

Sin embargo, para el entorno corporativo, estos agentes representan un riesgo significativo. La transición de la asistencia a la automatización total es una decisión crítica, especialmente cuando las entidades artificiales operan con libertad para ejecutar acciones cruciales, desde transacciones financieras hasta la coordinación de cadenas de suministro complejas. Para mitigar esta vulnerabilidad, investigadores de la Universidad Carnegie Mellon y Fujitsu han desarrollado tres parámetros de medición —o benchmarks— que determinan si un agente de IA es lo suficientemente seguro y eficaz para gestionar operaciones comerciales sin supervisión humana. Estos estándares fueron presentados el pasado 26 de enero en la Conferencia AAAI 2026 sobre Inteligencia Artificial, celebrada en Singapur.

FieldWorkArena: Seguridad en el terreno operativo

El primer indicador, denominado FieldWorkArena, evalúa a los agentes desplegados en entornos logísticos y de fabricación, como fábricas y almacenes. Este parámetro mide la precisión de la IA al detectar infracciones de seguridad, desviaciones en los procedimientos y la generación de informes de incidentes.

Por ejemplo, un agente encargado de verificar el cumplimiento del uso de Equipo de Protección Individual (EPI) en zonas de alto riesgo debe ser capaz de:

  • Interpretar las normativas de seguridad vigentes.

  • Identificar a los trabajadores presentes en el área.

  • Analizar si la indumentaria cumple con los estándares exigidos.

  • Reportar con exactitud el nivel de cumplimiento del personal.

A diferencia de las simulaciones teóricas, FieldWorkArena utiliza datos del mundo real, incluyendo manuales operativos, normativas e imágenes capturadas in situ. Hideo Saito, profesor de la Universidad Keio, subraya que la privacidad es fundamental en estos casos; por ello, los datos fueron obtenidos bajo consentimiento y se aplicaron técnicas de desenfoque en rostros y áreas sensibles para proteger la identidad de los trabajadores.

Los investigadores evaluaron tres de los modelos de lenguaje multimodales (LMM) más avanzados: Claude Sonnet 3.7 de Anthropic, Gemini 2.0 Flash de Google y GPT-4o de OpenAI. Los resultados revelaron una brecha importante: aunque destacaron en el reconocimiento de imágenes y extracción de datos, los modelos mostraron una baja precisión general, presentando dificultades para medir distancias específicas, contar objetos con exactitud y evitar alucinaciones.


Mitigación de alucinaciones y acceso a datos fiables

Además de FieldWorkArena, disponible en GitHub, el equipo presentó otros dos indicadores que se abrirán al público próximamente:

  1. ECHO (Evidence-preceded Hallucination Observation): Este parámetro evalúa la eficacia de las estrategias para mitigar alucinaciones en los Modelos de Lenguaje Visual (VLM). Los hallazgos sugieren que técnicas como el recorte de imágenes —para centrar la atención del modelo en regiones críticas— y la aplicación de aprendizaje por refuerzo para el razonamiento pueden minimizar significativamente los errores en las respuestas generadas a partir de entradas visuales.

  2. Benchmark Empresarial RAG (Generación Aumentada por Recuperación): Evalúa la capacidad de los agentes para extraer información de bases de conocimiento corporativas fiables. Las métricas incluyen la precisión en la recuperación de áreas relevantes y la validez del razonamiento lógico basado en la información recuperada.

Hiro Kobashi, director sénior de proyectos en Fujitsu Research, enfatiza que la demanda de estos indicadores proviene de la inseguridad de los clientes corporativos ante la opacidad de los LLM.

 "Queremos ofrecerles referencias sólidas y suficientes", afirma.

El futuro de estos parámetros reside en su actualización continua. A medida que los agentes de IA evolucionen y superen los estándares actuales, se requerirán benchmarks más exhaustivos que guíen el desarrollo de una IA empresarial verdaderamente autónoma y segura.

← Newer Older →