La investigación, liderada por el especialista Jim Nightingale, identificó vulnerabilidades que permitían evadir algunos filtros de moderación diseñados para impedir la creación de material sensible.

Según el reporte, pequeñas modificaciones en determinados prompts fueron suficientes para obtener resultados que no deberían ser producidos por el sistema.

El hallazgo reavivó las preocupaciones sobre la eficacia de las salvaguardas implementadas en los modelos de inteligencia artificial generativa y sobre los desafíos que enfrentan las empresas tecnológicas para evitar abusos de estas herramientas.

Tras conocer los resultados de la investigación, OpenAI informó que tomó medidas adicionales para reforzar sus mecanismos de seguridad y evitar que este tipo de instrucciones vuelvan a eludir los controles establecidos. La compañía aseguró que analiza constantemente los reportes de investigadores externos para mejorar la protección de sus sistemas.

El caso también ha generado preguntas sobre los datos utilizados para entrenar los modelos de inteligencia artificial y sobre la capacidad de las plataformas para detectar contenido problemático antes de que sea generado.

Expertos coinciden en que el desarrollo de herramientas cada vez más avanzadas exige fortalecer, de manera permanente, los sistemas de moderación y supervisión.

La discusión se produce en un momento en que millones de personas utilizan inteligencia artificial para tareas cotidianas, lo que incrementa la presión sobre las empresas del sector para garantizar un uso seguro y responsable de estas tecnologías.

Temas relacionados

ciberseguridad inteligencia artificialdesafios empresas tecnologicasmoderacion contenido sensibleseguridad modelos generativosvulnerabilidades chatgpt