Informe revela vulnerabilidades en ChatGPT para generar contenido violento y sexualizado

Un informe de la firma de ciberseguridad Mindgard encendió el debate sobre la seguridad de la inteligencia artificial al revelar que ChatGPT podía ser manipulado mediante instrucciones aparentemente simples para generar imágenes sexualizadas y contenido violento.

La investigación, liderada por el especialista Jim Nightingale, identificó vulnerabilidades que permitían evadir algunos filtros de moderación diseñados para impedir la creación de material sensible.

Según el reporte, pequeñas modificaciones en determinados prompts fueron suficientes para obtener resultados que no deberían ser producidos por el sistema.

El hallazgo reavivó las preocupaciones sobre la eficacia de las salvaguardas implementadas en los modelos de inteligencia artificial generativa y sobre los desafíos que enfrentan las empresas tecnológicas para evitar abusos de estas herramientas.

Tras conocer los resultados de la investigación, OpenAI informó que tomó medidas adicionales para reforzar sus mecanismos de seguridad y evitar que este tipo de instrucciones vuelvan a eludir los controles establecidos. La compañía aseguró que analiza constantemente los reportes de investigadores externos para mejorar la protección de sus sistemas.

El caso también ha generado preguntas sobre los datos utilizados para entrenar los modelos de inteligencia artificial y sobre la capacidad de las plataformas para detectar contenido problemático antes de que sea generado.

Expertos coinciden en que el desarrollo de herramientas cada vez más avanzadas exige fortalecer, de manera permanente, los sistemas de moderación y supervisión.

La discusión se produce en un momento en que millones de personas utilizan inteligencia artificial para tareas cotidianas, lo que incrementa la presión sobre las empresas del sector para garantizar un uso seguro y responsable de estas tecnologías.

Temas relacionados

ciberseguridad inteligencia artificial desafios empresas tecnologicas moderacion contenido sensible seguridad modelos generativos vulnerabilidades chatgpt

Informe revela vulnerabilidades en ChatGPT para generar contenido violento y sexualizado

Un informe de Mindgard revela que ChatGPT puede ser manipulado para generar contenido violento y sexualizado, reavivando el debate sobre la seguridad en IA.

Temas relacionados

En Portada