domingo, 3 de noviembre de 2024

Proyecto para un tratamiento ético-político de la inteligencia artificial generativa

 




(Imagen generada por ChatGpt a petición propia)


Lo que sigue no es otra cosa que un esquema para un texto más bien divulgativo con la idea de situar el tratamiento ético-político de la inteligencia artificial generativa en un marco más amplio, tal como ha hecho Floridi, al presentarla como una cuestión de nuevss formas de agencia. A lo que he añadido el tratarla también como nuevas formas de conocimiento distintas del modelo testimonial que es el que usamos para evaluar la epistemología de internet. Por último, se plantean los problemas de gobernanza como problemas también y sobre todo ecológicos y de soberanía. 


Resumen:

1.      Auge de la IA generativa y los LLMs y LMMs

2.      Artefactos socio-técnicos y nuevas formas de acción y conocimiento

3.      Problemas éticos, ecológicos y políticos.

 

Auge y funcionamiento de la IA generativa

 La IA generativa se ha convertido en una tecnología que transforma rápidamente a muchas otras tecnologías basadas en el mundo digital.

Hereda del aprendizaje automático y lo que llamábamos “algoritmos”, como el que inició Google para organizar la Web 2.0 (web participativa), por su capacidad de procesar enormes cantidades de datos y producir perfiles estadísticos. Añade la capacidad generativa, que es la de responder a preguntas muy individualizadas con resultados nuevos.

En los últimos tres años han irrumpido en el panorama mundial a través de los llamados LLM o grandes modelos lingüísticos que procesan textos y LM M grandes modelos multimodales (texto, imagen, video, audio).

Los usos comunes más conocidos son los Chat boots ( Chat GPT/Gemini), resúmenes de resultados y búsquedas en la web, ofrecen servicios a empresas y gobiernos, entrenados para generar documentos, traducen idiomas, generan códigos de programación a partir de textos, corrigen estilos, en general, analizan datos a petición de los usuarios.

Tienen capacidades de interpretar y generar imágenes, convertir archivos en formatos diversos, crear gráficos resolver problemas de matemáticas, generar planes de acción, …

 Existen tres categorías principales: propietarios, abiertos y de fuente abierta.

Los modelos propietarios como GPT4o y Claude 3.5 son algunos de los más populares y potentes disponibles, pero están desarrollados por empresas privadas. El código fuente, las estrategias de entrenamiento los pesos de los modelos, e incluso detalles como el número de parámetros que tienen se mantienen en secreto. Las únicas formas de acceder a estos modelos son a través de un chatbot o una aplicación creada con ellos, o a través de una API. No se puede simplemente ejecutar GPT-4 en tu propio servidor.

Los modelos abiertos y de código abierto permiten usos libres. Se pueden descargar (Llama 3 y Gemma 2 ) y ejecutarlos  en los dispositivos, reentrenarlos con los propios datos y crear versiones propias de chatboots y otros usos (mi universidad está intentado crear chatboots de asignaturas con los datos suministrados por profesores y alumnos. Se pueden modificar incluso los pesos de las conexiones y la arquitectura y, por ello aplicarlos a fines más especializados. Los modelos de código abierto son más permisivos, los que tienen licencias (Llama, Gemma) siguen controlados por las grandes plataformas originarias en sus usos.

Funcionamiento

El aprendizaje profundo es el campo de la inteligencia artificial (IA) que enseña a las computadoras a procesar datos de una manera que se inspira en el cerebro humano. Los modelos de aprendizaje profundo pueden reconocer patrones de datos, como imágenes, textos, sonidos complejos, a fin de generar información y predicciones precisas. Una red neuronal es la tecnología subyacente en el aprendizaje profundo. Consiste en nodos o neuronas interconectados en una estructura en capas. Los nodos procesan los datos en un sistema coordinado y adaptativo. Estos intercambian comentarios sobre los resultados generados, aprenden de los errores y mejoran continuamente. Por lo tanto, las redes neuronales artificiales son el núcleo de un sistema de aprendizaje profundo.

Una red neuronal es un método de la inteligencia artificial (IA) que enseña a las computadoras a procesar datos de una manera similar a como lo hace el cerebro humano. Se trata de un tipo de proceso de aprendizaje automático (ML) llamado aprendizaje profundo que conecta “neuronas artificiales”, o pequeños procesadores que realizan operaciones simples y activan o inhiben a otras neuronas conectadas, según ciertos pesos de conexión, algo muy similar al cerebro humano. Crea ciclos de realimentación que reajustan los pesos según fórmulas de estadística, de manera que pueden aprender de los errores.

Para esta comparación, el término red neuronal se refiere a una red neuronal prealimentada. Las redes neuronales prealimentadas procesan los datos en una dirección, desde el nodo de entrada hasta el nodo de salida. Estas redes también se denominan redes neuronales simples.

Los sistemas de aprendizaje profundo constan de múltiples capas ocultas y organizadas (convolución o recurrencia), resuelven problemas mucho más complejos que las redes neuronales simples y necesitan un volumen enorme de datos, entrenamiento muy costoso y complicado

Artefactos sociotécnicos

Nuevas formas de acción mediada por dispositivos inteligentes

·        El envoltorio social y técnico de toda tecnología

·        El proceso complejo de

o   Obtención de datos

o   Entrenamiento dirigido

o   Diseño del algoritmo

o   Entorno técnico de almacenamiento y procesamiento

·        Usos y entrenamiento en el uso

·        ¿Qué es una agencia híbrida?

o   Mente extendida

o   Mente distribuida

o   Problema de otras mentes

Nuevas formas de conocimiento

¿Por qué no nos sirve el modelo de testimonio?

Culpar al dispositivo o examinar el proceso de generación y aplicación:

·        Sesgos

·        Alucinaciones

·        Usos engañosos:

1.- La disponibilidad de datos. Este es un factor esencial. Los datos se han convertido en la fuente más importante de diferencias tecnológicas y epistémicas en el siglo XXI. Todo puede ser un dato, en tanto en cuanto pueda ser representado digitalmente, almacenado y pre-tratado para que pueda operar en las entrañas de un dispositivo de inteligencia artificial. No es fácil saber cuántos y cuál es la procedencia exacta de los datos que alimentan a los LLMs más populares como GPT 4, Gemini, Llama y otros, pero cabe pensar razonablemente que han sido alimentados con todo lo disponible en la Web, fundamentalmente textos, en lo que se refiere a los modelos puramente lingüísticos y con imágenes y otras modalidades a los ampliados a la multimodalidad. El complejo de datos ya no es una representación fiel de la realidad, sino un conjunto dependiente de numerosas fuentes fiables o no fiables que alimentan los algoritmos de los modelos.

2. El proceso de representación: los datos, ya digitalizados, son convertidos a través de un tratamiento informático en tokens o unidades que puedan ser situadas en los nodos de las redes neuronales. Estos tokens, a su vez, son convertidos en vectores para que puedan ser operados por los dispositivos de tratamiento (transformers) cuya función es crear contextos de probabilidades de relación asociadas a un token de modo que se acorte el tratamiento masivo en las redes. Aquí ya se produce un segundo alejamiento entre la fuente y la unidad de tratamiento, que depende de cuál es la arquitectura informática del modelo.

3. Entrenamiento: el buen rendimiento funcional, cognitivo, de los modelos lingüísticos o multimodales depende de su capacidad de aprendizaje que, a su vez, depende del entrenamiento. Este puede ser supervisado por los ingenieros del sistema o por personal contratado específicamente para ello o no supervisado y dependiente de la interacción continua con usuarios y a través de sus dispositivos internos de auto-aprendizaje o auto-control. Aunque en todas las fases hay intervención humana, es en el entrenamiento en donde aparece claramente el carácter mixto, híbrido, de estos sistemas, que no funcionarían sin la adecuada interacción humanos-máquinas en las diversas formas de entrenamiento y corrección de errores.

4. Ajuste (fine-tunning): Aunque buena parte del éxito mediático de estos dispositivos se debe a las expectativas abultadas artificiosamente sobre el carácter “general” de la inteligencia de los modelos, lo cierto es que su valor pragmático y comercial depende de formas de ajuste fino de los sistemas para objetivos prácticos muy específicos de orden empresarial, militar, científico, educativo, etc., donde los datos son seleccionados y sobre todo se generan formas de aprendizaje por refuerzo (de nuevo la importancia del entrenamiento) orientadas a elegir las venas respuestas y a sustentar la fiabilidad del sistema. Así, por ejemplo, los usos de estos modelos en traducción y su creciente fiabilidad depende mucho de estos ajustes.

Estos cuatro puntos y quizás otros que podrían tenerse en cuenta nos llevan al convencimiento de que la inteligencia generativa es un producto tanto del artefacto como, para decirlo en términos vigotskyanos, de la zona de desarrollo próxima, es decir, de la interacción con un entorno inteligente como es el de los ingenieros, los entrenadores masivos y los mucho más masivos usuarios. La fiabilidad de estos modelos varía y cambia con los progresivos entrenamientos. Las primeras impresiones de los usuarios novatos, como el que escribe, son a veces de fascinación por los resultados, pero hay que esperar a las evaluaciones de los expertos en las distintas áreas y aplicaciones. En todo caso, sus producciones parecen ser bastante acertadas en tareas como la traducción, en preguntas no demasiado complicadas, cuyas respuestas se encuentren ya representadas en la Web y en algunas otras tareas de experticia no abierta debido a los contratos confidenciales de uso.

Las críticas más usuales respecto a la fiabilidad de estos sistemas son la alta tasa de “alucinaciones”, un término que se ha generalizado para indicar las producciones falsas o incorrectas del sistema. Por ejemplo, la invención de referencias bibliográficas inexistentes suele ser una queja usual en los contextos académicos, tanto de estudiantes como de investigadores, que emplean estos modelos para información inicial en sus trabajos. Junto a la tasa de alucinaciones, que alcanza tantos por ciento notables, al decir de algunos expertos respecto a modelos populares como GPT4, pero que varía por temas a lo largo del tiempo, son también habituales las quejas por los sesgos identitarios que a veces se observan en las consultas, especialmente en las preguntas sobre interpretación de imágenes (uno de los campos más atrasados en los modelos generativos). Estas quejas son las que, unidas al trasfondo del modelo de testimonio que está en el trasfondo de las evaluaciones sustenta un generalizado escepticismo filosófico que contrasta con el exagerado y propagandístico entusiasmo de una gran parte de la comunicación científico-técnica.

Erich Prem, 2023 acierta al observar que mucha de esta crítica nacida del marco testimonial se sustenta sobre un supuesto erróneo: el de que una inteligencia general generativa es algo así como un modelo de la realidad y que, por ello, sus fallos predictivos son fallos directamente epistémicos. El autor sostiene, por el contrario, que son dispositivos que no crean mapas del mundo sino mapas de los enormes almacenes de textos e imágenes que los alimentan. Su tesis es que un LLM podría parecerse, más que a un sistema de testimonio, a una ficción literaria que no refiere directamente al mundo sino al complejo de experiencias, memorias y textos del que la escritora extrae un relato. Se crea así un modelo oblicuo y ficcional de un universo que no existiría sin la realidad, cierto, pero que no es un mapa de lo real como puede serlo una teoría o modelo formulados con una intención referencial y veritística. Las alucinaciones y sesgos no son algo extraño como no lo son en la ficción: son parte de la construcción del sistema.

Mirados desde esta perspectiva, los LLM parecen mucho más humanos de lo que son. Pues, al igual que un cerebro creando textos o imágenes, hay un grado de opacidad y falta de autoconocimiento notable en su proceso de producción; hay también un elemento combinatorio en el que las afinidades de textos no se crean mediante cercanías por taxonomías conceptuales o lógicas, como podrían ser los que estructuraban la arquitectónica de la inteligencia artificial simbólica, sino que son producto de perfiles y distancias terminológicas que son generados combinatoriamente por los pesos computacionales de las redes neuronales, a veces más cercanas a las dinámicas de los sueños freudianos que a los modelos matemáticos de los sistemas físicos que relacionan variables que representan propiedades y magnitudes reales

Problemas éticos, ecológicos y políticos más urgentes

1.      El problema de la adaptación inversa: al ser un sistema sociotécnico complejo, son muchas las posibilidades, pero también los límites de qué puede hacerse.

2.      El problema de los datos:

a.      Origen.

b.      Depuración

c.       Propiedad

d.      Privacidad

3.      El problema de la dependencia tecnológica.

a.      Soberanía tecnológica.

b.      Soberanía energética

c.       Soberanía de datos

4.      La planificación de los usos, particularmente.

a.      Enseñanza

b.      Empresa y administración

5.      El problema ecológico de la IA

a.      Obtención de materiales

b.      Costes energéticos de entrenamiento, almacenamiento y uso

6.      Límites de intervención en la gobernanza de la IA:

a.      La competencia China-EE UU y la carrera en IA

b.      Geoestrategia de la IA

c.       La dependencia técnica del Mundo y especialmente de la UE


No hay comentarios:

Publicar un comentario