(Imagen generada por ChatGpt a petición propia)
Lo que sigue no es otra cosa que un esquema para un texto más bien divulgativo con la idea de situar el tratamiento ético-político de la inteligencia artificial generativa en un marco más amplio, tal como ha hecho Floridi, al presentarla como una cuestión de nuevss formas de agencia. A lo que he añadido el tratarla también como nuevas formas de conocimiento distintas del modelo testimonial que es el que usamos para evaluar la epistemología de internet. Por último, se plantean los problemas de gobernanza como problemas también y sobre todo ecológicos y de soberanía.
Resumen:
1.
Auge de la IA generativa y los LLMs y LMMs
2.
Artefactos socio-técnicos y nuevas formas de
acción y conocimiento
3.
Problemas éticos, ecológicos y políticos.
Auge y funcionamiento de la IA generativa
La IA generativa se ha convertido en una tecnología que
transforma rápidamente a muchas otras tecnologías basadas en el mundo digital.
Hereda del aprendizaje automático y lo que llamábamos
“algoritmos”, como el que inició Google para organizar la Web 2.0 (web
participativa), por su capacidad de procesar enormes cantidades de datos y
producir perfiles estadísticos. Añade la capacidad generativa, que es la de
responder a preguntas muy individualizadas con resultados nuevos.
En los últimos tres años han irrumpido en el panorama
mundial a través de los llamados LLM o grandes modelos lingüísticos que
procesan textos y LM M grandes modelos multimodales (texto, imagen, video,
audio).
Los usos comunes más conocidos son los Chat boots ( Chat
GPT/Gemini), resúmenes de resultados y búsquedas en la web, ofrecen servicios a
empresas y gobiernos, entrenados para generar documentos, traducen idiomas,
generan códigos de programación a partir de textos, corrigen estilos, en
general, analizan datos a petición de los usuarios.
Tienen capacidades de interpretar y generar imágenes,
convertir archivos en formatos diversos, crear gráficos resolver problemas de
matemáticas, generar planes de acción, …
Existen tres categorías principales: propietarios, abiertos
y de fuente abierta.
Los modelos propietarios como GPT4o y Claude 3.5 son algunos
de los más populares y potentes disponibles, pero están desarrollados por
empresas privadas. El código fuente, las estrategias de entrenamiento los pesos
de los modelos, e incluso detalles como el número de parámetros que tienen se
mantienen en secreto. Las únicas formas de acceder a estos modelos son a través
de un chatbot o una aplicación creada con ellos, o a través de una API. No se
puede simplemente ejecutar GPT-4
en tu propio servidor.
Los modelos abiertos y de código abierto permiten usos
libres. Se pueden descargar (Llama 3 y Gemma 2 ) y ejecutarlos en los dispositivos, reentrenarlos con los
propios datos y crear versiones propias de chatboots y otros usos (mi
universidad está intentado crear chatboots de asignaturas con los datos
suministrados por profesores y alumnos. Se pueden modificar incluso los pesos
de las conexiones y la arquitectura y, por ello aplicarlos a fines más
especializados. Los modelos de código abierto son más permisivos, los que
tienen licencias (Llama, Gemma) siguen controlados por las grandes plataformas
originarias en sus usos.
Funcionamiento
El aprendizaje profundo es el campo de la inteligencia
artificial (IA) que enseña a las computadoras a procesar datos de una manera
que se inspira en el cerebro humano. Los modelos de aprendizaje profundo pueden
reconocer patrones de datos, como imágenes, textos, sonidos complejos, a fin de
generar información y predicciones precisas. Una red neuronal es la tecnología
subyacente en el aprendizaje profundo. Consiste en nodos o neuronas
interconectados en una estructura en capas. Los nodos procesan los datos en un
sistema coordinado y adaptativo. Estos intercambian comentarios sobre los
resultados generados, aprenden de los errores y mejoran continuamente. Por lo
tanto, las redes neuronales artificiales son el núcleo de un sistema de
aprendizaje profundo.
Una red neuronal es un método de la inteligencia
artificial (IA) que enseña a las computadoras a procesar datos de una
manera similar a como lo hace el cerebro humano. Se trata de un tipo de proceso
de aprendizaje automático (ML) llamado aprendizaje profundo que
conecta “neuronas artificiales”, o pequeños procesadores que realizan
operaciones simples y activan o inhiben a otras neuronas conectadas, según
ciertos pesos de conexión, algo muy similar al cerebro humano. Crea ciclos de
realimentación que reajustan los pesos según fórmulas de estadística, de manera
que pueden aprender de los errores.
Para esta comparación, el término red neuronal se
refiere a una red neuronal prealimentada. Las redes neuronales prealimentadas
procesan los datos en una dirección, desde el nodo de entrada hasta el nodo de
salida. Estas redes también se denominan redes neuronales simples.
Los sistemas de aprendizaje profundo constan de múltiples
capas ocultas y organizadas (convolución o recurrencia), resuelven problemas
mucho más complejos que las redes neuronales simples y necesitan un volumen
enorme de datos, entrenamiento muy costoso y complicado
Artefactos sociotécnicos
Nuevas formas de acción mediada por dispositivos inteligentes
·
El envoltorio social y técnico de toda
tecnología
·
El proceso complejo de
o
Obtención de datos
o
Entrenamiento dirigido
o
Diseño del algoritmo
o
Entorno técnico de almacenamiento y
procesamiento
·
Usos y entrenamiento en el uso
·
¿Qué es una agencia híbrida?
o
Mente extendida
o
Mente distribuida
o
Problema de otras mentes
Nuevas formas de conocimiento
¿Por qué no nos sirve el modelo de testimonio?
Culpar al dispositivo o examinar el proceso de generación y
aplicación:
·
Sesgos
·
Alucinaciones
·
Usos engañosos:
1.- La disponibilidad de datos. Este es un factor
esencial. Los datos se han convertido en la fuente más importante de
diferencias tecnológicas y epistémicas en el siglo XXI. Todo puede ser un dato,
en tanto en cuanto pueda ser representado digitalmente, almacenado y pre-tratado
para que pueda operar en las entrañas de un dispositivo de inteligencia
artificial. No es fácil saber cuántos y cuál es la procedencia exacta de los
datos que alimentan a los LLMs más populares como GPT 4, Gemini, Llama y otros,
pero cabe pensar razonablemente que han sido alimentados con todo lo disponible
en la Web, fundamentalmente textos, en lo que se refiere a los modelos
puramente lingüísticos y con imágenes y otras modalidades a los ampliados a la
multimodalidad. El complejo de datos ya no es una representación fiel de la
realidad, sino un conjunto dependiente de numerosas fuentes fiables o no
fiables que alimentan los algoritmos de los modelos.
2. El proceso de representación: los datos, ya
digitalizados, son convertidos a través de un tratamiento informático en tokens
o unidades que puedan ser situadas en los nodos de las redes neuronales. Estos tokens,
a su vez, son convertidos en vectores para que puedan ser operados por
los dispositivos de tratamiento (transformers) cuya función es crear
contextos de probabilidades de relación asociadas a un token de modo que
se acorte el tratamiento masivo en las redes. Aquí ya se produce un segundo
alejamiento entre la fuente y la unidad de tratamiento, que depende de cuál es
la arquitectura informática del modelo.
3. Entrenamiento: el buen rendimiento funcional,
cognitivo, de los modelos lingüísticos o multimodales depende de su capacidad
de aprendizaje que, a su vez, depende del entrenamiento. Este puede ser
supervisado por los ingenieros del sistema o por personal contratado específicamente
para ello o no supervisado y dependiente de la interacción continua con
usuarios y a través de sus dispositivos internos de auto-aprendizaje o
auto-control. Aunque en todas las fases hay intervención humana, es en el
entrenamiento en donde aparece claramente el carácter mixto, híbrido, de estos
sistemas, que no funcionarían sin la adecuada interacción humanos-máquinas en
las diversas formas de entrenamiento y corrección de errores.
4. Ajuste (fine-tunning): Aunque buena parte
del éxito mediático de estos dispositivos se debe a las expectativas abultadas
artificiosamente sobre el carácter “general” de la inteligencia de los modelos,
lo cierto es que su valor pragmático y comercial depende de formas de ajuste
fino de los sistemas para objetivos prácticos muy específicos de orden
empresarial, militar, científico, educativo, etc., donde los datos son
seleccionados y sobre todo se generan formas de aprendizaje por refuerzo (de
nuevo la importancia del entrenamiento) orientadas a elegir las venas
respuestas y a sustentar la fiabilidad del sistema. Así, por ejemplo, los usos
de estos modelos en traducción y su creciente fiabilidad depende mucho de estos
ajustes.
Estos cuatro puntos y quizás otros que podrían tenerse en
cuenta nos llevan al convencimiento de que la inteligencia generativa es un
producto tanto del artefacto como, para decirlo en términos vigotskyanos, de la
zona de desarrollo próxima, es decir, de la interacción con un entorno
inteligente como es el de los ingenieros, los entrenadores masivos y los mucho
más masivos usuarios. La fiabilidad de estos modelos varía y cambia con los
progresivos entrenamientos. Las primeras impresiones de los usuarios novatos,
como el que escribe, son a veces de fascinación por los resultados, pero hay
que esperar a las evaluaciones de los expertos en las distintas áreas y
aplicaciones. En todo caso, sus producciones parecen ser bastante acertadas en
tareas como la traducción, en preguntas no demasiado complicadas, cuyas
respuestas se encuentren ya representadas en la Web y en algunas otras tareas
de experticia no abierta debido a los contratos confidenciales de uso.
Las críticas más usuales respecto a la fiabilidad de estos
sistemas son la alta tasa de “alucinaciones”, un término que se ha generalizado
para indicar las producciones falsas o incorrectas del sistema. Por ejemplo, la
invención de referencias bibliográficas inexistentes suele ser una queja usual
en los contextos académicos, tanto de estudiantes como de investigadores, que
emplean estos modelos para información inicial en sus trabajos. Junto a la tasa
de alucinaciones, que alcanza tantos por ciento notables, al decir de algunos
expertos respecto a modelos populares como GPT4, pero que varía por temas a lo
largo del tiempo, son también habituales las quejas por los sesgos identitarios
que a veces se observan en las consultas, especialmente en las preguntas sobre
interpretación de imágenes (uno de los campos más atrasados en los modelos
generativos). Estas quejas son las que, unidas al trasfondo del modelo de
testimonio que está en el trasfondo de las evaluaciones sustenta un
generalizado escepticismo filosófico que contrasta con el exagerado y
propagandístico entusiasmo de una gran parte de la comunicación
científico-técnica.
Erich Prem, 2023 acierta al observar que mucha de esta
crítica nacida del marco testimonial se sustenta sobre un supuesto erróneo: el
de que una inteligencia general generativa es algo así como un modelo de la
realidad y que, por ello, sus fallos predictivos son fallos directamente
epistémicos. El autor sostiene, por el contrario, que son dispositivos que no
crean mapas del mundo sino mapas de los enormes almacenes de textos e imágenes
que los alimentan. Su tesis es que un LLM podría parecerse, más que a un
sistema de testimonio, a una ficción literaria que no refiere directamente al
mundo sino al complejo de experiencias, memorias y textos del que la escritora
extrae un relato. Se crea así un modelo oblicuo y ficcional de un universo que
no existiría sin la realidad, cierto, pero que no es un mapa de lo real como
puede serlo una teoría o modelo formulados con una intención referencial y
veritística. Las alucinaciones y sesgos no son algo extraño como no lo son en
la ficción: son parte de la construcción del sistema.
Mirados desde esta perspectiva, los LLM parecen mucho más
humanos de lo que son. Pues, al igual que un cerebro creando textos o imágenes,
hay un grado de opacidad y falta de autoconocimiento notable en su proceso de
producción; hay también un elemento combinatorio en el que las afinidades de
textos no se crean mediante cercanías por taxonomías conceptuales o lógicas,
como podrían ser los que estructuraban la arquitectónica de la inteligencia
artificial simbólica, sino que son producto de perfiles y distancias
terminológicas que son generados combinatoriamente por los pesos
computacionales de las redes neuronales, a veces más cercanas a las dinámicas
de los sueños freudianos que a los modelos matemáticos de los sistemas físicos
que relacionan variables que representan propiedades y magnitudes reales
Problemas éticos, ecológicos y políticos más urgentes
1.
El problema de la adaptación inversa: al ser un
sistema sociotécnico complejo, son muchas las posibilidades, pero también los
límites de qué puede hacerse.
2.
El problema de los datos:
a.
Origen.
b.
Depuración
c.
Propiedad
d.
Privacidad
3.
El problema de la dependencia tecnológica.
a.
Soberanía tecnológica.
b.
Soberanía energética
c.
Soberanía de datos
4.
La planificación de los usos, particularmente.
a.
Enseñanza
b.
Empresa y administración
5.
El problema ecológico de la IA
a.
Obtención de materiales
b. Costes
energéticos de entrenamiento, almacenamiento y uso
6. Límites
de intervención en la gobernanza de la IA:
a. La
competencia China-EE UU y la carrera en IA
b. Geoestrategia
de la IA
c. La
dependencia técnica del Mundo y especialmente de la UE