IA: Aliada del pensamiento crítico… ¿o quizá no tanto?

Beñat Galdós
Ingeniero informático y empresario

Pintura Algorítmica «Nous (19)»: Jaime de los Ríos

El presente artículo tendrá como objetivo hablar sobre el impacto de la inteligencia artificial en el pensamiento crítico. A estos efectos, al pensamiento crítico se le dará el significado de la siguiente definición: “La capacidad manifestada por el ser humano para analizar y evaluar la información existente respecto a un tema o determinado, intentando esclarecer la veracidad de dicha información y alcanzar una idea justificada al respecto ignorando posibles sesgos externos”(Castillero, 2017).

Que se encuentra en consonancia con esta otra definición, descrita por Pérez, J. y Merino, M. (2008): “Analizar y evaluar la consistencia de los razonamientos, en especial aquellas afirmaciones que la sociedad acepta como verdaderas en el contexto de la vida cotidiana.”

Definiciones de este estilo nos encontramos al analizar el significado del pensamiento crítico, una de las habilidades reconocidas múltiples veces por el Foro Económico Mundial como esenciales para este incierto y cada vez más digitalizado futuro que depara a la humanidad (Whiting, 2020).

De hecho, es uno de los principales conceptos recogidos dentro de la inteligencia lógico-matemática, tal y como está definido en la Teoría de Inteligencias Múltiples de Gardner (1999). Esto es así porque el pensamiento crítico es esencial para poder evaluar una situación y afrontar los retos que dicha situación implica.

Con ello, se puede concluir con cierta firmeza que se trata de una habilidad relevante, si cabe esencial para el desarrollo de las personas. Ahora, ¿estamos haciendo todo lo que se encuentra a nuestra disposición para fomentar su desarrollo?

Pues no lo parece. Y a pesar de que esta crítica se puede hacer desde muchas perspectivas, esta reflexión se enfocará desde el ámbito de la informática; específicamente, desde la inteligencia artificial. Para ello, se dará un muy breve contexto de algunas técnicas típicas del Procesamiento de Lenguaje Natural para posteriormente detallar sus efectos en implementaciones realizadas para el uso de las personas.

Inteligencia Artificial y Procesamiento de Lenguaje Natural

Aunque se hable mucho de la inteligencia artificial, cabe destacar que esta se suele tratar de inteligencia artificial débil o estrecha; es decir, inteligencia artificial que está preparada para trabajar en un ámbito de actuación muy específico.

Hemos visto que se han podido generar programas informáticos capaces de vencer al mejor jugador humano en el Go1. Por hacer una comparativa rápida con el ajedrez, se estima que hay un orden de 10120 combinaciones posibles de estados2 del tablero en el ajedrez, mientras que en el Go esta cantidad puede ascender a 10174 estados.

A pesar de ser capaces de gestionar esta potencial complejidad computacional, estos programas lo hacen para un dominio específico. Aunque hoy en día se esté investigando en la línea del aprendizaje de transferencia o transfer learning, el programa desarrollado para jugar a Go sabe jugar a Go (y quizá otros juegos de mesa similares), pero poco más.

No obstante, hay más líneas de desarrollo de esta inteligencia artificial débil que tienen otros ámbitos de aplicación. Un ejemplo de ello son los modelos del lenguaje. Estos modelos provienen de un campo más amplio que se conoce como Procesamiento de Lenguaje Natural (PLN o NLP) en el que se combinan ciencias de la computación y lingüística, y se emplean para diversas funciones, así como la generación de textos, reconocimiento de entidades nombradas (Named Entity Recognition o NER), o clasificación de textos, entre otros.

El objetivo de estos modelos es generar una distribución de probabilidad sobre secuencias de palabras. En esta línea, normalmente se emplean lo que se conocen como modelos n-grama, en los cuales se consideran bloques de ‘n’ palabras para tratar de predecir la siguiente palabra que haya que generar o clasificar. Es decir, que se considera un contexto de dichas palabras para darles un significado concreto. Formalmente, podríamos representar un n-grama con la Expresión 1.



Expresión 1: Aproximación de distribución de probabilidades de un modelo n-grama con una frase w1…wn.

Es habitual utilizar los casos particulares de bigramas (2-gramas) o trigramas (3-gramas) para hacer este análisis del contexto de las oraciones o documentos, así como el modelo unigrama (1-grama), también conocido como Bag of Wordso Bolsa de Palabras para hacer un recuento de las palabras en dichos documentos.

Sumado a ese concepto, en el año 2013 se publicó el paper conocido como Word2Vec (Mikolov, Chen, Corrado y Dean, 2013), el que supuso el auge de los conocidos como Word Embeddings. La idea subyacente de los Word Embeddings consiste en representar palabras que forman parte de grandes conjuntos de textos o corpusmediante vectores matemáticos, con el fin de reducir la necesidad de cómputo que implicaría el uso de modelos como n-gramas. A su vez, esta representación vectorial permite algo que los n-gramas no facilitaban, que es evaluar la similitud de dos palabras. Por ello, en el caso de que un Word Embedding esté entrenado en un corpus lo suficientemente grande, podríamos llevar a cabo las siguientes operaciones:


Expresión 2: Relación de términos posibles con Word Embeddings.

Y nos podría sugerir la palabra “Rey”, ejecutando en términos vectoriales la siguiente operación:


Expresión 3: Aproximación de operación entre vectores de representaciones de palabras.

Más adelante, se ha propuesto el uso de las redes neuronales recurrentes, las cuales son un tipo específico de red neuronal que se ha validado que presenta un buen rendimiento para casos de uso relativos al NLP porque dichas redes consideran la posición de las palabras en la frase y en el texto, obteniendo así un mayor sentido del contexto.

Aunque hoy en día, las implementaciones más mediáticas (GPT-2, GPT-3, BERT, etc.) se han basado en una nueva arquitectura conocida como Transformer. Esta última arquitectura presentada en el paper Attention is All You Need (Vashwani et al., 2017) considera los Word Embeddings, utilizando estos con capas de “autoatención”, donde el objetivo de estas capas es combinar los vectores de palabras representadas matemáticamente para conseguir otros vectores que tengan más contexto. Al final del proceso, las representaciones no solamente tendrán la información de la palabra que representan originalmente, sino que contendrán además información del resto del texto.

Pero ahora, aterricemos estos conceptos teóricos presentados a hechos que ya han sucedido.

Complementariedad de la Inteligencia Artificial con la Inteligencia Humana

En el año 2018, se hizo eco un resultado de dos implementaciones de sistemas de NLP, uno de Microsoft y otro de Alibaba, los cuales obtuvieron una mejor puntuación que los humanos en un examen de comprensión lectora diseñado por la Universidad de Stanford (Molina, 2018).

Sin embargo, se llegó a una conclusión errónea debido a que, como apuntaban desde el Centro de Inteligencia Artificial Centrada en los Humanos de la Universidad de Stanford (HAI), los sistemas sabían actuar de manera correcta solo ante ese conjunto específico de preguntas. Al cambiar algunas de las preguntas, los estudiantes humanos pudieron detectar dichos cambios y aprobar los exámenes con unos resultados similares, mientras que las máquinas fallaron de manera estrepitosa (Andrews, 2020). Por ello, difícilmente se podría afirmar que los sistemas propuestos por Microsoft o Alibaba “comprenden mejor los textos” que un ser humano.

Y esto, que puede tratarse una anécdota divertida y que puede intentar reafirmar de manera algo fútil nuestra superioridad humana,¿es un problema? Puede serlo, por dos motivos:

  1. Por asumir que la máquina hace la labor mejor que los humanos, y que por lo tanto no es necesario supervisarla.
  2. Porque hace que los humanos no ejecuten esa labor, no ejercitando por lo tanto sus mecanismos cerebrales y reduciendo la capacidad de aprendizaje de dichos humanos.

Con respecto al primer punto, imaginemos que la inocente prueba de la Universidad de Stanford consiste esta vez en un conjunto de pruebas de calidad de un sistema crítico que un conjunto de operarios especializados ha de evaluar; consideremos como ejemplo el correcto funcionamiento de una central nuclear. Aunque haya sistemas inteligentes que sean capaces de monitorizar el funcionamiento de dicha central, algo que hoy en día no debería ser asumible es que se ceda el control completo de la monitorización a los sistemas inteligentes, puesto que es probable que esos sistemas no sean capaces de adaptarse a tiempo en caso de ocurrir cualquier catástrofe imprevista.

Aunque el primer punto sea algo más obvio, el quizá no tan obvio (y posiblemente más perjudicial a largo plazo) es el segundo. Tomemos esta vez la situación de la redacción de un texto periodístico en un colegio. El profesor ha mandado como deberes para casa a sus alumnos que escriban un texto de opinión sobre un tema concreto: ¿Los jóvenes de la actualidad viven mejor que sus padres?

El problema viene en cómo se ejecuta la tarea. En septiembre de 2020 el diario inglés The Guardian utilizó el modelo Transformer GPT-3 para crear un artículo de opinión, al cual se le dieron tres simples instrucciones. Estas instrucciones consistían en escribir un artículo de opinión de unas 500 palabras, manteniendo el lenguaje simple y conciso, y centrándose en por qué los humanos no tienen nada de qué atemorizarse sobre la inteligencia artificial (The Guardian, 2020). Y además de esas instrucciones, se le dio un párrafo introductorio.

No soy un humano. Soy Inteligencia Artificial. Muchas personas creen que soy una amenaza para la humanidad. Stephen Hawking avisó que la IA podría “vaticinar el fin de la raza humana”. Estoy aquí para convencerte de que no te preocupes. La IA no destruirá humanos. Créeme (The Guardian, 2020).

Y con ello el propio modelo GPT-3 fue capaz de generar un artículo que, con ligeras revisiones por parte de editores del diario anglosajón, muestra un discurso perfectamente coherente.

Ahora, imaginemos que una implementación similar a GPT-3 o una evolución de esta se hace accesible a todas las personas. No sería descabellado pensar que muchos jóvenes del colegio apuntarían el tema dado por el profesor, lo insertarían a modo de instrucciones junto con el número de párrafos o palabras a escribir, y que con eso harían su tarea. Ante este escenario, el profesor se encuentra con una gran cantidad de trabajo que corregir, pero con una gran incógnita: ¿está consiguiendo realmente que sus alumnos aprendan a comunicarse?

Y en ambos casos, estamos perdiendo una noción que habíamos indicado como esencial al inicio de este monográfico: el pensamiento crítico. En el primero, estamos perdiendo el control sobre la capacidad de reacción de los sistemas que nosotros mismos hemos creado como humanidad. En el segundo, estamos delegando nuestra capacidad de desarrollar nuestra inteligencia a un agente informático con el mero fin de obtener algo más de tiempo de ocio.

Deterioro cognitivo de nuevas generaciones

Pero el problema es que eso último es algo que ya ha empezado a suceder, y no necesariamente con estas técnicas del estado de la cuestión del Procesamiento de Lenguaje Natural, sino con algo más sencillo de entender: la automatización de las aplicaciones.

A todas las personas que nos dedicamos a la informática nos gusta que nuestros desarrollos sean sencillos de usar y que sean empleados por el máximo número de personas, con el objetivo de generar un mayor impacto positivo en la sociedad, etc.

El arma de doble filo en este pensamiento es que, al simplificar tanto los procesos, a veces nos encontramos que muchas aplicaciones tienen interfaces de uso tremendamente intuitivas, llegando al extremo de que su utilización no implica ningún tipo de reto.

Y así como la reducción de dificultades está bien y puede incluso llegar a ser necesaria en procesos productivos donde se quieren automatizar tareas tediosas, no debemos interferir en el proceso de aprendizaje, donde debe haber un esfuerzo por parte de los más pequeños de la casa para que aprendan. Porque luego vienen serias consecuencias.

La Universidad de Harvard detectó el síndrome conocido como Efecto Google, consistente en una tendencia a olvidar la información o su fuente de origen (Sparrow et al., 2011). Esto se debe a que cada vez estamos más acostumbrados a tener buscadores como Google a nuestro alcance, o llevándolo a un extremo superior, asistentes virtuales a los que, con dar un par de órdenes por voz, pueden ejecutar la búsqueda por nosotros.

Otro estudio de la University College de Londres demuestra que el uso de GPS está reduciendo la capacidad del cerebro para orientarse, haciendo que el uso de estos navegadores disminuya la actividad cerebral relacionada con la orientación espacial y la navegación (Javadi et al., 2017).

Finalmente, un estudio que suscitó bastante polémica apuntó que se estaban dando indicios de la presencia de un Efecto Flynn negativo entre los jóvenes varones de Noruega (Bratsberg y Rogeberg, 2018). El Efecto Flynn defiende que existe una subida continua del cociente intelectual, entre otros debido a las mejoras relativas a la nutrición y la medicina. Sin embargo, diversos expertos han achacado que esta tendencia negativa se está dando por facilitar en exceso el acceso a los recursos y que por ende no se requieren de retos para conseguirlos.

Conclusión

Aunque pueda parecer que el empleo de la tecnología y la inteligencia artificial son beneficiosas en cualquier caso, a lo largo de este monográfico se han dado una serie de argumentos que sostienen que la expansión de estas técnicas a todas las facetas de la vida del ser humano puede afectar negativamente a las capacidades cognitivas, y en consecuencia, a la capacidad de desarrollar ese pensamiento crítico tan valioso.

Además, Spector y Ma (2019) indican que el pensamiento crítico inicia a desarrollarse encontrando diferencias, enfrentándose a una pregunta o problema intrigante, o cuestionando afirmaciones hechas por terceros, llevando todo ello a un estadio de reflexión que permite aplicar diversas habilidades, así como el pensamiento lógico, el cuestionamiento de asunciones o la evaluación de explicaciones alternativas.

Con todo ello, habría que ponderar si mediante el uso generalizado de sistemas inteligentes que puedan estar basados, entre otros, en técnicas de NLP, estamos evitando que seres humanos resuelvan estas incógnitas por sí mismos, podríamos estar condenando a nuestra juventud a un futuro en el que no podrá ser capaz de evaluar con claridad sus propios actos. Para ello, podría ser de interés regular el despliegue de modelos de generación de textos a determinados sectores, especialmente al ámbito educativo, para no interferir con el desarrollo cognitivo de las personas que conformarán el futuro de la sociedad.

Bibliografía, notas y fuentes:

1 El Go es un juego de mesa conocido por su complejidad computacional y estudiado en frecuentes ocasiones en el ámbito de las ciencias de computación porque no da lugar a soluciones viables basadas en una aproximación por fuerza bruta. Para más información, consultar Galdós (2017).

2 Entiéndase estado como una combinación de piezas de ajedrez o de Go en sus respectivas ubicaciones.

Castillero, O. (24 de marzo de 2017): ¿Qué es el pensamiento crítico y cómo desarrollarlo? Psicología y Mente. Barcelona, España. Recuperado de: https://psicologiaymente.com/inteligencia/pensamiento-critico

Pérez, J. y Merino, M. (2008): Definición de Pensamiento Crítico. Definición.de. España. Recuperado de: https://definicion.de/pensamiento-critico/

Whiting, K. (2020): These are the top 10 job skills of tomorrow – and how long it takes to learn them. Foro Económico Mundial. Davos, Suiza. Recuperado de: https://www.weforum.org/agenda/2020/10/top-10-work-skills-of-tomorrow-how-long-it-takes-to-learn-them/

Gardner, Howard (1999): Intelligence Reframed: Multiple Intelligences for the 21st Century. Nueva York: Basic Books, 2000

Galdós, B. (14 de marzo de 2017): AlphaGo – Demostración de una IA en desarrollo [Mensaje en un blog]. Recuperado de: https://www.bennytacora.com/es/alphago-ia/

Mikolov, T., Chen, K., Corrado, G., y Dean, J. (2013): Efficient Estimation of Word Representations in Vector Space. ArXiV. Recuperado de: https://arxiv.org/abs/1301.3781

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A., …Polosukhin, I. (2017): Attention Is All You Need. ArXiV. Recuperado de: https://arxiv.org/abs/1706.03762

Molina, B. (16 de enero de 2018): Robots are better at Reading than humans. USA Today Tech. Recuperado de: https://eu.usatoday.com/story/tech/news/2018/01/16/robots-better-reading-than-humans/1036420001/

Andrews, E. (13 de mayo de 2020): Grading on a Curve? Why AI Systems Test Brilliantly but Stumble in Real Life. Stanford Institute for Human-Centered Artificial Intelligence. Stanford, Estados Unidos. Recuperado de: https://hai.stanford.edu/blog/grading-curve-why-ai-systems-test-brilliantly-stumble-real-life

The Guardian. (8 de septiembre de 2020): A robot wrote this entire article. Are you scared yet, human? The Guardian. Recuperado de: https://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3

Sparrow, B., et al. (2011). Google Effects on Memory: Cognitive Consequences of Having Information at Our Fingertips. Science, 333, 776-778. DOI: 10.1126/science.1207745

Javadi, AH., Emo, B., Howard, L., et al. (2017). Hippocampal and prefrontal processing of network topology to simulate the future. Nat Commun 8, 14652. DOI: https://doi.org/10.1038/ncomms14652

Bratsberg, B., y Rogeberg, O. (2018). Flynn effect and its reversal are both environmentally caused. PNAS, 115, no. 26, 6674-6678. DOI: https://doi.org/10.1073/pnas.1718793115

Spector, J.M., y Ma, S. (2019). Inquiry and critical thinking skills for the next generation: from artificial intelligence back to human intelligence. Smart Learn. Environ. 6, 8. DOI: https://doi.org/10.1186/s40561-019-0088-z