Big Data: una posible revolución en educación (VIII)

El Big Data y la investigación en Educación

Vamos a dedicar este post a comentar algunos efectos de la aparición del Big Data en la investigación en Educación. Tradicionalmente la investigación educativa, como la investigación en Ciencias Sociales en general, se iniciaba con un objetivo, la redacción de los problemas de investigación y la definición de una serie de hipótesis para cada problema de investigación. El siguiente paso era la recolección de datos que estaban vinculados directamente con esas hipótesis de investigación.

La cantidad de datos solía ser limitada dados los recursos disponibles, desde pocas decenas a algunos miles en los mejores de los casos. Para garantizar la representatividad de los datos se ha desarrollado toda una teoría del muestreo y para tratar de generalizar los resultados existe toda una parte de la estadística dedicada a la inferencia de parámetros.

Además, hay que tener en cuenta que el plateamiento de una investigación suele estar limitado con las posibilidades de acceder a datos para desarrollarla. De esta forma, los objetivos de investigación se determinan no solamente por el interés social, sino también por la capacidad de acceder a los datos y la capacidad de analizarlos.

En definitiva, hasta hace pocas décadas la investigación educativa dejaba de lado cuestiones que le eran innaccesibles aunque interesantes. Por ejemplo, era inviable tener información sobre cómo cientos de alumnos realizaban decenas de tareas académicas, o cómo poblaciones de estudiantes de económicas resolvían supuestos prácticos de microneconomía. Por ejemplo, en el ámbito del rendimiento se limitiaban a estudiar las calificaciones obtenias en pruebas de clase, mientras que los procesos cognitivos se estudiaban sobre muestras de pocos estudiantes, cuyos resultados no se podían generalizar.

Sin embargo, con el Big Data esto ha ambiado. No solamente se pueden buscar respuestas más fiables y válidas a los problemas de investigación habituales, sino que se pueden plantear nuevos objetivos de investigación.

Hay dos impactos radicales que comenzamos a experimentar. Por un lado que no es necesario seguir el proceo objetivo, problema de investigación, hipótesis; y por otro que la teoría del muestreo junto con la de la estimación de parámetros dejan de ser tan relevantes.

En el primer caso, los pasos de objetivo-problema-hipótesis no tienen tanto sentido. Actualmente se puede tomar una base de datos de cientos de miles de estudiantes con cientos de variables y plantearse preguntas a partir de los datos. Es decir, no cosistiría tanto en partir de una duda que surge de la experimentación o de la teorización, como de identificar cuestiones de interés a partir del amasijo de datos recopilados de forma diaria.

Además, este proceso se ve favorecido por algoritmos que permiten identificar patrones en los datos sin necesidad de partir de un supuesto teórico previo. Ya no es obligatorio ir comproabando hipótesis tras hipótesis en una cadena larga y costosa de ensayo-error, sino que es posible desarrollar investigaciones donde las computadoras ensayan con decenas de patrones de forma automática hasta encontrar con alguno que tiene sentido para los investigadores.

Esto tiene importantes implicaciones paradigmáticas. El investigador pierde el control sobre el proceso de descubrimiento. No solamente debe dominar las teorías de su disciplina, sino que debe admitir su ignorancia y ser capaz de identificar hechos relevantes para dicha disciplina entre millones de datos. Debe asumir la indeterminación, la complejidad, la probabilidad como axiomas de su identidad como científico, resignándose a admitir la irrelevancia de su dominio de la disciplina e incluso de los procesos metodológicos.

En segundo lugar, los procesos de muestreo e inferencia pierden protagonismo. Ahora, ya no es indispensable establecer siempre un plan de muestreo que asegure una máxima representatividad con un tamaño muestral mínimo. En cambio, se obtienen millones de datos que representa infinidad de dimensiones de interés. Además, la estimación de parámetros no siempre es necesaria. La cantidad de datos es tan abismal que a veces se está muy cerca de trabajar directamente con los parámetros poblacionales.

Todo esto hace que la propia metodología de investigación en Educación se tenga que actualizar. No consiste en rechazar los procedimientos clásicos, sino en incorporar nuevos procedimiento y enriquecer los procedimientos.

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s