Big Data: una posible revolución en educación (VIII)

El Big Data y la investigación en Educación

Vamos a dedicar este post a comentar algunos efectos de la aparición del Big Data en la investigación en Educación. Tradicionalmente la investigación educativa, como la investigación en Ciencias Sociales en general, se iniciaba con un objetivo, la redacción de los problemas de investigación y la definición de una serie de hipótesis para cada problema de investigación. El siguiente paso era la recolección de datos que estaban vinculados directamente con esas hipótesis de investigación.

La cantidad de datos solía ser limitada dados los recursos disponibles, desde pocas decenas a algunos miles en los mejores de los casos. Para garantizar la representatividad de los datos se ha desarrollado toda una teoría del muestreo y para tratar de generalizar los resultados existe toda una parte de la estadística dedicada a la inferencia de parámetros.

Además, hay que tener en cuenta que el plateamiento de una investigación suele estar limitado con las posibilidades de acceder a datos para desarrollarla. De esta forma, los objetivos de investigación se determinan no solamente por el interés social, sino también por la capacidad de acceder a los datos y la capacidad de analizarlos.

En definitiva, hasta hace pocas décadas la investigación educativa dejaba de lado cuestiones que le eran innaccesibles aunque interesantes. Por ejemplo, era inviable tener información sobre cómo cientos de alumnos realizaban decenas de tareas académicas, o cómo poblaciones de estudiantes de económicas resolvían supuestos prácticos de microneconomía. Por ejemplo, en el ámbito del rendimiento se limitiaban a estudiar las calificaciones obtenias en pruebas de clase, mientras que los procesos cognitivos se estudiaban sobre muestras de pocos estudiantes, cuyos resultados no se podían generalizar.

Sin embargo, con el Big Data esto ha ambiado. No solamente se pueden buscar respuestas más fiables y válidas a los problemas de investigación habituales, sino que se pueden plantear nuevos objetivos de investigación.

Hay dos impactos radicales que comenzamos a experimentar. Por un lado que no es necesario seguir el proceo objetivo, problema de investigación, hipótesis; y por otro que la teoría del muestreo junto con la de la estimación de parámetros dejan de ser tan relevantes.

En el primer caso, los pasos de objetivo-problema-hipótesis no tienen tanto sentido. Actualmente se puede tomar una base de datos de cientos de miles de estudiantes con cientos de variables y plantearse preguntas a partir de los datos. Es decir, no cosistiría tanto en partir de una duda que surge de la experimentación o de la teorización, como de identificar cuestiones de interés a partir del amasijo de datos recopilados de forma diaria.

Además, este proceso se ve favorecido por algoritmos que permiten identificar patrones en los datos sin necesidad de partir de un supuesto teórico previo. Ya no es obligatorio ir comproabando hipótesis tras hipótesis en una cadena larga y costosa de ensayo-error, sino que es posible desarrollar investigaciones donde las computadoras ensayan con decenas de patrones de forma automática hasta encontrar con alguno que tiene sentido para los investigadores.

Esto tiene importantes implicaciones paradigmáticas. El investigador pierde el control sobre el proceso de descubrimiento. No solamente debe dominar las teorías de su disciplina, sino que debe admitir su ignorancia y ser capaz de identificar hechos relevantes para dicha disciplina entre millones de datos. Debe asumir la indeterminación, la complejidad, la probabilidad como axiomas de su identidad como científico, resignándose a admitir la irrelevancia de su dominio de la disciplina e incluso de los procesos metodológicos.

En segundo lugar, los procesos de muestreo e inferencia pierden protagonismo. Ahora, ya no es indispensable establecer siempre un plan de muestreo que asegure una máxima representatividad con un tamaño muestral mínimo. En cambio, se obtienen millones de datos que representa infinidad de dimensiones de interés. Además, la estimación de parámetros no siempre es necesaria. La cantidad de datos es tan abismal que a veces se está muy cerca de trabajar directamente con los parámetros poblacionales.

Todo esto hace que la propia metodología de investigación en Educación se tenga que actualizar. No consiste en rechazar los procedimientos clásicos, sino en incorporar nuevos procedimiento y enriquecer los procedimientos.

Big Data: una posible revolución en educación (IV)

Qué podría hacer el Big Data

Hasta ahora, el trabajo con pequeñas cantidades de datos permitían teorizar sobre la existencia de unas pocas categorías según la dimensión de análisis: alumnado con aprendizaje profundo o superficial, alumnado con inteligencia fluida o cristalizada, alumnado de altas capacidades, etc. Sin embargo, ahora el Big Data puede identificar cientos o miles de tipos de alumnos.

campanadegauss
Fuente imagen: http://juligarka.blogspot.com/2016/07/la-centralidad-de-la-campana-de-gauss.html

 

Por otro lado, el Big Data se basa en probabilidades. Es cierto que hasta la fecha las probabilidades se utilizaban a partir de pequeñas cantidades de datos, tal vez unos pocos de miles en el mejor de los casos. Ahora se puede trabajar con miles y miles de datos de cientos de variables. El uso de las probabilidades pasa utlizarse para la estimación de parámetros, como era habitual, a la detección o identificacion. No obstante, en ningún caso debe olvidarse que se sigue trabajando con probabilidades.

En teoría, el Big Data permitiría identificar cierta estrategía o contenido que parecería que mejora el rendimiento de un alumno en concreto en el 90% de las ocasiones. Es decir, que de cada 100 alumnos de ese tipo específico, 90 de ello mejora con un tipo de concreto de estretegia o contenido formativo. Sin embargo, 10 de ellos no se benefician. Por tanto, el Big Data aportará mayor certidumbre para casos específicos pero no el 100% de garantías.

Además, es necesario tener claro también que el Big Data seguirá trabajando con correlaciones en la mayoría de las ocasiones. Aunque se utilicen técnicas de análisis causal con los datos masivos, la relación causal seguirá siendo más una interpretación del analista, una “ilusión óptica”, que una realidad. El Big Data permite mayor certeza al comprobar la aparición conjunta de dos o más fenómenos, pero de ahí a una atribución causal de unos eventos sobre otros dista todo un océano de dudas y de congeturas teóricas.

Todo esto puede tener consecuencias en el diseño curricular. Teóricamente, al reconocer de forma pormenorizada las características de un alumno en concreto se puede incluir en una categoría o tipología donde la homogeneidad de sus miembros es muy elevada. De esta forma, el sistema educativo puede diseñar un tipo de enseñanza adaptada específicamente a ese grupo concreto. Además, la utilización de las nuevas tecnologías permitirá gestionar adecuadamente todo este proceso. Dicho proceso incluye el aprendizaje del alumnado, su monitorización casi al minuto, así como la evaluación de los resultados parciales y finales, tanto del proceso de enseñanza-aprendizaje, como del propio sistema desarrollado.

Además, las nuevas tecnologías permiten que el alumnado tenga acceso a recursos educativos que no tiene porque estar cerca. Por ejemplo, pueden acceder a conferencias de reconocidos personajes, a la realización de tareas y ejercicios de cursos puestos en marcha por instituciones externas a su centro de enseñanza, enviar dichas actividades a personas o instituciones para que sean valoradas por personas agenas a su institución, hacerlas públicas para recibir retroalimentación por ciudadanos desconocidos, no implicados directamente en su formación, etc. Todo esto abre un campo enorme de posiblidades donde el docente, la escuela y el sistema educativo en general debe cambiar su rol, reorganizarse y readapatarse. El Big Data permite monitorizar todo este proceso, facilitando su evaluación y con ello, la toma de decisiones.

Dentro de este panorama, las universidades tienen un puesto de ventaja. Disponen de una cantidad de alumnado suficientemente grande como para poner en marcha sistema de gestion masivos de sus datos, facilitándoles así el proceso de reestructuación a nuevos sistemas formativos.

 

Tamaño del efecto

Tamaño del efecto, Cohen

La pregunta inicial a plantearse es si la diferencia estadísticamente significativa que se registra entre dos grupos es realmente importante o trascendente para la investigación en curso.

El tamaño del efecto es la respuesta de la estadística ante este problema de la trascedencia de los resultados, tanto en comparaciones como en correlaciones de grupos de datos. El tamaño del efecto sirve como indicador de la magnitud de la diferencia o correlación de dichos grupos.

Existen múltiples formas de calcular el tamaño del efecto para distintas pruebas estadísticas. Entre los autores más citados al respecto destaca Jacob Cohen (https://en.wikipedia.org/wiki/Jacob_Cohen_(statician)). La expresión más simple para calcular el tamaño del efecto (ES de sus siglas en inglés) de la comparación de la media de dos grupos es la siguiente*:

daum_equation_1500029196969

ES=\frac { \bar { X } _{ 1 }-\bar { X } _{ 2 } }{ sd }

Donde:

  • ES es el tamaño del efecto.
  • X1 y X2 son las medias de los grupos

Sd es la desviación típica. Se supone que es igual para los dos grupos, aunque, si fuese distinta, la expresión original usaba una de las dos indistintamente.

Para evitar el problema de la sd distinta, se suele utilizar un promedio de las dos desviaciones típicas:

daum_equation_1500029176585

ES=\frac { \bar { X } _{ 1 }-\bar { X } _{ 2 } }{ \sqrt { \frac { { \sigma  }_{ 1 }^{ 2 }-{ \sigma  }_{ 1 }^{ 2 } }{ 2 }  }  }

Donde el denominador es la desviación típica conjunta (pooled standar deviation).

La interpretación, según Cohen, sería la siguiente:

  • 0-0.2 efecto pequeño (small).
  • 0.2-0.5 efecto medio (medium)
  • Más de 0.5 efecto gradne (large).

Existen aplicaciones web que calculan el efecto del tamaño así como en casi todos los paquetes estadísticos. Una calculadora web muy simple se encuentra en este enlace: http://www.uccs.edu/~lbecker/

El libro de Cohen donde se explica todo esto es:

 

* Las expresiones están en LaTex

Significación estadística versus trascedencia del resultado

En ocasiones obtenemos diferencias estadísticamente significativas al realizar contrastes de hipótesis, sin embargo, estos resultados no implican siempre que la diferencia sea útil para la investigación.
Por ejemplo, supongamos que tenemos dos grupos de 500 adolescentes cada uno. El peso medio de los dos grupos es igual. Uno de los grupos recibe un programa de cuidado de la salud integral, con seguimiento de la dieta, ejercicio diario y seguimiento médico. El otro grupo sólo tiene un seguimiento médico. Después de un mes el peso medio de los grupos es 70 y 73 respectivamente. Asumiendo que las varianzas son iguales en ambos grupos, la prueba t de student indicará que hay diferencias significativas a un alfa del 0.05.
Aunque existan diferencias, ésta es sólo de 3 kilogramos en una muestra total de 1000 personas, y después de un programa que supone una inversión de tiempo y esfuerzo. ¿merece la pena dicha inversión? ¿El cambio registrado entre los grupos es realmente grande?
Esta es la pregunta que surge a veces cuando se registran diferencias estadísticamente significativas pero puede no ser suficiente para las expectativas de la investigación.
Por tanto, la significación estadística es útil, pero no debería interpretarse al margen del contexto donde se ha desarrollado la investigación. De alguna forma, lo que debe hacerse es interpretar los resultados en términos de “trascendencia” o sentido para la investigación y no sólo en términos de significación estadística.
El cálculo del efecto del tamaño trata de resolver en parte, este problema.

Hipótesis de investigación vs hipótesis estadística

Un problema habitual a la hora de aprender metodología es romper la inercia de confundir los siguientes conceptos como el problema de investigación con las dificultades a la hora de hacer la investigación (problemas para hacer la investigación), o la/s hipótesis de investigación con las hipótesis estadísticas.

En este post vamos a centrarnos en el segundo caso con algunos ejemplos. Partimos de dos ideas fundamentales:

  • El planteamiento de investigación se organiza según las siguientes partes: 1º) planteamiento del objetivo de investigación; 2º) planteamiento de los problemas de investigación (esto y lo siguiente se pueden obviar en los diseños exploratorios y descriptivos); 3º) planteamiento de las hipótesis de investigación (una por cada problema de investigación).
  • Una hipótesis es una respuesta a un problema de investigación (dejamos por el momento el concepto de hipótesis de trabajo así como la de hipótesis emergente).

Leer más “Hipótesis de investigación vs hipótesis estadística”

Clasificación de las variables

Un elemento básico en la formalización de las hipótesis lo componen las variables. Por variable se puede entender todo aquel símbolo que adopta diferentes valores y que está ligado a un fenómeno de la realidad estudiada. Las variables pueden clasificarse de muy diferentes formas en función del criterio que se utilice para ello. Desde un criterio metodológico se suelen clasificar en variables dependientes (VD), variables independientes (VI), variables extrañas (VE), variables control (VC) y variables moderadoras o mediadoras (VM).

Leer más “Clasificación de las variables”

Gobierno del Big Data

La gestión del Big Data está etrechamente vinculada a la gorbernalidad de las tecnologías de la informacion (TI’s). Por gobierno, gobernanza o gobernabilidad (depende del autor) de las TI’s se puede entender el sistema organizativo que trata de dirigir, monitorizar, valorar y controlar dichas tecnologías para enfocarlas a una estrategia eficiente de negocio o productividad.

Para normalizar esta gestión de las TI’s han surgido varias iniciativas de estandarización. A continuación se destacan solamente dos:

  • Control Objectives for Information and related Technology (COBIT): se trata de un marco de referencia en el ámbito empresarial para el gobierno de las TI’s desarrollado por ISACA.
  • La ISO_38500 ISO 38500: se trata de un estandar europeo que define los siguientes elementos del buen gobierno: responsabilidad, estrategia, adquisición, rendimiento, conformidad, y comportamiento humano. En la figura siguiente se muestran las tareas principales que deben realizar la dirección institucional para gobernar las TIC (fuente: ISACA).

Modelo de gobierno de las TIC

En el Big Data el gobierno sería el conjunto de políticas que establecen la gestión de los datos. Estas políticas deben diseñarse teniendo en cuenta no solamente la cantidad de datos a gestionar, sino también la corta vida útil que pueden tener muchos de ellos.

Otro elemento importante, quizás más que el anterior, es la confiabilidad de los datos. Para más información sobre este particular puede consultarse el post de Barranco Fragoso.

Big Data e Inteligencia del Negocio

 

Inteligencia del negocio

La inteligencia del negocio (IN), denominada en Inglés como Business Intelligence (BI) hace referencia al conjunto de recursos tecnológicos y sistemas de información sobre los que tomar decisiones para la empresa o la institución (Joyanes, 2014).
Las aplicaciones de la IN suelen ser de tres tipos:
* Análisis multidimensional (OLAP).
* Minería de datos.
* Sistemas de apoyo a la decisión (DSS).