De como predecir basándonos en google trends mientras leemos el periódico o echamos un ratito de descanso

Recientemente leímos el siguiente titular: Investigadores de Harvard afirman que el coronavirus ya estaba en China desde agosto de 2019. A pesar de que este estudio ha sido calificado de ridículo por el gobierno Chino, nos ha llamado la atención la forma de hacerlo. Para ello, los autores afirman haber analizado imágenes satélite donde se observaría un aumento anómalo de tráfico rodado en los hospitales. También analizaron las búsquedas en internet sobre el término “diarrea” que sería un síntoma prevalente en la covid19.

Recientemente leímos el siguiente titular: Investigadores de Harvard afirman que el coronavirus ya estaba en China desde agosto de 2019. A pesar de que este estudio ha sido calificado de ridículo por el gobierno Chino, nos ha llamado la atención la forma de hacerlo. Para ello, los autores afirman haber analizado imágenes satélite donde se observaría un aumento anómalo de tráfico rodado en los hospitales. También analizaron las búsquedas en internet sobre el término “diarrea” que sería un síntoma prevalente en la covid19.

Vídeo con la notica en Red+ noticias
Leer más “De como predecir basándonos en google trends mientras leemos el periódico o echamos un ratito de descanso”

COVID-19. La sabiduría de la gente

Nota a 28 de abril de 2020: El 28 de abril el gobierno español anuncia el desconfinamiento escalonado que comenzaría a partir del 4 de mayo, permitiendo la salidas (casi normales) desde el 10 de mayo. Nuestro experimento predijo la salida para el 6 de mayo. Creemos que ha sido una muy buena aproximación. El 13 de abril se publicó un pequeño artículo con un resumen de este proyecto. Tanto el artículo como los datos originales están disponibles el SocArxive: https://osf.io/preprints/socarxiv/rbhy7/

Presentación y justificación:

En estos momentos la incertidumbre de hasta cuando estará confinada la población es otro de los factores que perjudican la salud psicológica de los ciudadanos. Para poder ayudar en este sentido, y aportar nuestro granito de arena, queremos llevar algo de calma si es posible. Para ello, hemos lanzado un sencillo “experimento” social basado en un fenómeno Psicosocial conocido como Sabiduría de los Grupos.

Resultados de la encuesta:

A medida que se tengan resultados, se presentará aquí un pequeño informe sobre los mismos.

Preguntas hechas sólo
para el caso de España
22/03/202023/03/202024/03/202025/03/20202/04/2020
Días de confinamiento
a partir del 16 de marzo:
Media: 47,2 días (mínimo 44 ~ Máximo 50)
Mediana: 45 días
n=123
Media: 49,2 días (48 ~52)
Mediana: 45
n=156
Media: 50,5 días (48 ~53)
Mediana: 45
n=173
Media: 50,3 días (48 ~53)
Mediana: 45
n=195
Media: 51,1 días (49 ~54)
Mediana: 45
n=203
Contagiados:Media: 1.130.000 personas (348793 ~ 1901725)
Mediana: 60.000 personas
n=120
Media: 1.187.987 (751907 ~1994323)
Mediana: 60.000
n=150
Media: 1.103.079 (706084 ~1837144)
Mediana: 70.000
n=165
Media: 988.234 (639065 ~1633867)
Mediana: 80.000
n=188
Media: 954.745 (619636 ~1574382)
Mediana: 80.000
n=196
Fallecimientos:Media: 26.933 personas (2115 ~51751)
Mediana: 5.000 personas
n=88
Media: 22.242 (12288 ~40648)
Mediana: 5.000
n=119
Media: 21.020 (12237 ~37260)
Mediana: 5.000
n=135
Media: 19.482 (11925 ~33455)
Mediana: 6.000
n=157
Media: 19.178 (11987 ~33475)
Mediana: 6.000
n=165
Final de la crisis:Mayo (30.3%) o Junio (24.6%)
n=123
Mayo (25%) o Junio (25%)
n=156
Mayo (25%) o Junio (23.8%)
n=173
Mayo (26.8%) o Junio (23.2%)
n=195
Mayo (26.2%) o Junio (22.3%)
n=203

Acceder al cuestionario pulsando AQUÍ.

Le rogamos que conteste a un sencillo cuestionario que hemos hecho con Google Form. Si no le aparece a continuación, puede acceder al cuestionario pulsando AQUÍ.

<iframe src="https://docs.google.com/forms/d/e/1FAIpQLSfOzOtlhpYBKlOWeQsQEG7pMoLwkxAJmaYfmlCO_PrPZTWNBg/viewform?embedded=true" width="640" height="1517" frameborder="0" marginheight="0" marginwidth="0">Cargando…</iframe>

Información sobre el cuestionario:

  • El resultado indica sólo la opinión de los participantes y por tanto, no tiene ningún valor objetivo.
  • Su participación es voluntaria.
  • Aunque debe identificarse como usuario, los datos no se graban. Es sólo para garantizar que no hay más de una respuesta por persona. Por tanto, su identificación no será grabada y no será utilizada con ninguna finalidad.
  • Los resultados pueden cambiar a medida que aumente la participación, por tanto es importante que esta página web donde se actualizarán los resultados.

Nota técnica:

En las columnas se indican los estadísticos descriptivos de interés obtenidos al final de cada día con los participantes que han contestado (n). El valor medio indica el promedio de las respuestas. Entre paréntesis se ponen el intervalo donde es probable que se encuentre el valor real, a un nivel de confianza del 95% (intervalos de confianza). Se han despreciado los decimales al redactar los máximos y los mínimos de estas estimaciones. La mediana es otro indicador de valor medio que no se ve afectado por respuestas extremas e indica que el 50% de los que responden eligen esa cantidad o una menor. La fecha del final de la crisis se ha señalado tomado el mes o meses más elegidos por los participantes.

Debe tenerse claro que estos resultados proceden de la opinión de los participantes, y que, aunque el fenómeno “sabiduría del grupo” se ha observado en numerosas ocasiones, debe tomarse siempre con mucha precaución y no debe tomarse como una predicción exacta.

Si observa cualquier error u omisión, se ruega contactar con nosotros: solicitudinformaciondesdepaginaweb@uma.es

Más información:

En el siguiente vídeo se explica en qué consiste el fenómeno “sabiduría de los grupos”:

Si quiere más información, puede contactar con nosotros dejándonos un comentario o a través de correo electrónico pulsando AQUí.

Investigación del grupo IDEI HUM-1009 de la Universidad de Málaga

Por la Ciencia Abierta

Big Data: una posible revolución en educación (VIII)

El Big Data y la investigación en Educación

Vamos a dedicar este post a comentar algunos efectos de la aparición del Big Data en la investigación en Educación. Tradicionalmente la investigación educativa, como la investigación en Ciencias Sociales en general, se iniciaba con un objetivo, la redacción de los problemas de investigación y la definición de una serie de hipótesis para cada problema de investigación. El siguiente paso era la recolección de datos que estaban vinculados directamente con esas hipótesis de investigación.

La cantidad de datos solía ser limitada dados los recursos disponibles, desde pocas decenas a algunos miles en los mejores de los casos. Para garantizar la representatividad de los datos se ha desarrollado toda una teoría del muestreo y para tratar de generalizar los resultados existe toda una parte de la estadística dedicada a la inferencia de parámetros.

Además, hay que tener en cuenta que el plateamiento de una investigación suele estar limitado con las posibilidades de acceder a datos para desarrollarla. De esta forma, los objetivos de investigación se determinan no solamente por el interés social, sino también por la capacidad de acceder a los datos y la capacidad de analizarlos.

En definitiva, hasta hace pocas décadas la investigación educativa dejaba de lado cuestiones que le eran innaccesibles aunque interesantes. Por ejemplo, era inviable tener información sobre cómo cientos de alumnos realizaban decenas de tareas académicas, o cómo poblaciones de estudiantes de económicas resolvían supuestos prácticos de microneconomía. Por ejemplo, en el ámbito del rendimiento se limitiaban a estudiar las calificaciones obtenias en pruebas de clase, mientras que los procesos cognitivos se estudiaban sobre muestras de pocos estudiantes, cuyos resultados no se podían generalizar.

Sin embargo, con el Big Data esto ha ambiado. No solamente se pueden buscar respuestas más fiables y válidas a los problemas de investigación habituales, sino que se pueden plantear nuevos objetivos de investigación.

Hay dos impactos radicales que comenzamos a experimentar. Por un lado que no es necesario seguir el proceo objetivo, problema de investigación, hipótesis; y por otro que la teoría del muestreo junto con la de la estimación de parámetros dejan de ser tan relevantes.

En el primer caso, los pasos de objetivo-problema-hipótesis no tienen tanto sentido. Actualmente se puede tomar una base de datos de cientos de miles de estudiantes con cientos de variables y plantearse preguntas a partir de los datos. Es decir, no cosistiría tanto en partir de una duda que surge de la experimentación o de la teorización, como de identificar cuestiones de interés a partir del amasijo de datos recopilados de forma diaria.

Además, este proceso se ve favorecido por algoritmos que permiten identificar patrones en los datos sin necesidad de partir de un supuesto teórico previo. Ya no es obligatorio ir comproabando hipótesis tras hipótesis en una cadena larga y costosa de ensayo-error, sino que es posible desarrollar investigaciones donde las computadoras ensayan con decenas de patrones de forma automática hasta encontrar con alguno que tiene sentido para los investigadores.

Esto tiene importantes implicaciones paradigmáticas. El investigador pierde el control sobre el proceso de descubrimiento. No solamente debe dominar las teorías de su disciplina, sino que debe admitir su ignorancia y ser capaz de identificar hechos relevantes para dicha disciplina entre millones de datos. Debe asumir la indeterminación, la complejidad, la probabilidad como axiomas de su identidad como científico, resignándose a admitir la irrelevancia de su dominio de la disciplina e incluso de los procesos metodológicos.

En segundo lugar, los procesos de muestreo e inferencia pierden protagonismo. Ahora, ya no es indispensable establecer siempre un plan de muestreo que asegure una máxima representatividad con un tamaño muestral mínimo. En cambio, se obtienen millones de datos que representa infinidad de dimensiones de interés. Además, la estimación de parámetros no siempre es necesaria. La cantidad de datos es tan abismal que a veces se está muy cerca de trabajar directamente con los parámetros poblacionales.

Todo esto hace que la propia metodología de investigación en Educación se tenga que actualizar. No consiste en rechazar los procedimientos clásicos, sino en incorporar nuevos procedimiento y enriquecer los procedimientos.

Un estudio hecho por alumnos de Pedagogía de Málaga concluyen que los estudiantes consideran que usan en exceso internet y el móvil

Un estudio realizado por alumnos del Grado de Pedagogía sobre los propios estudiantes de Pedagogía llega a la conclusión de que el alumnado piensa que están demasiado tiempo conectados o pendientes del móvil.

Dentro de las prácticas de la asignatura de Métodos de Investigación del Grado de Pedagogía, un grupo de estudiantes decidió estudiar el uso que sus compañeros realizaban de internet y del móvil. Para ello crearon un pequeño cuestionario y lo pasaron a sus compañeros. Los resultados llevaron a este equipo de jóvenes investigadores, a concluir que los alumnos del grado de Pedagogía consideran que pasan mucho tiempo conectados, tanto a internet como al móvil. Este resultado contrasta con otros estudios donde se afirma que el grado de adicción a internet está alrededor del 6% de la población.

En cualquier caso, no debe confundirse ser adicto a internet con pensar que se está demasiado tiempo conectado. Sin embargo, los resultados de estos estudiantes merece un análisis más profundo sobre cómo perciben los propios jóvenes su relación con las nuevas tecnologías, al margen de la valoración de los expertos.

El estudio puede consultarse en el número dos de la revista conectar (http://conectar. aidesoc.net):

Enlace al artículo AQUÍ.

Imagen: http://alisdiplomado.blogspot.com.es/2012/07/httpwww.html