Inicio Discusiones Estadística Datos univariados y datos bivariados

Datos univariados y datos bivariados

Explica la diferencia entre datos univariados y datos bivariados.

Estudiante:  ¿Qué son datos bivariados?

Mentor: Datos bivariados son datos que involucran dos variables distintas cuyos valores pueden cambiar. Los datos bivariados tratan con relaciones entre estas dos variables; su propósito es analizar y explicar tales relaciones. 

Estudiante: ¿Todos los datos son bivariados?

Mentor: En realidad, algunos datos tienen sólo una variable. Por ejemplo, si fuéramos a estudiar las edades de todos los estudiantes de un colegio y a graficar los datos, habría solamente una variable, la edad de los estudiantes. Esta clase de datos se conoce como datos univariados y no trata con relaciones sino que se usa para describir algo. En este ejemplo los datos univariados se usan para expresar las edades de los estudiantes del colegio. 

Estudiante: OK, ¿entonces los datos univariados no tratan con relaciones entre dos cosas en tanto que los datos bivariados sí? 

Mentor: Sí, y puesto que se trata de clases diferentes de datos, hay formas distintas de organizarlos y examinarlos.

Estudiante: ¿Qué significa "organizar" y "examinar" los datos?

Mentor: Bueno, por ejemplo, puesto que los datos univariados tienen solamente una variable, estaríamos interesados en resumir información para esta única variable. La descripción de la extensión de los datos es algo que nos ayudaría a comprenderlo mejor. La extensión de los datos incluye el rango, la mediana, cuartiles superior e inferior que dividen los datos en cuatro tamaños iguales, valor máximo y valor mínimo. ¿En qué forma consideras que comprender la extensión sería útil en el ejemplo que te dí sobre hallar las edades de los estudiantes de un colegio? 

Estudiante: Bueno, si conociéramos las edades menor y mayor de los estudiantes del colegio entonces tendríamos una idea de las edades de todos los estudiantes  puesto que la edad de cada uno sería un valor entre esas dos o una de ellas.

Mentor: Exactamente. También es usual hallar la media, la mediana y la moda de conjuntos de datos univariados para comprenderlos mejor. La forma de representar graficamente los datos univariados también difiere de aquella para los datos bivariados. Si quisiéramos expresar un conjunto de datos univariados ¿qué clases de representaciones y gráficas piensas que podríamos usar?

Estudiante: Bueno, si hallar la media, los cuartiles y el rango nos ayuda a entender los datos entonces un diagrama de cajas podría ser útil de tal manera que pudiéramos representar claramente esa información. Sin embargo, una caja y un diagrama de bigotes mostrarían  solamente la relación de los datos en conjunto. Si quisiéramos comparar el número de estudiantes de cada edad con el número de estudiantes de otras edades  serían más útiles un diagrama de barras o un diagrama de torta.

Mentor: ¡Sí! Esas son diversas maneras de representar información univariada. Cambiemos ahora a datos bivariados. Puesto que estos incluyen dos variables y se acostumbra examinar la relación entre estas variables, ¿cómo consideras que podríamos organizar y examinar los datos?
 ¿Cómo organizarías los datos si una variable representa el número de horas que estudiaste para un test y la otra variable representa la calificación que obtuviste? 

Estudiante: Bueno, posiblemente podría hacer una tabla de dos filas. En la fila superior podría registrar el número de horas estudiadas y en la inferior las calificaciones obtenidas, así:

Horas que estudié para el test
Calificación que obtuve

De esta manera podría ver si hay alguna relación entre las variables de la segunda fila a medida que las variables de la primera fila aumentan. De hecho, podría graficar esto en un plano coordenado si llamo x a una variable y y a la otra. Si guardé los datos de cuántas horas estudié para el test, comparadas con la calificación que obtuve, obtendría un resultado como el siguiente conjunto de datos: {(3 horas, 90) (1 hora, 82) (6 horas, 97) (0 horas, 75)}.

Mentor: Buen trabajo. Pensaste tanto en un forma visual como en una forma numérica de organizar y examinar datos bivariados. Definitivamente, ambas ideas podían ayudarte a entender los datos en un conjunto bivariado. De hecho, el diagrama que describiste se usa frecuentemente para establecer una relación entre datos. Se llama un diagrama de dispersión. Si quisieras explorar más en un conjunto de datos bivariados podrías usar la actividad de Regresión para observar la correlación. Bueno, hemos acumulado una cantidad de información. ¿Puedes resumir cuáles son las diferencias que aprendimos entre datos univariados y bivariados?

Estudiante: OK, aprendimos que los datos bivariados tienen dos variables y los datos univariados una variable. También aprendimos que los datos bivariados conllevan relaciones entre dos variables, en tanto que los datos univariados describen una única variable. También discutimos que la información que podríamos extraer de los datos bivariados sería sobre la correlación entre variables, mientras que la información extraida de datos univariados seria sobre su distribución, por ejemplo el rango y la media. Finalmente, consideramos que los datos univariados se pueden representar de diferentes maneras,  como diagrama de barras, diagrama de caja o de bigotes, mientras que los datos bivariados se representan frecuentemente en un diagrama de dispersión. En resumen, nos dimos cuenta de que hay muchas diferencias entre datos bivariados y datos univariados.