Autor Tema: Varianza: mi intento de comprensión, uso y análisis, en casos reales.

0 Usuarios y 1 Visitante están viendo este tema.

22 Abril, 2022, 02:55 am
Leído 93 veces

C. Enrique B.

  • $$\Large \color{#c88359}\pi\,\pi\,\pi\,\pi$$
  • Mensajes: 566
  • País: es
  • Karma: +0/-0
    • Mi página en WikiPedia.
.
A. No solicito una ayuda especial, sólo algún comentario de corrido -salvo, por supuesto, que a alguien le agrade tratar este tema ampliamente-.

B. Hay ámbitos masivos en los que este concepto campa a sus anchas -es nombrado con mucha frecuencia- sin que la gente lo conozca adecuadamente. Y además les sirve de justificante para sus malos comportamientos técnicos en dichos ámbitos o campos.

C. ¿Su comprensión es fácilmente intuitiva? ¿Y su análisis, es intuitivo asimismo? ¿Cómo se debe valorar el resultado de Varianza obtenido?

D. Parece que, dado un campo complejo -por ejemplo, el balonmano-, se debe hacer un específico estudio, previo, para poder extraer varios valores de distintas Varianzas -según se apliquen a unos u otros parámetros-, y por lo tanto no se puede decir que "el balonmano tenga mucha o poca Varianza", sino definir concretamente los parámetros sobre los que aplicar el análisis de Varianza. ¿Este punto D es preciso?

E. ¿Por qué hay, precisamente, una elevación "al cuadrado" de las diferencias de valores -entre el obtenido y la media-, y no otra modificación distinta al cuadrado? ¿Esta elevación al cuadrado es "típica" en la Matemática en otros casos conocidos?

F. ¿Por qué se usa la Varianza en vez de otra medida de dispersión más natural y fácilmente interpretable?
.
-- FALTAN LAS MUJERES en muchos ámbitos sociales. Yo no me siento perteneciente al bando masculino; soy del bando de las personas. Chicas, manifestáos; no concibo charlar sobre un tema si no estáis vosotras: es impropio, casi absurdo.

22 Abril, 2022, 07:59 am
Respuesta #1

feriva

  • $$\Large \color{#a53f54}\pi\,\pi\,\pi\,\pi\,\pi\,\pi\,\pi$$
  • Mensajes: 10,178
  • País: es
  • Karma: +1/-0
  • Sexo: Masculino
Hola, Enrique.

Pues comento, por comentar, que sé poco de esto.
Primero hay que entender lo que es la desviación típica. Si, por ejemplo, de 20 coches que van con destino a cierto sitio (a la tienda, a la estación de trenes... donde sea) 5 de ellos, por término medio, se equivocan de camino cada cierto tiempo, estamos hablando de una media: no es que se equivoquen siempre exactamente cinco, sino más o menos. Dentro de ese termino medio, un día pueden equivocarse más y otros menos. Pero si todos los días se equivocaran con exactitud 5 coches de esos 20, siempre 5 exactamente, la media sería, digamos, un dato exacto; es decir, no existiría desviación respecto de la media; o podríamos decir que la desviación típica es cero. ¿Qué será lo típico en ese caso? Pues eso, lo típico será, en dicho caso, que nadie se salga de ese comportamiento, nadie en absoluto.

Si la media es 5 y un día se desvía a 4 coches que se equivocan, nada más cuatro, al restar 4-5 sale negativo, entonces estas sumas (que suponen la suma de las sumas, con todos los datos de cada desviación particular según los días) se elevan al cuadrado para que no dé negativo; y se divide de todos los datos “n” (los coches ésos, por poner un caso, que son 20 en el ejemplo Sería la cantidad de días, perdón).

Y una vez hecho esto (ya hemos evitado que salgan negativos con el cuadrado) se halla la raíz cuadrada. Pero si no hallamos la raíz cuadrada, entonces ese dato es precisamente la varianza; y tiene esa identidad dentro de la cuenta de la desviación (y varias utilidades añadidas) pero sólo es un nombre que se le da, “varianza”. El concepto más claro, “visible”, es el de desviación típica (o estándar también llamada).

Una cosa aquí

Citar
B. Hay ámbitos masivos en los que este concepto campa a sus anchas -es nombrado con mucha frecuencia- sin que la gente lo conozca adecuadamente. Y además les sirve de justificante para sus malos comportamientos técnicos en dichos ámbitos o campos.

No estoy seguro de con qué sentido dices esa frase que marco en rojo. Pero si te refieres a que la existencia de la desviación típica (o su cuadrado, la varianza) implica un grado de imperfección, de chapucería, respecto del comportamiento de las personas... pienso que no tiene que ver. El ser humano no es perfecto, como pasa con casi todo en la naturaleza; no es un “reloj” ni sería bueno que lo fuera. Cosa distinta a la perfección es la exactitud, que sí es buena en cuanto a algunas actividades, como las matemáticas.

Saludos.

22 Abril, 2022, 08:58 am
Respuesta #2

geómetracat

  • Moderador Global
  • Mensajes: 3,140
  • País: es
  • Karma: +0/-0
  • Sexo: Masculino
B. Hay ámbitos masivos en los que este concepto campa a sus anchas -es nombrado con mucha frecuencia- sin que la gente lo conozca adecuadamente. Y además les sirve de justificante para sus malos comportamientos técnicos en dichos ámbitos o campos.
Sí, pero esto no es algo restringido al concepto de varianza. En general, hay gente que utiliza la estadística a sus anchas, y se aprovechan de que gran parte de la población no sabe nada de estadística para engañarlas o decir medias verdades. Más exagerado aún es en el caso de "inteligencia artificial". ¿Cuánta gente habla hoy en día de "el algoritmo" o "los algoritmos", sin tener ni idea de qué es eso?

Citar
C. ¿Su comprensión es fácilmente intuitiva? ¿Y su análisis, es intuitivo asimismo? ¿Cómo se debe valorar el resultado de Varianza obtenido?
Es relativamente sencilla. Dado un conjunto de medidas u observaciones, \[ x_1, \dots, x_n \], puedes usar la media \[ \bar{x} \] como una "medida de posición", es decir, un número que te dice más o menos dónde están centradas las observaciones. Pero claro, los números pueden estar muy concentrados en torno a la media (en cuyo caso la media va a ser muy informativa) o muy dispersos (en cuyo caso el valor informativo de la media disminuye, porque una nueva observación puede quedar muy lejos de ella).
Se impone pues la necesidad de encontrar una medida que cuantifique la "dispersión" de las observaciones entorno a su media. Para ello surge la varianza. La idea es primero calcular la dispersión individual (cómo de lejos está una observación de su media), que es la resta \[ x_i - \bar{x} \], y luego tomar una medida resumen de las dispersiones individuales. Como medida resumen obvia, se toma la media. Problema: como \[ x_i - \bar{x} \] pueden ser positivas y negativas, al hacer la media se pueden cancelar. Entonces puedes tener situaciones absurdas como unas medidas \[ -1000, 0, 1000 \] en que la media de las dispersiones individuales es cero. Para solucionar esto, se toma primero el cuadrado de las medidas de dispersión individuales (de manera que se hacen positivas) y después se toma la media.

¿Por qué al cuadrado y no, por ejemplo, tomar el valor absoluto? Bueno, hay varios motivos. Lo primero que hay que tener claro es que puedes tomar el valor absoluto, y tendrás otra medida de dispersión perfectamente válida. Lo de usar normalmente la varianza no deja de ser una convención, que puede ir muy bien en algunas situaciones y no tanto en otras.

El motivo principal de elevar al cuadrado probablemente sea histórico. El cuadrado tiene propiedades muy buenas que no tiene el valor absoluto. Por ejemplo, es una función diferenciable. De modo que a la hora de hacer cálculos a mano, usar cuadrados es mucho más práctico que usar valores absolutos. El hecho de que sea diferenciable también permite usar más arsenal matemático a la hora de manipularlo. En un tiempo en que todos los cálculos se hacían a mano esto era esencial. Con el poder de computación que hay ahora ya no tanto.

Otro motivo teórico muy importante es que la varianza es la medida de dispersión natural asociada a la distribución normal o gaussiana. Hay un teorema de probabilidad (el teorema central del límite) que, en cierta manera (aunque esto es discutible), te asegura que la mayoría de distribuciones aleatorias que se observan en la realidad siguen una distribución normal. Esta distribución viene caracterizada por dos números: que son su media y su varianza. De manera que si tienes una serie de observaciones que en realidad siguen una distribución normal, con saber media y varianza ya sabes todo lo que hay que saber sobre ellas.

Otra observación importante, pero menor, es que tomar el cuadrado penaliza más los errores grandes. Está claro que en muchas situaciones esto es muy deseable.

Sobre la interpretación. Como decía feriva, lo que se debe interpretar más que la varianza es la desviación típica, \[ \sigma \]. Tomar el cuadrado tiene varias ventajas, como hemos visto, pero una desventaja importante es que cambia la unidad de medida. Si las medidas originales son longitudes tomadas en metros, por ejemplo, la varianza viene medida en \( m^2 \). Por ello la medida comparable es la raíz cuadrada de la varianza, que es la desviación típica. Esta es la que te da una idea de la dispersión de los datos.
¿Cómo se debe interpretar la desviación típica, aparte de como pura medida de dispersión? ¿Qué información te proporciona? Hay una regla mut útil siempre que los datos sigan una distribución normal. En ese caso, la interpretación es que, si seguimos tomando datos sin parar, en el intervalo \[ (\bar{x}-\sigma, \bar{x}+\sigma) \] van a caer aproximadamente el 68% de los datos, en  \[ (\bar{x}-2\sigma, \bar{x}+2\sigma) \] van a caer el 95% de los datos, y en  \[ (\bar{x}-3\sigma, \bar{x}+3\sigma) \] van a caer el 99% de los datos. Esto da una idea mucho más cuantitativa de qué nos está diciendo la desviación típica.

Citar
D. Parece que, dado un campo complejo -por ejemplo, el balonmano-, se debe hacer un específico estudio, previo, para poder extraer varios valores de distintas Varianzas -según se apliquen a unos u otros parámetros-, y por lo tanto no se puede decir que "el balonmano tenga mucha o poca Varianza", sino definir concretamente los parámetros sobre los que aplicar el análisis de Varianza. ¿Este punto D es preciso?
Sí. "El balonmano tiene mucha varianza" es una frase que no tiene ningún sentido. La varianza es una cantidad asociada a una serie de medidas u observaciones (o a una distribución de probabilidad). Por tanto, lo primero es ver qué estamos midiendo. Sí puedes decir que "el número de goles de tal equipo a lo largo de la temporada" tiene mucha o poca varianza, por ejemplo.

Citar
E. ¿Por qué hay, precisamente, una elevación "al cuadrado" de las diferencias de valores -entre el obtenido y la media-, y no otra modificación distinta al cuadrado? ¿Esta elevación al cuadrado es "típica" en la Matemática en otros casos conocidos?
Esto está más o menos contestado en C.

Citar
F. ¿Por qué se usa la Varianza en vez de otra medida de dispersión más natural y fácilmente interpretable?
También contestado en C, pero ¿qué medida de dispersión te parece más natural y fácilmente interpretable? ¿Tienes alguna concreta en mente?
La ecuación más bonita de las matemáticas: \( d^2=0 \)