B. Hay ámbitos masivos en los que este concepto campa a sus anchas -es nombrado con mucha frecuencia- sin que la gente lo conozca adecuadamente. Y además les sirve de justificante para sus malos comportamientos técnicos en dichos ámbitos o campos.
Sí, pero esto no es algo restringido al concepto de varianza. En general, hay gente que utiliza la estadística a sus anchas, y se aprovechan de que gran parte de la población no sabe nada de estadística para engañarlas o decir medias verdades. Más exagerado aún es en el caso de "inteligencia artificial". ¿Cuánta gente habla hoy en día de "el algoritmo" o "los algoritmos", sin tener ni idea de qué es eso?
C. ¿Su comprensión es fácilmente intuitiva? ¿Y su análisis, es intuitivo asimismo? ¿Cómo se debe valorar el resultado de Varianza obtenido?
Es relativamente sencilla. Dado un conjunto de medidas u observaciones, \[ x_1, \dots, x_n \], puedes usar la media \[ \bar{x} \] como una "medida de posición", es decir, un número que te dice más o menos dónde están centradas las observaciones. Pero claro, los números pueden estar muy concentrados en torno a la media (en cuyo caso la media va a ser muy informativa) o muy dispersos (en cuyo caso el valor informativo de la media disminuye, porque una nueva observación puede quedar muy lejos de ella).
Se impone pues la necesidad de encontrar una medida que cuantifique la "dispersión" de las observaciones entorno a su media. Para ello surge la varianza. La idea es primero calcular la dispersión individual (cómo de lejos está una observación de su media), que es la resta \[ x_i - \bar{x} \], y luego tomar una medida resumen de las dispersiones individuales. Como medida resumen obvia, se toma la media. Problema: como \[ x_i - \bar{x} \] pueden ser positivas y negativas, al hacer la media se pueden cancelar. Entonces puedes tener situaciones absurdas como unas medidas \[ -1000, 0, 1000 \] en que la media de las dispersiones individuales es cero. Para solucionar esto, se toma primero el cuadrado de las medidas de dispersión individuales (de manera que se hacen positivas) y después se toma la media.
¿Por qué al cuadrado y no, por ejemplo, tomar el valor absoluto? Bueno, hay varios motivos. Lo primero que hay que tener claro es que puedes tomar el valor absoluto, y tendrás otra medida de dispersión perfectamente válida. Lo de usar normalmente la varianza no deja de ser una convención, que puede ir muy bien en algunas situaciones y no tanto en otras.
El motivo principal de elevar al cuadrado probablemente sea histórico. El cuadrado tiene propiedades muy buenas que no tiene el valor absoluto. Por ejemplo, es una función diferenciable. De modo que a la hora de hacer cálculos a mano, usar cuadrados es mucho más práctico que usar valores absolutos. El hecho de que sea diferenciable también permite usar más arsenal matemático a la hora de manipularlo. En un tiempo en que todos los cálculos se hacían a mano esto era esencial. Con el poder de computación que hay ahora ya no tanto.
Otro motivo teórico muy importante es que la varianza es la medida de dispersión natural asociada a la distribución normal o gaussiana. Hay un teorema de probabilidad (el teorema central del límite) que, en cierta manera (aunque esto es discutible), te asegura que la mayoría de distribuciones aleatorias que se observan en la realidad siguen una distribución normal. Esta distribución viene caracterizada por dos números: que son su media y su varianza. De manera que si tienes una serie de observaciones que en realidad siguen una distribución normal, con saber media y varianza ya sabes todo lo que hay que saber sobre ellas.
Otra observación importante, pero menor, es que tomar el cuadrado penaliza más los errores grandes. Está claro que en muchas situaciones esto es muy deseable.
Sobre la interpretación. Como decía
feriva, lo que se debe interpretar más que la varianza es la desviación típica, \[ \sigma \]. Tomar el cuadrado tiene varias ventajas, como hemos visto, pero una desventaja importante es que cambia la unidad de medida. Si las medidas originales son longitudes tomadas en metros, por ejemplo, la varianza viene medida en \( m^2 \). Por ello la medida comparable es la raíz cuadrada de la varianza, que es la desviación típica. Esta es la que te da una idea de la dispersión de los datos.
¿Cómo se debe interpretar la desviación típica, aparte de como pura medida de dispersión? ¿Qué información te proporciona? Hay una regla mut útil siempre que los datos sigan una distribución normal. En ese caso, la interpretación es que, si seguimos tomando datos sin parar, en el intervalo \[ (\bar{x}-\sigma, \bar{x}+\sigma) \] van a caer aproximadamente el 68% de los datos, en \[ (\bar{x}-2\sigma, \bar{x}+2\sigma) \] van a caer el 95% de los datos, y en \[ (\bar{x}-3\sigma, \bar{x}+3\sigma) \] van a caer el 99% de los datos. Esto da una idea mucho más cuantitativa de qué nos está diciendo la desviación típica.
D. Parece que, dado un campo complejo -por ejemplo, el balonmano-, se debe hacer un específico estudio, previo, para poder extraer varios valores de distintas Varianzas -según se apliquen a unos u otros parámetros-, y por lo tanto no se puede decir que "el balonmano tenga mucha o poca Varianza", sino definir concretamente los parámetros sobre los que aplicar el análisis de Varianza. ¿Este punto D es preciso?
Sí. "El balonmano tiene mucha varianza" es una frase que no tiene ningún sentido. La varianza es una cantidad asociada a una serie de medidas u observaciones (o a una distribución de probabilidad). Por tanto, lo primero es ver qué estamos midiendo. Sí puedes decir que "el número de goles de tal equipo a lo largo de la temporada" tiene mucha o poca varianza, por ejemplo.
E. ¿Por qué hay, precisamente, una elevación "al cuadrado" de las diferencias de valores -entre el obtenido y la media-, y no otra modificación distinta al cuadrado? ¿Esta elevación al cuadrado es "típica" en la Matemática en otros casos conocidos?
Esto está más o menos contestado en C.
F. ¿Por qué se usa la Varianza en vez de otra medida de dispersión más natural y fácilmente interpretable?
También contestado en C, pero ¿qué medida de dispersión te parece más natural y fácilmente interpretable? ¿Tienes alguna concreta en mente?