Autor Tema: Invoco a Héctor Manuel para un breve diálogo de Estadística

0 Usuarios y 1 Visitante están viendo este tema.

12 Junio, 2015, 09:44 pm
Leído 3565 veces

Piockñec

  • Héroe
  • Mensajes: 1,259
  • Karma: +1/-0
  • Sexo: Masculino
El título es llamativo para llamar la atención de Héctor Manuel y de todos los cotillas del conocimiento :D

Después de leer:
Cita de Héctor Manuel
Trabajo en el Instituto Nacional de Estadística y Geografía (INEGI) de México, y créeme que lo que menos usamos son fórmulas (la GRAN mayoría de las fórmulas y métodos que se enseñan en la universidad no sirven en la realidad).
[cerrar]

Y leer luego:

Otra cita de Héctor Manuel
Yo creo que más allá de la explicación, es un hecho innegable que los mensajes de Inferencia Estadística son los que menos respuestas reciben en el foro. ¿No?.
jejeje pues no he visto la estadística sobre eso. Pero hablando en serio, en lo personal no participo mucho en esos temas dada la "artificialidad" de muchos de ellos. A lo que me refiero con esto es que son ejercicios de academia (ojo: no digo que sean sencillos ni mucho menos) y mi tendencia los últimos años, en cuanto a matemática aplicada se refiere, es trabajar en problemas "reales" (justo como lo que hago en mi trabajo).
[cerrar]

no puedo evitar arder en curiosidad y preguntarme... ¿Qué? :D
Se me han enseñado las distribuciones de probabilidad (binomial, Poisson...), lo maravilloso de la distribución normal, los intervalos de confianza y contraste de hipótesis, y el ajuste de curvas, que eso ya se mezcla con Análisis.
¿A qué tipo de problemas te dedicas? ¿Utilizas recursos avanzados como en mecánica estadística, con ecuaciones diferenciales de variables aleatorias y otras locuras parecidas? ¿O por el contrario simplemente trabajas con nubes de datos y vas deduciendo distintos indicadores conforme deseas obtener una u otra información?
En una sola pregunta:
Así como tras la teoría de ecuaciones diferenciales ordinarias y el análisis vectorial, se esconde un universo maravilloso de ecuaciones en derivadas parciales, métodos numéricos, optimización, cálculo variacional...

¿Qué es lo que hay más allá de lo que se suele saber y hacer en la estadística "académica", sino en tu realidad diaria? :)

Si no te importa contestar, claro. ¡Es que es la primera vez que conozco a alguien que usa la estadística con conocimiento de causa, y tengo muchas expectativas! :D siempre me ha parecido una ciencia que tiene mucho que ofrecer, pero no ha habido libro/profesor que pudiera ofrecerme nada más que "métodos", "indicadores" y, en definitiva, "fórmulas", y no una visión holística de la estadística.

¡¡¡Muchas gracias!!!

12 Junio, 2015, 11:39 pm
Respuesta #1

Héctor Manuel

  • Lathi
  • Mensajes: 3,631
  • Karma: +0/-0
  • Sexo: Masculino
El título es llamativo para llamar la atención de Héctor Manuel y de todos los cotillas del conocimiento :D

jajaja pues sí que lo conseguiste.

Primero que nada comenzaré con un matiz: me estoy refiriendo a la Estadística. No a la Probabilidad.

Trabajo en el Instituto Nacional de Estadística y Geografía (INEGI) de México, y créeme que lo que menos usamos son fórmulas (la GRAN mayoría de las fórmulas y métodos que se enseñan en la universidad no sirven en la realidad).

Explicaré este punto. Más allá de lo que en un curso de Estadística se enseña, la realidad es muy distinta. En INEGI, me dedico a calcular índices de seguridad pública (conteo de delitos, conteo de víctimas de delito, etc.). Si llegas a leer esos datos, observarás que hacemos referencia a índices a nivel nacional.

Un error común entre el gran grueso de la gente consiste en interpretar una frase como

"En 2014, el porcentaje de jóvenes de 12 a 29 años de edad que manifestó tener un amigo con problemas al interior del hogar es el 61.62%"

como "el 61.62% de los jóvenes de 12 a 29 años de edad encuestados manifestó...". Notas la diferencia? De hecho, estos porcentajes (el índice del que hablo en el primer enunciado y el porcentaje que menciono en el segundo) difícilmente son iguales (en general, son parecidos, precisamente por la Ley de los Grandes Números, pero casi nunca son iguales).

Como trabajo con encuestas, el primer problema que se me presenta es cómo lograré hacer la inferencia de los resultados de las entrevistas hacia el nivel nacional. Máxime si tomas en cuenta que mi capacidad de hacer entrevistas no superará las 100,000 encuestas. Es decir, a lo más pued o entrevistar a 100,000 personas y debo hacer inferencia a un país de 120,000,000 de habitantes.

Otro problema al que me enfrentaré es el diseño de la muestra. Debo elegir aleatoriamente las viviendas y hogares que visitaré. Pero no se trata de elegir pelotitas de una caja, ya que es una caja muy grande. El problema en realidad aquí será que la delincuencia y los factores de riesgo que la generan varían en función de cada zona en el país, de modo que si pienso sacar bolitas de una urna, las varianzas de los índices registrados se me dispararán, de modo que mis estimaciones serán muy malas.

Un tercer problema será el grado de confianza que tendrán mis estimaciones, de modo que necesito un criterio para decidir si se trata de una estimación cuantitativa o únicamente cualitativa (es decir, si mi estimación es, por ejemplo, un número cercano a 0 y mi criterio establecido me dice que es una mala estimación, entonces lo único que puedo decir es algo como "este índice es muy bajo", lo cual es una propiedad cualitativa y no cuantitativa).

Todo esto se aborda con Teoría de Muestreo, la cual, por desgracia, es una área de las matemáticas muy retrasada (su aparición formal data de los años 40 del siglo pasado).

Como verás, en todo este desglose del problema, lo único "académico" que mencioné fue la Ley de los Grandes Números. Lo demás es una mezcla de métodos heurísticos con algunos pocos teoremas.

Saludos.

12 Junio, 2015, 11:49 pm
Respuesta #2

Piockñec

  • Héroe
  • Mensajes: 1,259
  • Karma: +1/-0
  • Sexo: Masculino
Qué bien, qué detallado!!! Muchísimas gracias por tu respuesta!!! :D

La verdad es que suena complicadíííísimo... me resulta hasta extraño que podáis sacar conclusiones, sobre todo en temas tan peliagudos como la delincuencia, porque ahí me huelo que no habrá tanta tendencia a decir la verdad en comparación a encuestas que versen sobre cuánto mides de alto... dificultades y aleatoriedades añadidas...

Un error común entre el gran grueso de la gente consiste en interpretar una frase como

"En 2014, el porcentaje de jóvenes de 12 a 29 años de edad que manifestó tener un amigo con problemas al interior del hogar es el 61.62%"

como "el 61.62% de los jóvenes de 12 a 29 años de edad encuestados manifestó...". Notas la diferencia?

jeje me pillaste :D pero he entendido tu explicación :)

¡Pues es interesantísimo lo que cuentas! Si algún día quiero indagar más, ya sé la palabra mágica: Teoría de muestreo ;)
¡Muchas gracias!


Edito: Me ha surgido una duda con lo que me has comentado.

Supón que lo logras. Que consigues dar con el dato exacto. O, bueno, una estimación buena de lo que hay en todo México gracias a tus reglas heurísticas...
...¿Cómo podrías saberlo, si tu única herramienta para descubrir la verdad es la estadística? Es decir, no veo forma de comprobar resultados :( Tan sólo seguir muestreando y viendo si, estadísticamente, se van cumpliendo tus resultados (estadísticamente a lo Laplace... conforme la muestra tiende a infinito converge a la verdad...)

13 Junio, 2015, 12:31 am
Respuesta #3

Héctor Manuel

  • Lathi
  • Mensajes: 3,631
  • Karma: +0/-0
  • Sexo: Masculino

Edito: Me ha surgido una duda con lo que me has comentado.

Supón que lo logras. Que consigues dar con el dato exacto. O, bueno, una estimación buena de lo que hay en todo México gracias a tus reglas heurísticas...
...¿Cómo podrías saberlo, si tu única herramienta para descubrir la verdad es la estadística? Es decir, no veo forma de comprobar resultados :( Tan sólo seguir muestreando y viendo si, estadísticamente, se van cumpliendo tus resultados (estadísticamente a lo Laplace... conforme la muestra tiende a infinito converge a la verdad...)

En particular en INEGI usamos un criterio conocido como coeficiente de variación, el cual se define como la desviación estándar entre la estimación.  Si es un número próximo a 0, damos por buena la estimación. En caso contrario, consideramos la estimación para ser usada únicamente para hacer inferencias cualitativas y no cuantitativas. La "pequeñez" de este número, es decir, el criterio que se usa para establecer si es un número próximo a 0, es usualmente decir "si el CV está entre 0 y 0.15, la estimación es buena. Si está entre 0.15 y 0.25, la estimación es casi buena. Si es mayor a 0.25, la estimación es mala".

Imagino que tal vez pensabas en pruebas de hipótesis, pero al menos en mi equipo de trabajo no las utilizamos. Si acaso de vez en cuando usamos Series de tiempo, y efectivamente, las gráficas correspondientes a cada año son cualitativamente iguales (es decir, sus formas se parecen mucho).

No obstante habrán delitos que difícilmente se captarán con buena precisión. Por ejemplo secuestros, violaciones sexuales y otros de naturaleza grave. Esto es inevitable, dado que presentan índices bajos en comparación con otros delitos como robos y fraudes, y frecuentemente presentan coeficientes de variación altos. No nos preocupamos mucho por ello, ya que en ese sentido, los registros policiacos son más confiables que la inferencia estadística (es mucho mayor el porcentaje de secuestros y violaciones que se denuncian ante las autoridades que el de robos, fraudes, extorsión, amenazas, etc).

La gran ventaja de captar toda esta información con encuestas es que en los métodos probabilísticos (y de nuevo, hago hincapié: dije probabilísticos, no estadísticos) hay control del error (teoremas tipo desigualdad de Chevyshev).

 

13 Junio, 2015, 12:39 am
Respuesta #4

Héctor Manuel

  • Lathi
  • Mensajes: 3,631
  • Karma: +0/-0
  • Sexo: Masculino
Ahora bien, otra situación diferente a la academia es el uso de distribuciones de probabilidad. En la realidad no sabes la distribución teórica de los delitos o de las víctimas. En este sentido, por ejemplo, se vuelve imposible el uso de estimadores de máxima verosimilitud, ya que estos necesitan forzosamente del conocimiento de la distribución de las variables aleatorias.

Cómo se compensa esto? El Teorema del Límite Central nos dice que los promedios se comportan como normales, y el estimador de máxima verosimilitud de una muestra extraída de una v.a. normal es precisamente la media muestral. Luego, tampoco me preocupo por no conocer la distribución teórica de los delitos ni de las víctimas.

Un documento que quizá pueda interesarte se encuentra en http://www.inegi.org.mx/est/contenidos/proyectos/encuestas/hogares/regulares/envipe/envipe2014/default.aspx

Busca en Documentos Conceptuales la Síntesis metodológica de esa encuesta. Verás cuáles son las fórmulas que se ocupan, e intenta compararlas con las que se enseñan en la escuela. Verás que no son las mismas. Esto debido a todas las razones que te he expuesto. Y aún así, eso de "usar" no es del todo cierto, ya que no aplicamos "humanamente" las fórmulas. Estas ya vienen preprogramadas en el software R.

Saludos.
 

13 Junio, 2015, 04:36 am
Respuesta #5

Héctor Manuel

  • Lathi
  • Mensajes: 3,631
  • Karma: +0/-0
  • Sexo: Masculino
:( Tan sólo seguir muestreando y viendo si, estadísticamente, se van cumpliendo tus resultados (estadísticamente a lo Laplace... conforme la muestra tiende a infinito converge a la verdad...)

Ojo: eso no se puede hacer.  Me interesa el dato anualmente. De un año a otro pueden haber grandes variaciones en la población: tamaño de la población, alguna recesión económica, etc. Por lo cual no puedo esperar estabilidad del total de víctimas a lo largo de los años.

Sumado a eso, en un mismo año no puedo levantar la encuesta varias veces dado que eso sería carísimo. Ningún gobierno podría costearlo.

En cualquier caso lo que puedo hacer es considerar el cambio de un índice año tras año como un proceso estocástico del cual no conoceré las distribuciones finitodimensionales, por lo cual tendré una serie de tiempo de la que casi no sabré nada. Y para empeorar las cosas, las encuestas de victimización en México comenzaron seriamente en 2011, así que tendré una serie de tiempo con solo 4 datos!!!

Y aún así, con esas dificultades, el equipo de trabajo al que pertenezco es uno de los mejores tres del mundo en su área, junto con EEUU e Inglaterra. Somos 11 matemáticos de distintas áreas (topología, algebristas, criptografía, mi jefe es de ecuaciones diferenciales y en lo personal yo soy cuántico).

Saludos.

Pd: El éxito de este trabajo se debe realmente a la variedad de áreas en las que nos especializamos. Por ejemplo, una vez tuve que analizar la veracidad de una base de datos ENORME. Lo hice con técnicas de análisis funcional.

08 Agosto, 2015, 11:43 pm
Respuesta #6

Piockñec

  • Héroe
  • Mensajes: 1,259
  • Karma: +1/-0
  • Sexo: Masculino
Héctor, dos meses más tarde te respondo...
Siento muchísimo haber respondido tan tarde, justo entonces presentaba mi trabajo de fin de grado, y luego he estado de viaje por los Estados Uníos y acabo de volver. Aprecié mucho, y aprecio, el esmero de tu respuesta :)

Sólo queria agradecértelo, me parece sinceramente apasionante, eso último de la multidisciplinariedad de la estadística no me lo esperaba en absoluto, es maravilloso. A mí no me gusta la estadística por desconocimiento, todo lo que encuentro son libros de fórmulas, o que llegan a niveles bastante básicos. O a lo mejor no es tan básico, pero la exposición no está motivada muchas veces. Aunque en mi facultad tan solo hay unos pocos de libros, y en la facultad de enfrente hay recetarios con métodos más amplios... pero no dejan de ser recetarios. Supongo que sucede como en el campo de los métodos numéricos, que libros de recetas o con explicaciones escuetas y poco análisis crítico los hay a patadas...

Mil gracias por abrirme otro mundo ;)