domingo, junio 21, 2015

Cómo analizar datos estadísticos
 6  claves para saber cuándo puedes fiarte de las  estadísticas 

                                                                                                                                                                                                                                                                                                                              El País.com           José  Ángel Murcia 

El 100% de estos consejos son útiles para interpretar datos estadísticos.

Cuando abres una web o un periódico te encuentras con números, proporciones, ratios, coeficientes y probabilidades. En general es saludable que te hagas preguntas y desconfíes, aunque los malos usos de la estadística no son fruto de una conspiración para manipularte -no siempre.
    
Lo más probable es que provengan de la dejadez, de un error o de puro desconocimiento. Te presentamos a continuación varias razones para que aumente tu nivel de escepticismo.

1. La media no siempre nos ayuda a entender lo que ocurre

Empecemos por el centro. Cuando hay muchos datos en un estudio nos viene muy bien conocer un dato central, una medida de “por dónde van las cosas” para poder trabajar. El salario medio, la nota media, el precio de la tele de plasma media… Un representante que nos haga saber rápidamente a qué nos enfrentamos.

Estamos habituados a usar la media como valor esperado, razonable, o deseado de un conjunto de datos. Por ejemplo, si en un examen saqué un 6 y en el otro un 8, y los dos eran igual de importantes parece razonable que la nota final sea (6+8)/2, un 7, la media ¿verdad? Pero seguro que si hoy yo me he comido un pollo entero al mediodía y tú no te has comido ninguno, decir que en media cada uno nos hemos comido medio pollo no es lo más razonable.

Tampoco -aprovecho para decirlo- decir que el aprobado deba ser lo que está justo en medio del 0 y el 10 es lo más razonable, sobre todo porque parece querer compensar unos extremos demasiado extremos. Imagina que en el examen de conducir has girado perfectamente a la izquierda, pero ninguna vez has conseguido hacerlo a la derecha, ¿eso es un 5?

La media se ve muy influida por los valores extremos, como estamos viendo. Una paradoja que viene de la media es que a poco que algún español tenga menos de dos ojos (y alguno habrá), cada lector que está ahora mismo fijando la vista en este texto y tenga sus dos ojos, tiene más ojos que la media de los españoles. Es un hecho matemático. Una verdad estadística.
A veces la mediana es mucho mejor valor para indicar “por dónde van los tiros”: imagina que en mi edificio hay la siguiente distribución de televisiones por domicilio: 0, 0, 0, (<- 1="" 20="" 2="" 3="" 5="" a="" casa="" casi="" central:="" colocan="" datos="" de="" el="" elige="" en="" es="" esta="" gente="" habitante="" la="" lleva="" los="" mayor="" media="" mediana="" menor="" normal="" o:p="" ordenador="" ordenados="" por="" predice="" que="" se="" series="" televisores="" trabaja="" trabajo="" tres="" uno="" valor="" vecinos="" ven="" video="" vigilancia="" y="">

2. Casi nunca se tienen en cuenta las medidas de dispersión

Las medidas que nos hablan del centro de los datos no deberían separarse de las que nos hablan de su desviación, a saber, cuánto de alejados de ese dato central están el resto de los datos.

La razón es fácil de entender, volviendo al ejemplo de las notas de clase y utilizando una vez más la media veamos un ejemplo muy extremo: no es lo mismo que toda la clase haya sacado un 5 en un examen a que la mitad de la clase tenga un cero patatero y la otra mitad tenga un diez. Se suele utilizar la desviación típica, que tiene esta fórmula:


No te asustes, las calculadoras y las hojas de cálculo la saben hacer en un pis-pas. En el ejemplo anterior la desviación era de 0 en el primer caso (todas las notas coincidían con la media) y 5 en el segundo, ya que esa es justamente la distancia de cada dato al dato central.

3. El exceso de números en un artículo y la elección que se hace de ellos

Tendemos a utilizar números para reforzar lo que estamos afirmando; es como esos titulares que empiezan por “Científicos prueban…” o por “Un matemático afirma…". Mi consejo -y eso me caer en la paradoja de ser “un matemático que afirma”-, es desconfiar de ellos. Y si bajamos un poco más al detalle tengo que confesarte que mis amigos periodistas me han preguntado más de una vez por la manera de decir un dato para que suene “más contundente”.

Veamos un ejemplo: ¿qué es más “la mayoría”, “6 a favor y 5 en contra”, el 54,5% o “por solo por un voto”? Imagina lector, que en el ayuntamiento del Villabajo de Arriba ha salido elegido el candidato X, con el voto a favor de 6 concejales de un total de 11 que tenía el ayuntamiento. Cualquiera de los titulares anteriores son posibles, 6 de 11 es un 54,5% de los concejales, lo que te da la mayoría.

En estas estadísticas electorales se suele utilizar también la comparación de los votos que ha recibido (supongamos un 40% de los emitidos) con el total del censo del pueblo, esto es, si por ejemplo han votado un 60% de los villabajenses de arriba es fácil encontrar afirmaciones del tipo “X tiene el apoyo de solo el 24% de los villabajenses” o de menos de uno de cada cuatro, según sea la línea editorial.

4. Correlación no implica causalidad


Miremos la clasificación de la liga, los equipos que más goles a favor han conseguido (columna GF) tienen más puntos, esto es porque las medidas de goles a favor y puntos tienen correlación positiva. Gráficamente se vería así:

Los dos puntitos más a la derecha son el Madrid y el Barça, el más a la derecha es el Barça porque ganó en puntos, el más alto es el Madrid porque ganó en goles.







Este es un ejemplo de dos variables que están fuertemente correlacionadas de forma positiva. También hay correlaciones negativas, por no salir de ejemplo futbolero, goles en contra y puntos tiene pinta de tener correlación negativa. Pero mucho cuidado cuando nos presenten una de estas gráficas en las que se observe correlación y alguien quiera plantearnos que lo uno lleva a lo otro, tal vez no tengan ninguna relación entre sí, o puede que sí que estén relacionados pero ambos causados por otra razón. Como nos recuerda Sheldon Cooper, el que haya llegado sano y salvo a casa no demuestra que las oraciones de su madre hayan funcionado.

5. Dar algo por cierto o por falso porque las probabilidades de que se dan son muy altas o muy bajas

Hay varias falacias asociadas a este hecho, y algunos casos famosos como el delDNI de la Infanta, pero para no extendernos demasiado pongamos un ejemplo sencillo:

¿Cuál es la probabilidad de que salgan 10 caras seguidas al lanzar una moneda no trucada al aire? Teniendo en cuenta de que cada vez que lanzo la moneda al aire la probabilidad es de 0,5 (sobre uno, en tanto por ciento sería 50%) y que los sucesos son independientes (la moneda no tiene memoria).

0,5x0,5x...x0,5 diez veces, que como vimos el otro día es 0,5 a la décima potencia, algo menos de 0,001, muy poca ¿verdad? Por tanto, si alguien apuesta contigo que va a conseguir sacar diez caras consecutivas en diez lanzamientos, desconfía de la moneda, o juega, porque es muy probable que ganes.

Pero eso no elimina que se pueda dar, como se puede dar cualquier combinación de caras y cruces, de hecho cualquier serie concreta de caras y cruces en diez lanzamientos ¡es igual de improbable! Que algo sea muy probable, o muy improbable, no demuestra absolutamente nada.

6. Ojo a los totales y los relativos

Siempre debes preguntarte ¿cuál es el referente? ¿Cuál es el total que estamos considerando? Hay que vigilar que no estén considerándose datos absolutos de conjuntos que son muy diferentes.

Vemos un ejemplo en esta noticia sobre robos en España, nos encontramos que “por Comunidades, Andalucía y Cataluña encabezan la lista de regiones donde es más peligroso dejar la casa sin vigilancia, con alrededor de 75.000 allanamientos de morada anuales. Las menos peligrosas, Cantabria, La Rioja y las ciudades autónomas Ceuta y Melilla". Vaya, que causalidad, justamente las comunidades más pobladas son las más peligrosas y las menos pobladas, junto a las ciudades autónomas las más seguras ¿por qué será?

Andalucía tiene casi 25 veces más habitantes que en La Rioja, es normal que allí haya más... de todo, salvo riojanos, quizá. Como dice @malaprensa“repitan conmigo 'en La Rioja hay menos...' no es noticia”

Yendo más allá, hay que desconfiar del uso impropio de los datos. Pongamos dos ejemplos. Casi todos los accidentes de tráfico se producen a velocidades entre 60 km/h y 120 km/h. Hay muy pocos accidentes que se produzcan entre vehículos que circulen a 180 km/h. ¿Es más seguro circular a 180 km/h? No, para nada, es mucho más inseguro. Por suerte, muy pocos circulan a esas velocidades.

Algo parecido ocurrió cuando se perseguía al doctor Luis Montes porque en su unidad moría mucha gente. De un lado, no disponemos del dato de cuántos pacientes ingresaban en urgencias o debían ser sometidos a sedación, tampoco sabemos a cuántas personas daba servicio su hospital... En todo caso no tendría ningún sentido hablar de cifras absolutas, teniendo en cuenta que los pacientes sometidos a sedación en la unidad de urgencias sufren circunstancias de salud muy complicadas.
Hay muchos otros ejemplos de mal uso de la estadística, en este artículo clásico de Guttman se revisan hasta 50, (algunos muy técnicos). Conviene revisarlos.

Quería recordar antes de despedirnos los malos usos de los gráficos que ya pudimos ver por aquí. No quiero añadir nada al artículo de Jaime Rubio, aunque sí que dispongo de un contraejemplo al consejo que daba el gran Kiko Llaneras sobre el uso de diagramas de tartas. Traigo uno que sí que es aceptable:

 http://verne.elpais.com/verne/2015/06/18/articulo/1434609952_646860.html






No hay comentarios:

Publicar un comentario