Cómo analizar
datos estadísticos
6 claves para saber cuándo puedes fiarte de las estadísticas
El País.com José Ángel Murcia
El 100% de estos consejos son útiles para
interpretar datos estadísticos.
Cuando abres una web o un periódico te encuentras
con números, proporciones, ratios, coeficientes y probabilidades. En general es
saludable que te hagas preguntas y desconfíes, aunque los malos usos de la
estadística no son fruto de una conspiración para manipularte -no siempre.
Lo más probable es que provengan de la dejadez, de un error o de puro
desconocimiento. Te presentamos a continuación varias razones para que aumente
tu nivel de escepticismo.
1. La media no siempre nos ayuda a entender lo que ocurre
Empecemos por el centro. Cuando hay muchos datos en un estudio nos viene
muy bien conocer un dato central, una medida de “por dónde van las cosas” para
poder trabajar. El salario medio, la nota media, el precio de la tele de plasma
media… Un representante que nos haga saber rápidamente a qué nos enfrentamos.
Estamos habituados a usar la media como valor esperado, razonable, o
deseado de un conjunto de datos. Por ejemplo, si en un examen saqué un 6 y en
el otro un 8, y los dos eran igual de importantes parece razonable que la nota
final sea (6+8)/2, un 7, la media ¿verdad? Pero seguro que si hoy yo me he
comido un pollo entero al mediodía y tú no te has comido ninguno, decir que en
media cada uno nos hemos comido medio pollo no es lo más razonable.
Tampoco -aprovecho para decirlo- decir que el aprobado deba ser lo que
está justo en medio del 0 y el 10 es lo más razonable, sobre todo porque parece
querer compensar unos extremos demasiado extremos. Imagina que en el examen de
conducir has girado perfectamente a la izquierda, pero ninguna vez has
conseguido hacerlo a la derecha, ¿eso es un 5?
La media se ve muy
influida por los valores extremos, como estamos viendo. Una paradoja que viene
de la media es que a poco que algún español tenga menos de dos ojos (y alguno
habrá), cada lector que está ahora mismo fijando la vista en este texto y tenga
sus dos ojos, tiene más ojos que la media de los españoles. Es un hecho
matemático. Una verdad estadística.
A veces la mediana es mucho mejor valor para indicar “por dónde van los
tiros”: imagina que en mi edificio hay la siguiente distribución de
televisiones por domicilio: 0, 0, 0, (<- 1="" 20="" 2="" 3="" 5="" a="" casa="" casi="" central:="" colocan="" datos="" de="" el="" elige="" en="" es="" esta="" gente="" habitante="" la="" lleva="" los="" mayor="" media="" mediana="" menor="" normal="" o:p="" ordenador="" ordenados="" por="" predice="" que="" se="" series="" televisores="" trabaja="" trabajo="" tres="" uno="" valor="" vecinos="" ven="" video="" vigilancia="" y="">->
2. Casi nunca se tienen en cuenta las medidas de dispersión
Las medidas que nos hablan del centro de los datos no deberían separarse
de las que nos hablan de su desviación, a saber, cuánto de alejados de ese dato
central están el resto de los datos.
La razón es fácil de entender, volviendo al ejemplo de las notas de
clase y utilizando una vez más la media veamos un ejemplo muy extremo: no es lo
mismo que toda la clase haya sacado un 5 en un examen a que la mitad de la
clase tenga un cero patatero y la otra mitad tenga un diez. Se suele utilizar
la desviación típica, que tiene esta fórmula:
No te asustes, las calculadoras y las hojas de cálculo la saben hacer en
un pis-pas. En el ejemplo anterior la desviación era de 0 en el primer caso
(todas las notas coincidían con la media) y 5 en el segundo, ya que esa es
justamente la distancia de cada dato al dato central.
3. El exceso de números en un artículo y la elección que se hace de
ellos
Tendemos a utilizar números para reforzar lo que estamos afirmando; es
como esos titulares que empiezan por “Científicos prueban…” o por “Un
matemático afirma…". Mi consejo -y eso me caer en la paradoja de ser “un
matemático que afirma”-, es desconfiar de ellos. Y si bajamos un poco más al
detalle tengo que confesarte que mis amigos periodistas me han preguntado más
de una vez por la manera de decir un dato para que suene “más contundente”.
Veamos un ejemplo: ¿qué es más “la mayoría”, “6 a favor y 5 en contra”,
el 54,5% o “por solo por un voto”? Imagina lector, que en el ayuntamiento del
Villabajo de Arriba ha salido elegido el candidato X, con el voto a favor de 6
concejales de un total de 11 que tenía el ayuntamiento. Cualquiera de los
titulares anteriores son posibles, 6 de 11 es un 54,5% de los concejales, lo
que te da la mayoría.
En estas estadísticas electorales se suele utilizar también la
comparación de los votos que ha recibido (supongamos un 40% de los emitidos)
con el total del censo del pueblo, esto es, si por ejemplo han votado un 60% de
los villabajenses de arriba es fácil encontrar afirmaciones del tipo “X tiene
el apoyo de solo el 24% de los villabajenses” o de menos de uno de cada cuatro,
según sea la línea editorial.
4. Correlación no implica causalidad
Miremos la clasificación de la liga, los equipos que más goles a favor han conseguido (columna GF) tienen
más puntos, esto es porque las medidas de goles a favor y puntos tienen correlación
positiva. Gráficamente se vería así:
Los dos puntitos más a la derecha son el Madrid y
el Barça, el más a la derecha es el Barça porque ganó en puntos, el más alto es
el Madrid porque ganó en goles.
Este es un ejemplo de dos variables que están fuertemente
correlacionadas de forma positiva. También hay correlaciones negativas, por no
salir de ejemplo futbolero, goles en contra y puntos tiene pinta de tener
correlación negativa. Pero mucho cuidado cuando nos presenten una de estas
gráficas en las que se observe correlación y alguien quiera plantearnos que lo
uno lleva a lo otro, tal vez no tengan ninguna relación entre sí, o puede que
sí que estén relacionados pero ambos causados por otra razón. Como nos recuerda
Sheldon Cooper, el que haya llegado sano y salvo a casa no demuestra que las
oraciones de su madre hayan funcionado.
5. Dar algo por cierto o por falso porque las probabilidades de que se
dan son muy altas o muy bajas
Hay varias falacias asociadas a este hecho, y algunos casos famosos como
el delDNI de la Infanta, pero para no
extendernos demasiado pongamos un ejemplo sencillo:
¿Cuál es la probabilidad de que salgan 10 caras seguidas al lanzar una
moneda no trucada al aire? Teniendo en cuenta de que cada vez que lanzo la
moneda al aire la probabilidad es de 0,5 (sobre uno, en tanto por ciento sería
50%) y que los sucesos son independientes (la moneda no tiene memoria).
0,5x0,5x...x0,5 diez veces, que como vimos el otro día es 0,5 a la décima
potencia, algo menos de 0,001, muy poca ¿verdad? Por tanto, si alguien apuesta
contigo que va a conseguir sacar diez caras consecutivas en diez lanzamientos,
desconfía de la moneda, o juega, porque es muy probable que ganes.
Pero eso no elimina que se pueda dar, como se puede dar cualquier combinación
de caras y cruces, de hecho cualquier serie concreta de caras y cruces en diez
lanzamientos ¡es igual de improbable! Que algo sea muy probable, o muy
improbable, no demuestra absolutamente nada.
6. Ojo a los totales y los relativos
Siempre debes preguntarte ¿cuál es el referente? ¿Cuál es el total que
estamos considerando? Hay que vigilar que no estén considerándose datos
absolutos de conjuntos que son muy diferentes.
Vemos un ejemplo en esta noticia sobre robos en
España, nos encontramos que “por Comunidades, Andalucía y Cataluña encabezan la
lista de regiones donde es más peligroso dejar la casa sin vigilancia, con
alrededor de 75.000 allanamientos de morada anuales. Las menos peligrosas,
Cantabria, La Rioja y las ciudades autónomas Ceuta y Melilla". Vaya, que
causalidad, justamente las comunidades más pobladas son las más peligrosas y
las menos pobladas, junto a las ciudades autónomas las más seguras ¿por qué será?
Andalucía tiene casi 25 veces más habitantes que en La Rioja, es normal
que allí haya más... de todo, salvo riojanos, quizá. Como dice @malaprensa, “repitan conmigo 'en La Rioja hay menos...' no es noticia”
Yendo más allá, hay que desconfiar del uso impropio de los datos.
Pongamos dos ejemplos. Casi todos los accidentes de tráfico se producen a
velocidades entre 60 km/h y 120 km/h. Hay muy pocos accidentes que se produzcan
entre vehículos que circulen a 180 km/h. ¿Es más seguro circular a 180 km/h?
No, para nada, es mucho más inseguro. Por suerte, muy pocos circulan a esas
velocidades.
Algo parecido ocurrió cuando se perseguía al doctor Luis Montes porque en su
unidad moría mucha gente. De un lado, no disponemos del dato de cuántos
pacientes ingresaban en urgencias o debían ser sometidos a sedación, tampoco
sabemos a cuántas personas daba servicio su hospital... En todo caso no tendría
ningún sentido hablar de cifras absolutas, teniendo en cuenta que los pacientes
sometidos a sedación en la unidad de urgencias sufren circunstancias de salud
muy complicadas.
Hay muchos otros ejemplos de mal uso de la estadística, en este
artículo clásico de Guttman se revisan hasta
50, (algunos muy técnicos). Conviene revisarlos.
Quería recordar antes de despedirnos los malos usos de los gráficos que
ya pudimos ver por aquí. No quiero añadir nada
al artículo de Jaime Rubio, aunque sí que dispongo de un contraejemplo al
consejo que daba el gran Kiko Llaneras sobre el uso de diagramas de tartas. Traigo uno que sí que es aceptable:
http://verne.elpais.com/verne/2015/06/18/articulo/1434609952_646860.html
No hay comentarios:
Publicar un comentario