¿Cómo funciona la estadística en física de partículas para proclamar un descubrimiento?

Comenzamos con un relato de Pablo García Abia, físico experimental del CIEMAT en el experimento CMS, para entrar en materia:
Matus era un anciano pausado y observador. Harto del mundanal ruido, se había refugiado en una angosta cueva a las afueras de Nois, el centro neurálgico de aquella remota región desértica pobremente poblada. La entrada a la cueva era estrecha y oscura, lo que proporcionaba al viejo la tranquilidad necesaria para poder ordenar sus recuerdos.
De vez en cuando, la paz de Matus se veía perturbada por el lejano rumor de mercaderes y viajeros. El pausado anciano jamás perdía la paciencia y vio en aquella molestia una oportunidad. Pensó que podría medir el flujo de paseantes y, con suerte, incluso averiguar cuál era el día de mercado.
A decir verdad, el trasiego de mercaderes no seguía ningún patrón determinado. Venían de muchos y muy distantes lugares, por lo que el goteo era constante y desordenado. Era un "proceso aleatorio". Matus procedió a hacer su medida contando el número de paseantes por cada ciclo de su reloj de arena, de apenas unos minutos de duración. El principio fue descorazonador, porque en el primer ciclo no pasó ningún paisano. "Tomo nota", se dijo el viejo. En el segundo ciclo percibió el rumor de 4 paseantes, en el tercero 1, y así sucesivamente. El anciano apuntaba cuidadosamente los resultados de sus medidas.
Al llegar la noche, Matus repasó sus notas y le llamó la atención que hubiera variaciones tan grandes de unos ciclos a otros. "A veces parece que el flujo de mercaderes es cero, otras 10", observó en silencio. Los resultados eran, sin lugar a dudas, inconsistentes. Sin embargo, el vetusto sabio tuvo una idea feliz. De izquierda a derecha dibujó en la pared de la cueva una sucesión de líneas verticales, paralelas e igualmente espaciadas, una por ciclo, de longitud igual al número de paseantes en cada ciclo. Matus observó que, vistas en conjunto, no eran tan diferentes unas de otras. De hecho, si sumaba el número de paseantes a lo largo de un día y dividía por el número de ciclos obtenía un valor que parecía estar de acuerdo con todas sus medidas, salvo pequeñas variaciones de ciclo a ciclo. Llamó a este "el valor medio", ya que apuntaba a ser algo muy próximo a lo que él quería medir. Las variaciones de las medidas de cada ciclo respecto a la media no eran otra cosa que "fluctuaciones estadísticas".
Las cosas empezaban a tomar forma. Había una pauta en el desorden de aquel trasiego aleatorio.
Como era previsible, Matus no quedó completamente satisfecho. Se preguntaba si serían compatibles entre sí aquellas fluctuaciones estadísticas. Para comprobarlo, el viejo se dispuso a calcular las diferencias entre sus medidas (mercaderes por ciclo) y el valor medio del día, y observó que era mucho más frecuente encontrar fluctuaciones pequeñas que fluctuaciones grandes. Estas podían ser positivas o negativas (por encima o por debajo de la media), pero el patrón era evidente. Repitiendo el experimento durante casi una semana comprobó que las diferencias más acusadas aparecían en contadas ocasiones. Esto la pareció tan importante que se inventó un nombre para el tamaño de las fluctuaciones corrientes, "desviación estándar", y la representó en un lugar privilegiado de la pared de la cueva por un garabato que mucho se parecía a la letra griega "sigma". Dos tercios (el 70%) de las diferencias eran menor que "sigma", la desviación estándar; el 95% eran menores de dos veces sigma, y el 99% menores de tres veces sigma. Este descubrimiento le resultó tan excitante que por un buen rato dejó de oír el rumor de los paseantes. La luz del conocimiento lo aisló del mundanal ruido, y esto le provocó un placentero sosiego.
Pero el veneno inoculado por el aguijón de la curiosidad no es de efecto efímero. Después de un mes de hacer medidas, Matus se propuso averiguar qué día de la semana era el de mercado. Pensó el viejo que si un día en particular observaba un flujo de mercaderes particularmente alto, mayor que 3 veces sigma, ese era el día de acercarse a la urbe. Dicho y hecho. Las medidas de esa semana dejaron claro que el martes era el día de mercado, ya que el número de transeúntes superaba en 3 sigmas a la media. El martes siguiente abandonó la cueva con el ánimo de comprobar lo bien que funcionaba su método. Pero la frustración fue enorme al llegar al foro de Nois y no encontrar tenderetes en las calles.
"¿Qué había fallado?", se preguntaba. El anciano tardó un tiempo en darse cuenta de que el hecho de buscar una fluctuación grande, cualquier fluctuación grande en realidad, le había jugado una mala pasada. Ese sesgo le hacía vulnerable a fluctuaciones que por mero azar fueran particularmente grandes. Sin saberlo, Matus había descubierto el poder del 'look elsewhere effect' (efecto de mirar 'no importa dónde').
"Tengo que penalizar mi sesgo", se dijo Matus sin perder aliento, "tengo que diluir el valor de las fluctuaciones estadísticas y, además, ser más conservador a la hora de tomar mis decisiones". Al fin y al cabo, no era placentero viajar en balde a aquella ruidosa ciudad. En sus siguientes medidas el anciano fue más cauto. Al analizar sus datos aplicó un factor de corrección para diluir las fluctuaciones estadísticas y solo se centró en fluctuaciones superiores a 5 sigmas. Cinco le parecía un número suficientemente seguro para evitar la experiencia de la última vez.
"¡El sábado, el mercado es el sábado!" Matus (CMS), tomando datos en su cueva a las afueras de Noris (LHC), había medido con precisión el flujo de transeúntes (la sección eficaz de producción de pares de fotones y bosones Z) y, cuando la cantidad de datos fue suficiente, descubrió cuál era el día de mercado (su bosón de Higgs).
Eufórico, ahora Matus se planteaba averiguar en qué semana del año se festejaba la Plashta, el día de los ancestros. Pero para eso iba a necesitar mucha paciencia. Muchos días, muchos datos. La materia oscura en LHC iba a tener que esperar.

Matus es un ejemplo de cómo funciona la estadística en física de partículas. Pero, ¿podemos compararla con la que se utiliza en ciencias sociales para, por ejemplo, hacer encuestas electorales? Lo explican desde el grupo de física de altas energías de la Universidad de Oviedo, participante también en el experimento CMS:
La estadística usada en física de partículas no es tan diferente de la utilizada en las ciencias sociales. La diferencia fundamental es que en física de partículas tenemos una teoría, el Modelo Estándar, con la que comparamos los datos de las colisiones y que describe con mucha precisión las observaciones, si no se descubre ninguna nueva partícula. El equivalente en las encuestas políticas sería conocer de antemano los resultado de las elecciones y la exacta distribución de votos en la población según edad, género, estatus social, etcétera.
Si conociéramos la intención de voto real de los españoles podríamos hacer cálculos de la probabilidad de que en una encuesta realizada obtengamos un resultado aproximado al real o, por contra, algo muy diferente. Supongamos que aparece un nuevo partido del que no esperamos más que unos pocos votos. Como conocemos la intención de voto en general de los españoles, podemos calcular la probabilidad de que, tomando una muestra de, digamos, 2.000 habitantes, este nuevo partido obtenga cierto número de votos. Supongamos que la intención de voto real a este partido es de un voto por cada mill habitantes. Entonces esperaremos dos votos del conjunto de 2.000 encuestados. Imaginemos por contra que obtenemos en esta encuesta 50 votos a este partido. Podremos calcular la probabilidad de que se dé este resultado partiendo del valor esperado, y asignaremos una significancia estadística (por ejemplo, 3 sigma) a esta encuesta, midiendo así cuánto se aleja este resultado de lo esperado.
En física de partículas se hace algo similar. Cuando un resultado se aleja de lo esperado un valor de 2 sigma, diremos que se trata de una fluctuación estadística, lo que llamaríamos una casualidad o una coincidencia en el caso de la encuesta política. Si por contra el resultado se aleja tanto como 5 sigma diremos que tenemos un indicio de la existencia de una nueva partícula. El equivalente político de esto sería obtener de una encuesta a 2.000 ciudadanos que 500 de ellos votan al nuevo partido minoritario, lo que nos haría sospechar de un error en la encuesta o un complot de los entrevistados. Si lo comparamos con lanzar una moneda al aire, para alcanzar 5 sigma tendríamos que sacar cara más de 20 veces seguidas, una probabilidad menor de 0,00006%.
Hasta ahora hablamos de significancia local. Debido al gran número de análisis de física de partículas debemos considerar la significancia global, en un rango amplio. En el equivalente electoral, si realizamos 100 encuestas como la anterior, a grupos de 2.000 personas escogidas al azar, aunque esperemos dos votos al nuevo partido en cada una de las encuestas, no resulta tan raro encontrar que en una de las encuestas encontramos 50 votos. La fluctuación (o la casualidad) resuta más natural cuando tenemos en cuenta el gran número de encuestas, y calcularemos así una significancia global que tendrá un valor mucho menor.
Por otra parte, el hecho de que los dos experimentos, ATLAS y CMS, hayan encontrado un exceso en análisis similares es equivalente a encontrar la coincidencia los 50 votos en dos encuestas similares. La significancia conjunta de ambas encuestas se puede estimar como la suma cuadrática de las de cada una por separado. En el caso del exceso en ATLAS de 3,6 sigma se combina con el exceso en CMS de 2,6 sigma, proporcionando una significancia combinada de \sqrt(3.6² + 2.6²) = 4,4 sigma.