Acerca de los datos
Los números son engañosos. Aun sin contexto, dan la apariencia de ser hechos, y su especificidad anula todo argumento: «20 679 médicos aseguran que los Lucky Strike son menos irritantes». ¿Qué más necesitamos saber sobre fumar, verdad? La ilusión se refuerza todavía más cuando los números se visten de estadísticas. No pretendo rescatar aquí ningún saber ancestral, pero detrás de cada número hay una persona que toma decisiones: qué analizar, qué excluir, cómo enmarcar las imágenes que nos pintan los números. Enunciar algo, aunque sea haciendo un gráfico sencillo, es tomar decisiones, y en esas decisiones surge inevitablemente la imperfección humana. Por lo que a mí respecta, no he tomado ninguna decisión consciente que haya dado determinado sesgo al resultado de mi trabajo, los datos de personas que viven su vida ya son lo suficientemente interesantes sin necesidad de que intervenga yo para inclinarlos hacia un lado u otro. Pero sí he tomado decisiones, y esas decisiones han afectado al libro. Me gustaría repasar unas cuantas.
Mi primera decisión fue con toda probabilidad la más difícil: la decisión de centrarme en las relaciones entre hombre y mujer al hablar de la atracción y el sexo. El espacio, claro, fue un factor importante: incluir relaciones entre personas del mismo sexo habría supuesto reproducir por triplicado cada uno de los gráficos y tablas. Pero más que eso, lo determinante fue descubrir que las relaciones entre personas del mismo sexo no son excepcionales, sino que siguen las mismas tendencias. Los hombres gais, por ejemplo, prefieren parejas más jóvenes, igual que los heteros. En cuestiones que solo tienen que ver con el sexo de manera indirecta, como las valoraciones entre personas de distintas razas, los gais y los heteros también muestran patrones parecidos. Las relaciones entre hombre y mujer me posibilitaban repetir menos y lograr una mayor repercusión por unidad de espacio, así que opté por centrarme en ellas.
Mi segunda decisión, la de dejar fuera los tecnicismos estadísticos, me costó mucho menos tomarla. No menciono en Dataclismo los intervalos de confianza, los tamaños de la muestra, los valores p y demás lindezas porque el libro tiene que ver, ante todo, con la popularización de los datos y de su estudio. La idea no era hacer entender la parafernalia matemática. Pero, como ocurre con los pilares y las vigas de una casa, el rigor no deja de estar presente aunque no se vea. Muchas de las investigaciones que aparecen en el libro proceden de fuentes académicas corroboradas por expertos. Yo he aplicado los mismos criterios en mis investigaciones: gran parte del análisis de OkCupid lo realicé primero personalmente y después lo verificó de manera independiente un empleado de la empresa. También separé el análisis de la selección y organización de los datos para asegurarme de que lo primero no afectase a lo segundo. Una persona extraía la información y otra trataba de averiguar cuál era su significado.
A veces presento una tendencia y le atribuyo una causa determinada. Muchas veces esa causa es la mejor que se me ocurre, dado mi conocimiento de todas las fuerzas que intervienen. Para interpretar resultados —algo necesario en un libro que no se limite a presentar listados de cifras— he tenido que optar por una explicación de entre varias posibles. ¿Intervienen otras fuerzas aparte de la edad en la que yo llamo ley de Wooderson (el hecho de que a los hombres heterosexuales de todas las edades les interesen más las mujeres de 20 años)? Puede ser. Pero me parece muy improbable. La frase «La correlación no implica causalidad» es algo que conviene tener en mente, además de constituir un excelente control de las extralimitaciones narrativas. Pero que esa sea una frase concisa no significa que la cuestión de la causalidad no sea interesante, y he intentado atribuir causas solo cuando estaba más que justificado hacerlo.
En el caso de todas aquellas partes de Dataclismo que se solapan con entradas publicadas en el blog de OkCupid, he optado por rehacer el trabajo desde cero a partir de los datos más recientes en lugar de limitarme a citar mis descubrimientos previos. Lo he hecho así porque, la verdad, quería volver a comprobar lo que había analizado antes. La investigación publicada allí entre 2009 y 2011 se fue realizando de manera fragmentada. Varias personas —por lo menos cinco, que recuerde— estuvieron extrayendo índices de mensajes entre hombres y mujeres para mí durante esos tres años, por mencionar uno de los asuntos que trato con más frecuencia en este libro, y aunque quisiera volver a repasar todos mis datos, no habría manera de saber con certeza cuál de aquellas series de datos fue la que generó los resultados. Volviendo a repetir todo el proceso me aseguraba y también conseguía aplicar unos criterios uniformes a toda mi investigación (por ejemplo, restringir el análisis solo a personas de edades comprendidas entre los 20 y los 50, una decisión que tomé porque esas son las edades de las que sabía que disponía datos representativos).
Puesto que este estudio es nuevo, los números impresos en Dataclismo difieren de los publicados en el blog. Las curvas adoptan formas algo distintas. Los gráficos son un poco más gruesos o más finos en determinados puntos. Sin embargo, los resultados de la investigación del libro y del blog son coherentes. Por irónico que parezca, en este tipo de investigación la precisión es muchas veces menos apropiada que la generalización. Por eso a menudo redondeo las cifras hasta el 5 o el 10 más cercanos y por eso también aparecen mucho en estas páginas términos como «alrededor de», «aproximadamente» y «cerca de». Cuando lees en un artículo que el «89,6 por ciento» de la gente hace tal o cual cosa, el verdadero interés es que «muchos» o «casi todos» o «cerca del 90 por ciento» de la gente hace tal o cual cosa, pero lo más probable es que al redactor le pareciese que los decimales molaban más y le daban un toque de autoridad al texto. Si un científico volviese a calcular esa cifra, tal vez el resultado le diese un 85,2 por ciento. Y la siguiente vez igual le daba un 93,4 por ciento. Observa el mar cuando hay marejadilla y pregúntate qué ola se encuentra exactamente «al nivel del mar». Como mucho, se trata de un ejercicio inútil; o peor aún, engañoso.
Si seguimos la pista a los resultados que aparecen en Dataclismo hasta sus fuentes originales, no encontraremos discrepancias solo en los datos de OkCupid. Estos datos sobre nuestra vida, siendo como son prácticamente una cosa viva, están siempre cambiando. Por ejemplo, mi puntuación en Klout, que se mantiene en 34 mientras escribo estas líneas, sin duda habrá subido cuando las estés leyendo, puesto que parte de mi compromiso con la editorial consistirá en tuitear acerca de este libro. ¡Eso es implicación del usuario!
A veces los números varían sin razón aparente. Mi editora y yo las pasamos canutas para dar con los textos de autorrelleno de Google en preguntas como «¿Por qué las mujeres…». Google nos había dado resultados ligeramente distintos a los dos [«… llevan tanga?» fue el tercer resultado que me salía, seguramente porque esa es una pregunta típicamente masculina (?)]. El que le salía a ella era («… llevan sujetador?»). Cuando volví a comprobarlo unas semanas después, me salió otra cosa distinta: «… van juntas al baño?». Como me pareció el resultado más decente, es el que acabé incluyendo en el libro.
Por muy interesante que sea esa caja negra que es el autorrelleno de Google (y de Google Tendencias, para el caso), ejemplifica una de las peores cosas de la actual ciencia de los datos: su opacidad. La corroboración, tan importante en el método científico, es difícil, porque muchísima de la información es de propiedad exclusiva (y en esto OkCupid es tan culpable como el que más). Pese a lo mucho que pregonan las empresas de redes sociales la inmensidad y el potencial de sus datos, el grueso de estos se ha mantenido fuera del alcance del mundo en general. Los paquetes de datos se mueven en la actualidad por la comunidad de investigadores como el yeti: «Tengo un puñado de cosas interesantes pero no puedo decir de dónde… He oído que alguien de Temple tiene toneladas de reseñas de Amazon… Creo que L tiene un pellizco de Facebook…». Esto último me lo han dicho tres académicos sin relación entre ellos. Se referían a otro científico por su nombre, que aquí he preferido ocultar. Es cierto que L tiene ese pellizco birlado a Facebook —me lo confirmó él mismo—, pero no se lo puede enseñar a nadie. Para empezar se supone que no debería tenerlo. Los datos son dinero, por lo que las empresas los tratan como tal, y aunque determinados datos digitales están a la vista de todos, se hallan blindados tras muros legales tan gruesos como los de una cámara acorazada. Si miras la página de Facebook de tu amiga Lisa, observas que se llama Lisa y publicas esa observación tuya (¡en cualquier sitio!), técnicamente habrás robado datos de Facebook. Si alguna vez te has registrado en un sitio web y has dado un código postal o una fecha de nacimiento falsos, habrás infringido alguna ley, como la Computer Fraud and Abuse Act estadounidense. Cualquier chaval de menos de 13 años que visite newyorktimes.com está infringiendo sus Condiciones de servicio y es un delincuente, no solo en teoría, sino según la doctrina de trabajo del Departamento de Justicia. Estos ejemplos son muy extremos, sí, pero las leyes que atañen a estas cosas son tan vagas en su redacción que prácticamente garantizan que todos los estadounidenses que usan Internet sean verdaderos malhechores con una larguísima estela de perversas navegaciones por la Red. Que alguien te penalice por tus «crímenes» ya es otro cantar, pero legalmente estás postrado y con una bota pisándote el cuello. El abogado de una empresa o un fiscal de distrito deseoso de complacer a algún importante donante corporativo puede arruinarte la vida con solo apretar un poco. Y cuando se tercia lo hacen. Por eso los que estudian los datos son muy reservados con sus paquetes de datos; en realidad, más que como al yeti, los tratan como si fuesen grandes bolsas de marihuana, mostrándose posesivos, algo paranoicos y siempre curiosos por saber quién más tiene hierba y si es mejor que la suya.