¿El problema de Big Data? Se llama el ''Sesgo de la actualidad'' | Cosas Latinas
Tecnología

¿El problema de Big Data? Se llama el »Sesgo de la actualidad»

Hay una desventaja contraria a la intuición de recopilar grandes cantidades de información sobre economía y comportamiento humano: esto puede significar que ignoramos las lecciones de la historia.

Uno de los problemas con este aumento de la tasa de información es que el momento presente siempre será mucho mayor que el pasado reciente. Imagínese mirando hacia atrás un álbum de fotos que representa los primeros 18 años de su vida, desde el nacimiento hasta la edad adulta. Digamos que tienes dos fotos para tus primeros dos años.

Suponiendo que una tasa de aumento de la información coincida con la de los datos del mundo, tendrá unas impresionantes 2.000 fotos que representan los años seis a ocho; 200,000 para los años 10 a 12; y la asombrosa cifra de 200,000,000 para los años 16 a 18. Eso es más de tres fotografías por cada segundo de esos últimos dos años.

»En el momento en que comienzas a mirar hacia atrás para buscar una vista más larga, tienes demasiado de lo reciente y demasiado poco de lo viejo»

Esta no es una analogía perfecta con los datos globales, por supuesto. Para empezar, gran parte del aumento de datos del mundo se debe a que cada vez más personas crean más fuentes de información, junto con formatos mucho más grandes y detallados. Pero el punto sobre la proporcionalidad se mantiene.

Si tuviera que mirar hacia atrás en un registro como el de arriba, o tratar de analizarlo, el pasado más lejano se convertiría en una insignificancia sin sentido. ¿Cómo podría no hacerlo, con tantas veces menos información disponible?

Aquí está el problema con gran parte de los grandes datos que actualmente se recopilan y analizan. En el momento en que comienzas a mirar hacia atrás para buscar una vista más larga, tienes demasiado de lo reciente y demasiado poco de lo viejo. La miopía se integra en la estructura, en forma de una tendencia abrumadora a sobreestimar las tendencias a corto plazo a expensas de la historia.

tecnología

Para comprender por qué esto es importante, considere los hallazgos de las ciencias sociales sobre el «sesgo de actualidad», que describe la tendencia a asumir que los eventos futuros se parecerán mucho a la experiencia reciente.

Es una versión de lo que también se conoce como heurística de disponibilidad: la tendencia a basar su pensamiento de manera desproporcionada en lo que se le viene a la mente más fácilmente. También es un atributo psicológico universal. Si los últimos años han visto veranos excepcionalmente fríos donde vives, por ejemplo, podrías sentirte tentado a decir que los veranos se están volviendo más fríos, o que tu clima local puede estar enfriándose. De hecho, no deberías leer nada en los datos.

Tendría que tener una visión mucho más larga para aprender algo significativo sobre las tendencias climáticas. A corto plazo, sería mejor no especular, pero ¿quién de nosotros puede manejar eso?

»Los análisis a corto plazo no solo son inválidos: son activamente inútiles y engañosos »

Lo mismo suele suceder con los fenómenos más complejos de la vida real: los mercados de valores, las economías, el éxito o el fracaso de las empresas, la guerra y la paz, las relaciones, el surgimiento y la caída de los imperios. Los análisis a corto plazo no solo son inválidos, son activamente inútiles y engañosos. Basta con mirar a las legiones de economistas que se alinearon para pronunciar eventos como la crisis financiera de 2009 impensables hasta que sucedió.

La sola idea de que se pudieran hacer predicciones válidas en ese tipo de escala era en sí parte del problema.

También vale la pena recordar que la novedad tiende a ser una consideración dominante al decidir qué datos mantener o eliminar. Fuera lo viejo y lo nuevo: esa es la tendencia digital en un mundo donde los algoritmos de búsqueda están intrínsecamente sesgados hacia la frescura, y donde la llamada pudrición de enlaces infesta todo, desde decisiones de la Corte Suprema hasta servicios completos de redes sociales.

Un sesgo hacia el presente está estructuralmente arraigado en casi toda la tecnología que nos rodea, sobre todo gracias a nuestro hábito de deshacernos de la mayoría de nuestras máquinas una vez brillantes después de unos cinco años.

¿Qué hacer? Esta no es solo una cuestión de ser mejores para preservar los datos antiguos, aunque esto no sería una mala idea, dado lo poco que actualmente puede durar décadas en lugar de años. Más importante aún, se trata de determinar qué vale la pena preservar en primer lugar, y lo que significa recolectar información de manera significativa en nombre del conocimiento.

Lo que se necesita es algo como enseñar nuestras herramientas para mejorar y dejar ir el pasado inmediato para mantener a la vista sus continuidades más grandes. Es un acto de curación similar a organizar un álbum de fotografías, aunque con más matemáticas. ¿Cuándo son dos millones de fotografías menos valiosas que dos mil? Cuando la muestra más grande cubre menos terreno; cuando las preguntas que se le pueden hacer son menos importantes; cuando el nivel de detalle en la oferta no infunde escepticismo útil, sino confianza falsa.

Muchos conjuntos de datos son irreductibles y más preciados cuando están completos: secuencias de genes; datos demográficos; el conocimiento crudo y duro de la geografía y la física. Sin embargo, cuanto más suave sea la ciencia, más probable es que la escala se correlacione inversamente con la calidad, y el tiempo más importante se convierte en un filtro.

O elegimos cuidadosamente lo que perdura, importa y captura de manera significativa nuestro pasado en retroceso, o su huella es suplantada en silencio por el creciente ruido del presente.

El tiempo se corta de varias maneras, ya que existe otro sentido crucial en el que sigue siendo un factor limitante: la disponibilidad de tiempo y atención humana. Las corporaciones, los individuos y los gobiernos tienen una mayor magnitud de información disponible hoy que hace unos años.

Sin embargo, no tienen más atención disponible, miembros de la junta, directores ejecutivos, funcionarios electos u horas del día. Existen herramientas cada vez mejores para ayudar a los tomadores de decisiones a hacer preguntas significativas sobre la información que poseen, pero solo puede analizar lo que sigue siendo accesible.

La mera acumulación no es un tipo de respuesta. En una era de datos cada vez más grandes, lo que eliges no saber importa tanto como lo que haces.

Apple Card, el último producto de Apple

Click to comment

Mas Compartidas

To Top