¿Cómo comunicar temas de ciencia de datos para un público no experto? Desde hace décadas estamos rodeados de datos y de herramientas para sacarles provecho. La disminución en los costos de almacenamiento, el aumento en velocidad de procesamiento y la aparición, a principios de este siglo, de la computación paralela y en la nube, han generado una verdadera revolución de los datos masivos. Sin embargo, no hace tanto tiempo que nos dimos cuenta del enorme valor de este fenómeno, que comenzó a volverse popular en nuestras sociedades.
Hoy en día escuchamos casi a diario expresiones como Ciencia de Datos, Big Data, Aprendizaje Automático e Inteligencia Artificial. ¿Qué está pasando? ¿Es una nueva moda? Algo de moda hay, pero definitivamente hay algo mucho más profundo. Nos estamos convirtiendo en comunidades que generan enormes volúmenes de datos a velocidades crecientes.
Una parte de esta información se recolecta sobre nuestras llamadas telefónicas, transacciones bancarias, pagos electrónicos, búsquedas en Google o movimientos a través de las señales GPS procedentes de nuestros teléfonos móviles. Otros datos los generamos de forma voluntaria cuando publicamos contenido en las redes sociales (Facebook, Twitter, Instagram, etc.). Por último, la ciencia y la recolección de información procedente de sensores que monitorizan los objetos, constituyen las otras dos grandes fuentes de de datos. Por ello también hay datos presentes en dominios muy diversos entre sí: desde las relaciones humanas a la medicina, industrias de servicios y manufacturas, agricultura y hasta en el ámbito jurídico.
La pregunta que motiva este artículo es cómo comunicar en forma masiva los (complejos) temas de ciencia de datos a un público diverso y no necesariamente experto en el tema, para al mismo tiempo atraer su atención. En principio, el desafío debería comenzar por entender qué es la ciencia de datos, para luego sumergirnos en sus problemáticas concretas. Se trata de una nueva ciencia que aprovecha el análisis de grandes volúmenes de datos para encontrar relaciones entre datos que, a primera vista, parecen no tener nada en común y que puede beneficiar a las empresas, las organizaciones y comunidades en general, porque permite detectar patrones, tendencias y correlaciones para poder tomar decisiones informadas. Por este motivo, es un conjunto de métodos muy valiosos que posibilita encontrar correlaciones sutiles que usualmente pueden perderse al analizar conjuntos de datos más pequeños para realizar diagnósticos, predicciones y pronósticos fiables en numerosas áreas.
Esta nueva perspectiva refuerza el concepto de volumen, pero también conduce directamente a las ideas de diversidad y complejidad presentes en los diferentes tipos de datos. A partir del conocimiento obtenido y las prácticas asociadas al trabajo sistemático con los datos, surgieron nuevas profesiones con ciertas denominaciones. En general las podemos agrupar bajo el paraguas de “científico de datos”.
A través de distintos artículos sobre tecnología informática, intentando volvernos un “puente” entre los científicos especializados en la temática y el gran público, hemos podido reunir algunas recomendaciones y experiencias que podrían resultar valiosas a la hora de intentar construir un mensaje atractivo y masivo sobre la ciencia de datos:
1. Conocer al público para el cual escribiremos o dirigiremos nuestro mensaje.
¿A quién estará dirigido nuestro contenido? ¿Son profesionales universitarios en la temática o se trata de público lego? Mientras más podamos conocer al público, mejor podremos nivelar (lo cual no significa simplificar o vulgarizar) el contenido del artículo o de la charla, de manera que la idea de “ciencia de datos” no aleje de entrada al lector o al interlocutor por volverse incomprensible el contenido o porque directamente lo aburra.
2. Evitar tecnicismos o lenguaje críptico que pueda restar audiencia.
Siguiendo con el punto anterior, si bien puede parecernos interesante hablar de las particularidades de R, Hadoop, Phyton y NoSql, cuanto más tecnicismos y jergas utilicemos en su explicación, más reducido será el alcance de nuestras comunicaciones (que llegarán sólo a un círculo de especialistas en desarrollo de software y análisis de datos que pueda comprender cabalmente este contenido). Antes de escribirlo, conviene preguntarse, ¿es comprensible por la mayoría, se debe explicar la terminología? ¿Cuán conocido o instalado está el término? Porque si sólo es parte de la jerga profesional, entonces no es más que lenguaje críptico. Al mismo tiempo, en ciertas oportunidades el lenguaje es un fenómeno generacional y la adopción de diversos términos (Meme, Resiliente, Grafo Social, etc.) se va popularizando en paralelo a su divulgación con el correr del tiempo para salir del ámbito estrictamente profesional.
Lo mismo se aplica a los términos en inglés. Evitar los anglicismos o términos forzados del idioma inglés, si podemos encontrar una traducción valiosa (Ej. Machine Learning=Aprendizaje Automático, Data Mining=Minería de Datos o Explotación de Datos).
3. Al dar ejemplos de grandes cantidades de datos, utilizar analogías que sean próximas a la experiencia inmediata del público.
Si decimos que “la cantidad de datos que la humanidad ha almacenado hasta 2007 es de 295 Exabytes”, ese número en abstracto tal vez no nos signifique nada. En cambio, si añadimos a la explicación que “esto sería 30 veces el número de insectos en la Tierra hoy en día”, ya cobra otro valor.
Más ejemplos concretos: “35 zettabytes de datos serán creados para 2020, lo que significa un crecimiento de 300 veces respecto al año 2005. Equivaldría a ocupar tantos DVDs apilados desde la tierra hasta a alcanzar la mitad del trayecto a Marte. También se producirán 2.3 trillones de Gigabytes por día. Esto equivaldría a 2 trillones de películas con calidad de televisión”. También las imágenes o infografías ayudan a ejemplificar y visualizar mejor las cifras.
4. Explicar la utilidad de la técnica o aporte concreto del método desarrollado.
En numerosas oportunidades nos hemos encontrado con trabajos de investigadores sumamente innovadores en cuanto a la resolución de un problema de la disciplina o cuyo impacto en la comunidad científica es enorme. No obstante, cuando se trata de un trabajo científico no siempre está explicitado el aporte o utilidad concreta. Aunque nos haga quedar como ignorantes, siempre es necesario respondernos la pregunta, ¿qué beneficios tiene esta técnica, cómo se aplicaría concretamente este desarrollo, qué nuevas contribuciones trae al campo de la ciencia de datos? Al respecto, siempre son valiosos los antecedentes al estudio y/o las estadísticas asociadas al sector (ej. si se descubre una nueva técnica en Agricultura de Precisión no está de más saber cómo impacta económicamente en los cultivos y qué técnicas se habían desarrollado anteriormente para ahorrar costos en el agro).
5. Introducir casos y voceros con testimonios actuales.
A la hora de comunicar estos temas, siempre enriquece la voz del experto en Datos adaptada al tono y lenguaje del artículo. También es recomendable sumar casos de éxito, estudios o informes con datos duros que puedan enriquecer la argumentación (a menos que sólo busquemos producir un ensayo). Tener en cuenta que cada vez hay más profesionales y experiencias sobre Ciencia de Datos o Big Data, a los que se pueden recurrir o que pueden servir de fuente al artículo. Puede ser, por ejemplo, tanto un experto de Google como un emprendedor de una nueva startup local.
6. No quedarse sólo con información técnica: conectar al lector con las preocupaciones sociales, debates y discusiones sobre la tecnología del momento (incluso dilemas éticos).
Es importante reconocer que la Ciencia de Datos plantea cuestiones complejas como la privacidad, la transparencia, la pérdida de identidad, o sesgo de la información. Muchas de ellas aún tienen más preguntas que respuestas. Respecto a la privacidad, por ejemplo, es importante abordar la cuestión de quién es el dueño de los datos que se analizan. Además, gran parte del valor de los datos suele estar en usos secundarios distintos de aquellos para los que se recogieron inicialmente. Por tanto, existe el riesgo de que los datos se analicen con fines que los sujetos de los datos ni conocen, ni aprueban. Este es un fenómeno que no puede dejarse de lado cuando el propósito es conectar a la ciencia de datos con tópicos más sociales o humanos, que no se restrinjan solamente a lo tecnológico.
Otro ejemplo podría ser la carga ética en el diseño de los algoritmos; aunque nos suene rebuscado, más de 4.000 millones de personas usan Internet cada día. ¿Cómo manejamos esa cantidad ingente de datos que hay en la web, cuestionamos de algún modo la información, las reglas de la plataforma y las recomendaciones predefinidas que se nos hacen día a día?
7. Cuidado con las opiniones y polarizaciones (ej. tecnologías del control vs. de la libertad).
En lugar de adoptar posiciones extremas en torno a un debate, pensar los interrogantes que aportan a la discusión, los matices, zonas grises y las “cajas negras” no abiertas que incluso, en un contexto de incertidumbre, carecen de respuesta. Antes de afirmar tajantemente que “Big Data nos ha vuelto más controlados o menos libres en las redes”, conviene situar el tema a modo de pregunta, del estilo, ¿en qué medida las tecnologías de Big Data pueden influir o controlar el modo en que nos movemos en las redes?
8. Menos es más.
La última regla de oro, en este quehacer comunicacional de los temas de datos, es simple: lo bueno si breve dos veces bueno. Antes de abrumar al lector con decenas de nuevas ideas, que probablemente sean muy dificultosas de asimilar en una primera lectura, atraerlo con una buena idea, acotada, bien desarrollada, de forma clara y sintética. Por ejemplo, hablar de “privacidad y transparencia en la era de los datos masivos”, de por sí ya puede significar un tratado enciclopédico. Si logramos especificarlo en cómo Facebook, Twitter o Instagram conocen nuestros datos de intereses o preferencias a partir del contenido que “posteamos” en las redes, o en qué medida Netflix genera recomendaciones “sesgadas” sobre nuestro consumo personalizado de series y películas, ya estamos un poco más cerca del objetivo.
Entonces, el desafío sería cómo “bajar” esa temática, de forma sintética, a sus puntos claves logrando, al mismo tiempo, mantener entretenido al público.
Este Post fue originalmente publicado en: http://datamining.dc.uba.ar/predictivos