Tipos de Visualizaciones Aplicables en Ciencia de Datos, Analítica y Estadística.

Jorge I. Blanco
8 min readApr 12, 2021

--

Cuántas veces nos hemos visto en la disyuntiva de qué visualización utilizar al momento de explorar o analizar un conjunto de datos. El objetivo del presente artículo es mostrar las diferentes clases de gráficas que existen y qué información puede suministrar o extraer de acuerdo al tipo de visualización utilizada.

Mapa Mental de los grupos de visualizaciones (Imagen desarrollada por el autor)

La elección del tipo de gráfica para el análisis exploratorio o para narrar una historia sobre los datos no es un proceso directo, se debe tener claro el propósito de cada tipo de visualización y qué información proporciona cada gráfica. El objetivo de toda imagen es transmitir información de una forma más intuitiva, directa y agradable. Por esta razón, es muy importante saber el tipo de gráfica a escoger, ya que las visualizaciones ayudan a encontrar patrones en los datos que los números no muestra.

En términos generales, las visualizaciones de dividen en cuatro grandes grupos, como se muestra en la imagen inicial, estos son:

Correlación: — Dispersión — Mapas de calor

Distribución:Histogramas — Mapas

ComparaciónBarras — Líneas — Cajas y Bigotes

ComposiciónGráficas de Área — Barras Apiladas

1. Gráficos De Correlación

A este grupo corresponden las visualizaciones de Dispersión y Mapas de Calor. Las gráficas de correlación permiten descubrir si uno o más pares de variables están relacionadas. En otras palabras, muestra la dependencia entre variables, teniendo en cuenta que la correlación no necesariamente implica causalidad, es decir, la causalidad significa que la variable independiente(x), causa cambios en la variable dependiente(y), por esta razón debemos asegurarnos de que los resultados estén respaldados por investigaciones y experimentos adecuados.

1.1 Gráficos de Dispersión: Las gráficas de dispersión permiten visualizar un atributo numérico contra otro atributo de tipo numérico y mostrar la correlación entre los ejes X y Y, para comparar medidas e identificar rápidamente patrones, tendencias, agrupamientos (clustering) y valores atípicos. También permite hacer un análisis del grado de la correlación entre las dos variables. Los gráficos de dispersión son particularmente útiles cuando se exploran relaciones estadísticas como la regresión lineal y logística.

Ejemplo de gráfica de dispersión (Imagen desarrollada por el autor)

1.2 Gráficos de Mapas de Calor: Las gráficas de mapas de calor permiten comparar tres variables, dos de tipo categórico ubicadas en los ejes X y Y, la tercer variable es de tipo numérico utilizando un código de color degradado y con esto observar cuáles pares de atributos están correlacionados. Comúnmente se utilizan las visualizaciones de mapas de calor para representar gráficamente la matriz de correlación.

Ejemplo gráfica mapa de calor (Imagen desarrollada por el autor)

2. Gráficas De Distribución

Este grupo lo conforman los histogramas y los mapas. Las gráficas de distribución ayudan a la interpretación de resultados en el análisis univariado (una sola variable), en la etapa inicial de analítica, para mostrar donde los datos son más densos o escasos en una dimensión. Este tipo de gráficas se utilizan en las investigaciones de mercado, para los análisis demográficos o la segmentación de clientes.

2.1 Gráficas de Histogramas: Divide los datos numéricos en grupos a través de contenedores o bins, y muestra la frecuencia o la cantidad de puntos de datos en cada contenedor o grupo. Los histogramas permiten identificar el patrón de distribución de los datos en un espectro numérico, por ejemplo, muestra cuál es el rango de valores más probables y si los datos están centrados o sesgados. También con los histogramas se pueden visualizar los datos en términos de porcentajes.

Ejemplo histograma(Imagen desarrollada por el autor)

2.2 Gráficas de Mapas: Las gráficas de mapas vinculan los datos geoespaciales con datos demográficos indicando donde se encuentran los puntos de datos, por ejemplo. casos de contagio o muerte por covid-19, clientes, peatones, etc. Los valores numéricos se agrupan por un atributo geoespacial (región, país, continente, etc). La degradación en los colores o el tamaño de los puntos muestran las variaciones en la densidad de los datos entre lugares o ubicaciones. los mapas son una forma de responder a preguntas espaciales, como: ingreso per capita por país, número de clientes o ventas por ciudad.

Ejemplo mapa(Imagen desarrollada por el autor, Mapbox)

3. Gráficas De Comparación

Las gráficas de comparación son utilizadas para comparar uno o más conjuntos de datos. Pueden comparar elementos o mostrar diferencias a lo largo del tiempo. En este grupo encontramos los gráficos de Barras, de Línea y Diagramas de cajas y bigotes.

3.1 Diagramas de Barras: Estas son utilizadas para comparar la medida de la dimensión categórica, al comparar la altura de cada barra de forma intuitiva. La gráfica de barras es similar a los histogramas, con la diferencia que las gráficas de barras en el eje x, corresponde a un atributo de tipo categórico, en lugar de un intervalo numérico. También el gráfico de barras no solo visualiza datos categóricos, sino que permite a través de barras agrupadas, con lo cual se logra comparar dos atributos categóricos. Los gráficos de barras se pueden orientar en el eje vertical u horizontal, lo que puede ser útil para detectar tendencias.

Ejemplo gráfico de barras (Imagen desarrollada por el autor)

3.2 Diagramas de Línea: A lo largo del tiempo indica la tendencia o variación en los datos. Estos gráficos son comúnmente utilizados en series de tiempo, mostrando los cambios en una variable numérica frente a una variable de tipo fecha, cada línea es una comparación entre un momento histórico y otro. Pueden incluir un atributo de tipo categórico y utilizar diferentes colores para resaltar el contraste de cada categoría. En resume las visualizaciones de línea, se utilizan con mayor frecuencia cuando está presente un elemento de este tiempo. El mejor caso de uso para los gráficos de línea, es para mostrar tendencias durante un período de tiempo, cuando los datos están ordenados o cuando la interpolación tiene sentido.

Ejemplo gráfica de líneas (Imagen desarrollada por el autor)

3.3 Diagramas de Cajas: Los diagramas de cajas y bigotes distribuyen los datos a través de percentiles, es decir, hacen una distribución de los datos, sin embargo, también permite comparar los datos de múltiples grupos, con lo cual se puede hacer un análisis multivariado. De esta manera las gráficos de cajas, representan visualmente una serie de datos numéricos a través de sus cuartiles. El diagrama de caja muestra a simple vista la mediana(no la media o promedio) y los cuartiles de los datos, también representar los valores atípicos en el conjunto de datos.

Ejemplo gráfica de caja y bigotes (Imagen desarrollada por el autor)

4. Gráficos De Composición

Las gráficas de composición se utilizan para ilustrar la relación entre la parte y el todo. En esta categoría encontramos las gráficas Circulares o de Torta, gráficas de Barras apiladas y los gráficos de Área. Los gráficos de composición pueden ser estáticos, mostrando la composición actual de un valor total, o pueden mostrar cómo la composición de un valor total cambia a lo largo del tiempo. Los gráficos de composición pueden mostrar las composiciones por porcentaje del valor total o los valores fijos en el valor total.

4.1 Gráficos Circular o de Torta: Este tipo de gráfica se utiliza para representar el porcentaje y el peso de los componentes que pertenecen a un atributo categórico, es decir, la relación entre un único valor y el total. El uso principal de un gráfico de tarta es para comparar una porción de la torta con el total. Este tipo de gráfico resulta especialmente útil cuando solo tenemos dos sectores, por ejemplo sí/no o masculino/femenino. El gráfico circular ofrece una comprensión al instante de las proporciones cuando se utilizan pocos sectores como dimensiones. Cuando se utilizan 10 sectores o menos, la eficacia visual del gráfico de torta es completamente funcional, ya que se hace mas difícil comparar diferentes sectores sobre todo en los gráficos con muchos sectores.

Ejemplo gráfica circular anidada(Imagen desarrollada por el autor)

4.2 Gráficos de Barras Apiladas: Se utilizan cuando se requiere dividir una categoría principal en una categoría secundaria, para hacer una comparación tanto horizontal como vertical. Con las barras apiladas es más fácil comparar la cantidad total entre diferentes categorías. Las barras apiladas combinan barras de diferentes grupos una encima de otra y la altura total de la barra resultante representa el resultado combinado. Agrupar o apilar barras permite una mejor comprensión del gráfico. El gráfico de barras también es útil cuando queremos comparar valores uno al lado o sobre el otro. Como ventaja se puede decir que es fácil de leer y comprender, como desventaja no funciona bien cuando hay muchos valores debido a las limitaciones en la longitud de los ejes.

Ejemplo gráfica de barra apilada(Imagen desarrollada por el autor)

4.3 Gráficos de Área: El gráfico de área mapea la medida de una dimensión categórica frente a una variable de tipo fecha. Es diferente a las visualizaciones de línea ya que la medida se acumula y se apila de abajo hacia arriba, esto permite ser utilizada para ilustrar cómo cada categoría contribuye al todo a lo largo de la línea del tiempo. Son comúnmente utilizadas para mostrar tendencias, en lugar de transmitir valores específicos. Dos variaciones de los gráficos de área son: gráficos de área agrupados y apilados. Los gráficos de área agrupados comienzan desde el mismo eje cero, mientras que en los gráficos de área apilada cada serie de datos comienza desde el punto dejado por la serie de datos anterior.

Conclusiones

Conocer las diferentes categorías de visualizaciones y sus tipos de gráficas asociadas, nos ayuda enormemente para la representación de datos estadísticos de forma más intuitiva, con lo cual los datos puedan ser interpretados, analizados y entendidos de manera más sencilla.

Aparte de las matemáticas, la programación, manejo de bases de datos, las gráficas son también una herramienta muy importante para todo científico de datos, analista, estadístico, profesional de datos, etc.

Estamos en la era de la información, en la que tenemos acceso a muchos datos, sin embargo, no tenemos la habilidad o capacidad para contar historias inspiradoras e influyentes a partir de las visualizaciones del os datos. Invito al lector a profundizar en este tema.

Las gráficas se desarrollaron con la librería PlotlyEpress de Python utilizando Jupyter Notebook.

--

--

Jorge I. Blanco
Jorge I. Blanco

Written by Jorge I. Blanco

Specialization, consultant, trainer in Applied Data Science with Python, Artificial Intelligence, Machine Learning. MSc. University Professor.

No responses yet