Un histograma es una especie de gráfico de barras que muestra una distribución de frecuencias. En el histograma, la base de cada una de las barras representa una clase y la altura representa la cantidad o frecuencia absoluta con la que ocurre el valor de cada clase. Al mismo tiempo, puede ser utilizado como indicador de dispersión del proceso. Este es un ejemplo de un histograma:
Cuando necesita presentar o sacar conclusiones de un gran conjunto de datos y está trabajando con conceptos que involucran frecuencias, ya sean absolutas o relativas, el histograma es la mejor manera de hacerlo. Nos ayuda con la representación gráfica de los conjuntos de datos de una manera más fácil de usar, lo que facilita ver dónde se concentran la mayoría de los valores.
Una vez que hayamos recopilado los datos, el primer paso que vamos a dar es comprenderlos mejor, ya que nuestros cerebros pueden tener dificultades para comprender un conjunto extenso de datos automáticamente. De esta manera, nuestra misión es hacer que la visualización de datos sea más inteligible y explícita.
Aquí es donde entra el histograma, ya que nos permitirá obtener la siguiente información sobre nuestro proceso:
Los histogramas a veces se confunden con los gráficos de barras. Se utiliza un histograma para datos continuos, donde los intervalos de clase representan la extensión de los datos. Un gráfico de barras es un gráfico de variables categóricas o discretas. Algunos autores recomiendan que los gráficos de barras tengan espacios entre los rectángulos para aclarar la diferencia.
El propósito de un histograma es ilustrar cómo se distribuye una determinada muestra de datos o población, ordenando la información para facilitar la visualización de la distribución de datos. Al mismo tiempo, enfatiza la ubicación del valor central y la distribución de datos alrededor de este valor central. Ahora que hemos visto qué es un histograma, ¿serán siempre iguales, de un solo tipo? La respuesta es no. Tenemos diferentes tipos de histogramas, y conocerlos mejor puede ahorrarle tiempo y eficiencia en su análisis. Exploremos los tipos principales aquí.
Un histograma simétrico (o unimodal) centra los datos en la media (medida central) y tiene características a través de la distribución de la media y la desviación estándar. Una característica del histograma simétrico es contener la mayor cantidad de datos del centro del gráfico. En estadística, este modelo se llama normal y le permite analizar cuánto se desvían otros datos de este modelo.
Un histograma está sesgado hacia la derecha cuando la distribución de datos indica que los valores altos ocurren con baja frecuencia. Este modelo también se conoce comúnmente como el modelo de "cola derecha", ya que “se afina" a medida que nos movemos a lo largo del eje x, lo que indica que la frecuencia está disminuyendo.
Por lo tanto, si te encuentras con un gráfico de este tipo, rápidamente podrás identificar el comportamiento de los datos.
Llamamos de histograma sesgado a la izquierda cuando la frecuencia de los datos se concentra en los valores altos del lado izquierdo a medida que recorremos el eje x. Podemos, por tanto, llamarlo también de histograma con “cola a la izquierda”, por la misma razón que el anterior, ya que a la izquierda formamos una especie de cola debido a la baja frecuencia de los datos al principio. Se observa que hay más información por encima de la media por falta de simetría.
Llamemos al histograma bimodal cuando aparecen dos picos. Así sabemos que en dos momentos diferentes hay una concentración de frecuencia que sobresale.
Un histograma es multimodal cuando aparecen varios picos. Los picos indicarán el mayor número de ocurrencias.
Mucho se ha hablado sobre el “efecto meseta”. Esa palabra, “meseta”, nos recuerda un cierto tipo de aplanamiento, de igualdad constante de los datos. Un histograma tiene formato Meseta cuando sus barras tienen casi las mismas alturas. Esto ocurre cuando hay varias distribuciones juntas con diferentes medias.
Para trazar un histograma con Python, vamos a usar la biblioteca Pandas dentro de un notbook en Google Collab.
Imprimimos solo el encabezado, para una fácil visualización.
Ahora, tracemos el histograma para visualizar mejor la distribución de salarios en nuestra base de datos, utilizando otra biblioteca de Python conocida como seaborn. Tenemos la opción de usar el código sns.histplot para trabajar con el histograma.
solo mirando la imagen del histograma, podemos identificar rápidamente que está sesgada hacia la derecha (o con la cola hacia la derecha). Esto indica que la mayor parte de la concentración de datos se encuentra al comienzo de la distribución. Luego, analizando los datos, tenemos una vista rápida y fácil de la concentración de los salarios, que en su mayoría están entre $ 50,000 y $ 100,000 dólares anuales. Ahora podemos analizar visualmente el comportamiento de la distribución de frecuencias. Esto te ayudará a ganar tiempo y calidad en el análisis.
Daniel Siqueira
Daniel es instructor en la escuela de Datos y enseña Matemáticas, Física, Química e Inglés. Tiene una verdadera pasión por aprender cosas y temas nuevos, y transmitir sus conocimientos.
Traducido para Alura Latam por Daiana Righi
Cursos de Programación, Front End, Data Science, Innovación y Gestión.
Luri es nuestra inteligencia artificial que resuelve dudas, da ejemplos prácticos y ayuda a profundizar aún más durante las clases. Puedes conversar con Luri hasta 100 mensajes por semana
Paga en moneda local en los siguientes países
Cursos de Programación, Front End, Data Science, Innovación y Gestión.
Luri es nuestra inteligencia artificial que resuelve dudas, da ejemplos prácticos y ayuda a profundizar aún más durante las clases. Puedes conversar con Luri hasta 100 mensajes por semana
Paga en moneda local en los siguientes países
Puedes realizar el pago de tus planes en moneda local en los siguientes países:
País | |||||||
---|---|---|---|---|---|---|---|
Plan Semestral |
487.37
BOB |
68314.51
CLP |
305385.67
COP |
65.90
USD |
265.11
PEN |
1424.44
MXN |
2977.87
UYU |
Plan Anual |
738.82
BOB |
103560.24
CLP |
462944.29
COP |
99.90
USD |
401.89
PEN |
2159.35
MXN |
4514.26
UYU |
Acceso a todos
los cursos
Estudia las 24 horas,
dónde y cuándo quieras
Nuevos cursos
cada semana