La estadística descriptiva es una rama de la estadística que se dedica a la recopilación, organización, análisis y presentación de datos de una manera que pueda ser fácilmente comprendida. Es una herramienta fundamental en diversas disciplinas, como la economía, la medicina, la sociología, la psicología, el marketing y muchas otras. En este artículo, exploraremos en detalle los conceptos clave de la estadística descriptiva, incluyendo medidas de tendencia central y de dispersión, representación gráfica de datos, análisis de la distribución de los datos, interpretación de resultados y toma de decisiones. Al dominar estos fundamentos, podrás utilizar esta herramienta poderosa para comprender y comunicar datos de manera efectiva y tomar decisiones informadas y basadas en evidencias.
Definición y conceptos básicos
Definición de estadística descriptiva
La estadística descriptiva es una rama de la estadística que se enfoca en la recopilación, descripción, resumen y presentación de datos de una muestra o población de interés. Su objetivo principal es obtener una comprensión básica de los datos y comunicar la información de manera clara y concisa. La estadística descriptiva proporciona una serie de herramientas y técnicas que permiten organizar, resumir y analizar datos para identificar patrones, tendencias y características importantes.
Población y muestra
En estadística, el término “población” se refiere al conjunto completo de elementos o individuos que se desea estudiar. Por otro lado, una “muestra” es una parte representativa de la población que se selecciona para su estudio. La selección de una muestra adecuada es esencial para obtener resultados precisos y generalizables de una población más amplia. Se pueden seguir diferentes métodos de muestreo, como el muestreo aleatorio simple, el muestreo estratificado o el muestreo por conglomerados, dependiendo de la naturaleza de la población y el objetivo del estudio.
Variable y dato
En estadística, una “variable” es una característica o atributo de un individuo o evento que puede tener diferentes valores. Por ejemplo, en un estudio sobre el rendimiento académico, la variable podría ser la calificación obtenida en un examen. Un “dato”, por otro lado, es una observación o medición específica de una variable. Cada dato puede tomar un valor particular, y la recopilación y análisis de múltiples datos nos proporciona información sobre la distribución y las características de una variable en particular.
Medidas de tendencia central
Las medidas de tendencia central son estadísticas que nos ayudan a resumir y describir la ubicación central de un conjunto de datos. Estas medidas nos indican dónde se concentra la mayoría de los valores en una distribución. Las medidas de tendencia central más comunes son la media, la mediana y la moda.
Media aritmética
La media aritmética, también conocida como promedio, se calcula sumando todos los valores de un conjunto de datos y dividiendo la suma por el número total de datos. Es una medida robusta y ampliamente utilizada en la estadística descriptiva.
Para calcular la media de un conjunto de datos, se deben seguir los siguientes pasos:
- Suma todos los valores del conjunto de datos.
- Divide la suma obtenida entre el número total de datos.
Por ejemplo, consideremos el siguiente conjunto de datos: 10, 15, 20, 25, 30. Para calcular la media, se suman todos los valores (10 + 15 + 20 + 25 + 30 = 100) y se dividen por el número total de datos (5), lo que da como resultado una media aritmética de 20.
La media aritmética es una medida sensible a los valores atípicos o extremos en los datos. Si hay valores atípicos en el conjunto de datos, la media puede verse considerablemente afectada, lo que puede dificultar la interpretación adecuada de los resultados. Por lo tanto, es importante tener en cuenta que la media puede no ser siempre una representación precisa de la ubicación central de los datos.
Mediana
La mediana es otro tipo de medida de tendencia central que se encuentra en el valor medio de un conjunto de datos ordenados. Para calcular la mediana, debes seguir estos pasos:
- Ordena los datos de menor a mayor.
- Encuentra el valor medio en la lista ordenada.
Si el conjunto de datos tiene un número impar de elementos, el valor medio es la mediana. Si el conjunto de datos tiene un número par de elementos, la mediana es el promedio de los dos valores medios más cercanos.
Veamos un ejemplo: consideremos el siguiente conjunto de datos: 10, 15, 20, 25, 30, 35. Para calcular la mediana, ordenamos los datos de menor a mayor: 10, 15, 20, 25, 30, 35. Como el conjunto de datos tiene un número impar de elementos (6), el valor medio de la lista ordenada es la mediana. En este caso, la mediana es 20.
La mediana es una medida de tendencia central robusta que es menos sensible a los valores atípicos en los datos. Esto significa que la mediana puede ser una mejor representación de la ubicación central de los datos en presencia de valores atípicos o distribuciones sesgadas.
Moda
La moda es el valor que aparece con mayor frecuencia en un conjunto de datos. En otras palabras, la moda es el valor que ocurre con mayor frecuencia en una distribución. Un conjunto de datos puede tener una moda, más de una moda (multimodal) o no tener una moda (sin moda).
Calcular la moda es bastante sencillo. Solo debes identificar el valor o los valores que aparecen con mayor frecuencia en el conjunto de datos.
Supongamos que tenemos el siguiente conjunto de datos: 10, 15, 15, 20, 25, 25, 25, 30. En este caso, el valor 25 aparece con mayor frecuencia (3 veces) que cualquier otro valor, por lo que la moda de este conjunto de datos es 25.
La moda es una medida de tendencia central útil para variables categóricas o discretas. Por ejemplo, en una encuesta sobre el color de ojos de las personas, la moda sería el color de ojos que se presenta con mayor frecuencia.
Medidas de dispersión
Las medidas de dispersión, también conocidas como medidas de variabilidad, nos ayudan a comprender qué tan dispersos o agrupados están los datos en una distribución. Estas medidas nos proporcionan información sobre la amplitud de los datos y lo lejos o cerca que están de la medida de tendencia central. Algunas de las medidas de dispersión más comunes son el rango, la desviación estándar y la varianza.
Rango
El rango es la diferencia entre el valor máximo y el valor mínimo en un conjunto de datos. Es una medida de dispersión simple y rápida de calcular que nos ayuda a comprender la variabilidad total de los datos.
Para calcular el rango, debes seguir estos pasos:
- Encuentra el valor mínimo y el valor máximo en el conjunto de datos.
- Resta el valor mínimo al valor máximo.
Por ejemplo, consideremos el siguiente conjunto de datos: 10, 15, 20, 25, 30. Para calcular el rango, encontramos el valor mínimo (10) y el valor máximo (30) y restamos el valor mínimo al valor máximo (30 – 10 = 20). Por lo tanto, el rango de este conjunto de datos es 20.
El rango es una medida de dispersión simple y directa, pero no tiene en cuenta la distribución de los datos entre el mínimo y el máximo. Por lo tanto, es posible que no capture toda la información sobre la variabilidad de los datos.
Desviación estándar
La desviación estándar es una medida de dispersión que indica la variabilidad o extensión promedio de los datos respecto a la media aritmética. Mide cuánto se desvían los datos individuales de la media. Una desviación estándar más grande indica una mayor variabilidad de los datos, mientras que una desviación estándar más pequeña indica una menor variabilidad.
Para calcular la desviación estándar, debes seguir estos pasos:
- Calcula la media aritmética del conjunto de datos.
- Resta cada valor individual de la media y eleva al cuadrado el resultado.
- Calcula la media de los valores cuadrados.
- Toma la raíz cuadrada de la media calculada en el paso anterior.
Por ejemplo, consideremos el siguiente conjunto de datos: 10, 15, 20, 25, 30. Primero, calculamos la media aritmética (media) de los datos, que es 20. Luego, restamos cada valor individual de la media, elevamos al cuadrado y calculamos la media de los valores cuadrados. La raíz cuadrada de esta media es la desviación estándar. Para el conjunto de datos dado, la desviación estándar es aproximadamente 7.07.
La desviación estándar es una medida de dispersión ampliamente utilizada que tiene en cuenta todos los valores del conjunto de datos y proporciona una indicación de cuánto varían los datos con respecto a la media aritmética. Sin embargo, debido a que elevamos cada diferencia al cuadrado, la desviación estándar está en unidades cuadradas. Por lo tanto, no es tan fácil de interpretar o comparar directamente con los datos originales. Una alternativa es el coeficiente de variación, que expresa la desviación estándar como un porcentaje de la media y es útil para comparar la variabilidad entre diferentes conjuntos de datos.
Varianza
La varianza es una medida de dispersión que indica la variabilidad de los datos con respecto a la media aritmética. Es igual al promedio de los cuadrados de las desviaciones individuales de los datos respecto a la media. La varianza mide la dispersión de los datos de la media y es útil para comprender el grado de variabilidad en una distribución.
Para calcular la varianza, debes seguir estos pasos:
- Calcula la media aritmética del conjunto de datos.
- Resta cada valor individual de la media y eleva al cuadrado el resultado.
- Calcula la media de los valores cuadrados.
Por ejemplo, usando el conjunto de datos anterior (10, 15, 20, 25, 30), calculamos la media aritmética (media) de los datos, que es 20. Luego, restamos cada valor individual de la media y elevamos al cuadrado el resultado. Finalmente, calculamos la media de los valores cuadrados. Para el conjunto de datos dado, la varianza es aproximadamente 50.
La varianza es una medida de dispersión ampliamente utilizada que tiene en cuenta todos los valores del conjunto de datos y proporciona una indicación de cuánto varían los datos con respecto a la media aritmética. Al igual que la desviación estándar, la varianza está en unidades cuadradas y puede ser difícil de interpretar directamente en relación con los datos originales. Es común utilizar la raíz cuadrada de la varianza para calcular la desviación estándar de los datos, que está en las mismas unidades que los datos originales y es más fácil de interpretar.
Representación gráfica de datos
La representación gráfica de datos es una forma efectiva de visualizar y comunicar información sobre un conjunto de datos. Las gráficas nos permiten comprender rápidamente la distribución y las características de los datos, así como detectar patrones y tendencias. Dependiendo de la naturaleza de los datos y el objetivo del análisis, se pueden utilizar diferentes tipos de gráficos en la estadística descriptiva.
Tipos de gráficos utilizados en estadística descriptiva
Existen varios tipos comunes de gráficos que se utilizan en la estadística descriptiva para representar distintos tipos de datos. Algunos de los gráficos más utilizados son histogramas, diagramas de barras, diagramas de dispersión, gráficos de líneas y gráficos circulares. Cada tipo de gráfico tiene sus propias ventajas y aplicaciones específicas.
Histogramas
Un histograma es un tipo de gráfico utilizado para representar la distribución de frecuencias de una variable continua. El eje x del histograma representa los rangos de valores de la variable, mientras que el eje y representa la frecuencia de los valores en cada rango.
Para construir un histograma, se deben seguir los siguientes pasos:
- Determina el rango de valores de la variable.
- Divide el rango en varios intervalos o categorías.
- Cuenta el número de valores que caen en cada intervalo.
- Representa cada intervalo en el eje x y la frecuencia correspondiente en el eje y.
- Conecta los puntos en el gráfico para formar las barras del histograma.
El histograma es una forma efectiva de mostrar la distribución de los datos y proporciona información sobre cómo se agrupan o dispersan los valores en varios intervalos. También nos permite identificar valores atípicos o valores que están muy alejados del resto de los datos.
Gráficos de dispersión
Un gráfico de dispersión es una representación gráfica que muestra la relación entre dos variables numéricas. Cada punto en el gráfico representa un par de valores correspondientes a las dos variables. Este tipo de gráfico es útil para identificar patrones y tendencias en los datos, así como para detectar posibles relaciones o correlaciones entre las variables.
Para construir un gráfico de dispersión, se deben seguir los siguientes pasos:
- Determina las dos variables que se desea representar en el gráfico.
- Asigna un eje x y un eje y a cada variable.
- Dibuja un punto en el gráfico para cada par de valores correspondientes a las variables.
El gráfico de dispersión nos permite visualizar la relación entre dos variables y detectar patrones como la correlación positiva (cuando los valores de ambas variables aumentan juntos), la correlación negativa (cuando los valores de una variable disminuyen a medida que los de la otra aumentan) o la ausencia de correlación. También podemos identificar valores atípicos o excepcionales que se desvían significativamente del patrón general.
Análisis de la distribución de los datos
El análisis de la distribución de los datos es un paso importante en la estadística descriptiva que nos ayuda a comprender cómo se distribuyen los valores de una variable en particular. Nos permite identificar si los datos siguen una distribución normal (también conocida como distribución de campana) o si están sesgados hacia uno de los extremos.
Distribución normal
La distribución normal es un tipo común de distribución en estadística que se caracteriza por tener una forma de campana. Es simétrica alrededor de su media y se rige por una fórmula matemática específica conocida como la función de densidad de probabilidad normal.
En una distribución normal, la media, la mediana y la moda coinciden y están ubicados en el centro de la distribución. Además, la mayoría de los valores se encuentran cerca de la media, y a medida que nos alejamos de la media, la frecuencia de los valores disminuye.
Para determinar si una variable sigue una distribución normal, es común utilizar estadísticos como la asimetría y la curtosis. La asimetría mide la falta de simetría en una distribución, mientras que la curtosis mide la forma de la distribución en relación con la normal. Si la asimetría es cercana a cero y la curtosis es cercana a tres (que es el valor de referencia para una distribución normal), podemos decir que los datos se aproximan a una distribución normal. Además, a menudo se utiliza el diagrama de dispersión de cuantiles para visualizar gráficamente si los datos siguen una distribución normal.
Distribución sesgada
Una distribución sesgada es aquella que no es simétrica y se inclina hacia un extremo de la distribución. La presencia de sesgo en una distribución indica que hay una asimetría en los datos, y los valores se concentran más hacia un extremo que hacia el otro.
Existen dos tipos comunes de sesgo:
- Sesgo positivo: ocurre cuando la cola de la distribución se extiende hacia la derecha (lado positivo) y la mayoría de los valores se concentran hacia la izquierda.
- Sesgo negativo: ocurre cuando la cola de la distribución se extiende hacia la izquierda (lado negativo) y la mayoría de los valores se concentran hacia la derecha.
Es importante tener en cuenta el sesgo en los datos, ya que puede afectar la interpretación de los resultados y la selección de métodos estadísticos apropiados para el análisis.
Interpretación de resultados y toma de decisiones
La interpretación adecuada de los resultados de la estadística descriptiva es esencial para comprender los datos y tomar decisiones informadas y basadas en evidencias. La estadística descriptiva nos proporciona una visión general de los datos y nos permite identificar patrones, tendencias y características importantes.
La aplicación de la estadística descriptiva es amplia y se utiliza en diversos campos, como la economía, la medicina, el marketing, la sociología y muchos otros. En la economía, se utilizan medidas de tendencia central y de dispersión para analizar variables económicas como el ingreso, el gasto y el empleo. En medicina, se utilizan estadísticas descriptivas para resumir y analizar datos de pacientes, como la edad, el género, la altura y el peso. En el marketing, se utilizan para analizar datos sobre clientes, como la edad, la ubicación y las preferencias de compra.
Es importante interpretar correctamente los resultados de la estadística descriptiva y comprender las limitaciones de las medidas utilizadas. Por ejemplo, al interpretar la media aritmética, debemos tener en cuenta que es sensible a los valores atípicos y puede verse distorsionada por ellos. Además, es esencial recordar que la estadística descriptiva solo se aplica a los datos recopilados y no se puede extrapolar a la población general sin tener en cuenta el tamaño y la representatividad de la muestra.
La estadística descriptiva también se utiliza para tomar decisiones informadas y basadas en evidencias. Por ejemplo, si estamos analizando los resultados de una encuesta de satisfacción del cliente, podemos utilizar la estadística descriptiva para identificar áreas en las que se necesita mejorar y tomar decisiones para abordar esas áreas. Al comprender y comunicar los datos de manera efectiva, podemos mejorar los productos, servicios y procesos en función de la retroalimentación de los clientes y, en última instancia, mejorar la satisfacción del cliente y el rendimiento de la organización.
Conclusión
La estadística descriptiva es una herramienta poderosa para comprender y comunicar datos en una amplia gama de disciplinas. En este artículo, hemos explorado los conceptos clave de la estadística descriptiva, incluyendo medidas de tendencia central y de dispersión, representación gráfica de datos, análisis de la distribución de los datos, interpretación de resultados y toma de decisiones. Al dominar estos fundamentos, podrás utilizar la estadística descriptiva de manera efectiva para resumir, analizar y comunicar datos y tomar decisiones informadas y basadas en evidencias.
Recursos adicionales
Aquí hay algunos recursos adicionales para profundizar en el tema de la estadística descriptiva:
- Libros:
- “Estadística descriptiva” de Miguel Ángel Gómez Villegas.
- “Estadística descriptiva para principiantes” de Felipe Muñoz González.
- Cursos en línea:
- Herramientas y software:
- Comunidades en línea:
Referencias
Aquí se encuentran las fuentes utilizadas en este artículo para respaldar los datos y conceptos presentados:
- Gómez Villegas, M. A. (2009). Estadística descriptiva. San Pablo.
- Muñoz González, F. (2019). Estadística descriptiva para principiantes. Deusto.