ESTADÍSTICA
Introducción
¿Qué es estadística?
Es la ciencia que se ocupa de recolectar, organizar, presentar, analizar e interpretar datos para ayudar a una toma de decisiones más efectiva. (Lind, Marchal y Mason “2004”).
Pasos de la estadística:
Clasificación de la estadística.
Se divide en dos ramas:
-
Descriptiva: aborda los procedimientos relacionados con la obtención, organización, síntesis e interpretación de datos sin intentar inferir nada acerca de ellos.
-
Inferencial: procedimientos que nos permiten hacer afirmaciones respecto de toda una población a partir de la información obtenida de una muestra; esto es, se efectúa una inferencia; se va de lo particular a lo general.
Conceptos de la estadística.
Población:conjunto de elementos, cosas, objetos y/o personas sobre las cuales deseo realizar un estudio estadístico. Es muy importante que este bien definida mi población.
Muestra: parte o subconjunto de la población; la cual debe ser representativa.
Individuo o elemento: es cada una de las partes que constituye a la población.
Muestreo.
Procedimiento mediante el cual se determinan los elementos que formarán nuestra muestra.
Pueden ser:
-
Probabilístico: cuando todos los elementos de la población tienen la misma posibilidad de ser parte de la muestra.
-
No probabilístico: lo anterior no se cumple.
Muestreo aleatorio simple: este método es uno de los más sencillos y se caracteriza porque cada unidad tiene la probabilidad equitativa de ser incluida en la muestra, se aplica cuando la población es homogénea respecto de la variable de interés. El procedimiento es un tipo “sorteo” o “rifa”.
Una desventaja de este método es que no se puede usar cuando la población es muy grande.
Muestreo sistemático: se trata de una variante del muestreo aleatorio simple. Pero las unidades muéstrales se seleccionan a partir del coeficiente de evaluación “K”.
K= Dónde: N= población n= muestra
Muestreo estratificado: para aplicar este tipo de muestreo, a la población se le divide en grupos llamados “estratos”, estos estarán formados con elementos que tienen características comunes.
Por ejemplo: si quisiéramos realizar un estudio sobre la cantidad de horas que duermen los mexicanos, podemos dividir a la población en bebes, niños, jóvenes, adultos y ancianos.
Muestreo por conglomerados: este tipo de muestreo se usa en particular cuando no se dispone de una lista detallada y enumerada de cada una de las unidades que conforman la población y resulta muy complejo elaborarla.
Se le denomina así debido a que en la selección de la muestra, en lugar de escogerse cada elemento se procede a tomar los subgrupos o conjuntos de elementos a los que se les llama “conglomerados”.
Cada conglomerado viene siendo como una miniatura de la población.
Nota: a este método de muestreo se le denomina Polietápicoporque los elementos de la muestra se eligen en dos etapas sucesivas, en la primera se seleccionan aleatoriamente los conglomerados y en la segunda se eligen los elementos de los conglomerados seleccionados.
Variable.
Es toda propiedad o constante que puede asumir varios valores.
Clasificación de la variable.
Variable cualitativa: aquella que solo se refiere a ciertos atributos o cualidades, por ejemplo: la nacionalidad, el género de una persona, el estado civil, el color de los ojos, modelo de un auto, etc.
Variable cuantitativa: esta es aquella en la cual manejamos valores, con los cuales podemos aplicar las operaciones aritméticas; en otras palabras son aquellas variables que se pueden contar. Ejemplo: el salario, la estatura, la masa corporal, número de alumnos en un salón, la edad, etc.
La variable cuantitativa se divide a su vez en dos subconjuntos:
Variable cuantitativa discreta: cuando solo toma valores contables y enteros.
Variable cuantitativa continua: aquella que puede tomar cualquier valor dentro de un intervalo.
Escalas.
-
Nominales: aquellas que nos sirven para distinguir sin intervenir jerarquías.
-
Ordinales: aquellas en las cuales se nos indica una jerarquía.
-
Intervalo: permite definir una unidad de medida convencional. En este tipo de escalas el 0 no significa ausencia de la propiedad que se intenta medir (arbitraria).
-
Razón: en esta el 0 si indica ausencia de la propiedad medida y aquí si interviene la relación de orden.
Parámetro.
Toda descripción numérica que sintetiza información respecto a una población.
Dentro de los parámetros tenemos principalmente a:
Estadístico.
Toda descripción numérica que sintetiza información respecto a una muestra, dentro de estos tenemos a los siguientes:
Estadística descriptiva, Métodos tabulares y Graficas.
Conceptos básicos de distribuciones de frecuencia
Intervalo de clase: es un símbolotal como 18-22, que me da a conocer de donde a donde abarca cada clase. Está conformado por un límite inferior y un límite superior.
Tamaño o Anchura de Clase.
(TC)es la diferencia entre el LRS y el LRI de cada intervalo, esto es:
TC= LRS-LRI.
Marca de Clase o Punto Medio.
Este es el valor que va a representar a cada intervalo y se obtiene con la semisuma del LI con el LS de cada intervalo.
Elaboración de Tablas de Distribución de Frecuencias.
Pasos.-
-
Identificar al dato menor y al dato mayor.
Dm= ¿
DM= ¿
-
Realizar una hoja de conteo. Esta consiste en enlistar todos los datos en estudio en una forma creciente, indicando a su derecha su respectiva frecuencia.
Tipos de Frecuencia.
-
Frecuencia de clase o absoluta: a esta comúnmente la representamos con la letra “f”. Nos sirve para conocer cuántos datos de los que estamos estudiando se encuentran entre el LI y el LS de cada clase.
-
Frecuencia acomulada: a esta comúnmente la representamos con “fa” y nos sirve para conocer cuántos datos son menores o iguales al LS de cada clase.
Para obtenerla basta con ir sumando en forma consecutiva la frecuencia de clase.
-
Frecuencia relativa:comúnmente a esta la representamos como “fr” y se puede expresar en forma decimal y forma porcentual.
Este tipo de frecuencia nos sirve para conocer el porcentaje de datos correspondientes a cada intervalo.
Frecuencia relativa decimal.
-
Frecuencia relativa acomulada: a esta comúnmente la representamos como “fra”y se expresa también en forma decimal y porcentual. Nos sirve para conocer al porcentaje de datos que son menores o igual al LS de cada clase.
Ejemplo: Se tomó una muestra de 55 estudiantes, de la licenciatura “Psicopedagogía”, para ver cuantas palabras por minuto leían, la información es la siguiente, resumida en una tabla de distribución de frecuencias:
Gráficos Estadísticos.
En estadística utilizamos ciertos gráficos con la finalidad de dar a conocer nuestra información de una manera rápida y sencilla, recordemos la frase que “una imagen dice más que mil palabras”.
Dentro de los gráficos más utilizados tenemos a los siguientes:
-
Gráfico de barras:también conocido como diagrama de columnas, es una forma de representar gráficamente un conjunto de datos o valores, y está conformado por barras rectangulares de longitudes proporcionales a los valores representados. Los gráficos de barras son usados para comparar dos o más valores. Las barras pueden orientarse verticalmente u horizontalmente.
-
Gráfico de sectores:nos permiten observar los datos de una variable en forma global, haciendo una comparación inmediata del porcentaje o la frecuencia de cada una de sus categorías, facilitando el reconocimiento del aporte de cada una de ellas al total de la variable. Generalmente este tipo de gráfico se utiliza para la descripción de variables categóricas, aunque en algunas ocasiones se puede aplicar a las variables de escala.
-
Histograma: En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados, ya sea en forma diferencial o acumulada. Sirven para obtener una "primera vista" general, o panorama, de la distribución de la población, o la muestra, respecto a una característica, cuantitativa y continua, de la misma y que es de interés para el observador.
-
Diagrama de dispersión: es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos. Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical. Un diagrama de dispersión se llama también gráfico de dispersión.
-
Gráfico lineal: muestran una serie como un conjunto de puntos conectados mediante una sola línea. Los gráficos de líneas se usan para representar grandes cantidades de datos que tienen lugar durante un período continuado de tiempo.
Línea suavizada: Gráfico de líneas que usa una línea curva en lugar de una línea normal.
Línea escalonada: Gráfico de líneas que usa una línea escalonada en lugar de una línea normal. La línea escalonada conecta puntos mediante una línea que adopta el aspecto de los peldaños de una escalera.
-
Pictograma: Es el nombre con el que se denomina a los signos de los sistemas alfabéticos basados en dibujos significativos.
En la actualidad es entendido como un signo claro y esquemático que sintetiza un mensaje sobrepasando la barrera del lenguaje; con el objetivo de informar y/o señalizar.
Medidas de Tendencia Central Para Datos No Agrupados.
-
Media aritmética: esta es la medida de tendencia central más conocida y la definimos como la sumatoria de todos los datos en estudio dividida entre el total de ellos.
-
Mediana: esta medida nos da a conocer el valor que se encuentra ubicado a la mitad de un conjunto de datos, es decir nos permite conocer por debajo de que valor se encuentra nuestro 50% de datos.
-
Moda: es el dato que presenta mayor frecuencia, es decir el que se repite más.
Se puede dar el caso que en un conjunto de datos haya de ellos con la máxima frecuencia, entonces decimos que es , si existieran seria , pero si entonces
Medidas de Tendencia Central para Datos Agrupados.
-
Media aritmética: para determinar esta medida en un conjunto de datos agrupados, podemos utilizar las siguientes expresiones, según sea el caso.
Donde:
me= mediana
LRI= límite real inferior de la clase en donde se ubica la mediana
n= número de datos en estudio
f= frecuencia absoluta de la clase en donde se ubica la mediana
fea= frecuencia acomulada de la clase anterior a donde se ubica la mediana
TC= tamaño de clase del intervalo donde se ubica la mediana
-
Moda: para determinar la moda en un conjunto de datos agrupados, podemos utilizar la siguiente expresión.
Donde:
mo= moda
LRI= límite
d1= diferencia entre la frecuencia mayor y la frecuencia de la clase siguiente.
TC= tamaño de clase del intervalo con la mayor frecuencia
Medidas de Dispersión.
Medidas de dispersión para datos No Agrupados.
Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la media.
Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será a la media. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
-
Rango estadístico.
El rango o recorrido estadístico es la diferencia entre el valor máximo y el valor mínimo. Se le suele simbolizar con
R= DM-Dm
-
La varianza: es una medida estadística que mide la dispersión de los valores respecto a un valor central (media), es decir, es el cuadrado de las desviaciones.
-
Desviación estándar: La varianza a veces no se interpreta claramente, ya que se mide en unidades cuadráticas. Para evitar ese problema se define otra medida de dispersión, que es la desviación típica, o desviación estándar, que se halla como la raíz cuadrada positiva de la varianza. La desviación típica informa sobre la dispersión de los datos respecto al valor de la media; cuanto mayor sea su valor, más dispersos estarán los datos. Esta medida viene representada en la mayoría de los casos por S, dado que es su inicial de su nominación en inglés.
Introducción a la Probabilidad.
La probabilidad la podemos definir como la medida de la incertidumbre de un hecho. Esta medida debe ser entre 0 y 1 si hablamos en forma decimal y entre 0 y 100 si hablamos en forma porcentual.
Dentro del estudio de la probabilidad es muy importante que tengamos bien definidos algunos conceptos como los siguientes:
-
Experimento: es cualquier proceso que genere resultados bien definidos.
-
Espacio muestral: es el conjuntode todos los posibles resultados de un experimento. Se representa con la letra S.Para determinar el espacio muestral de un experimento nos apoyamos de representaciones graficas como lo es el diagrama de árbol.
-
Evento: es un subconjunto o una parte del espacio muestral.
Operaciones con Evento.
-
Unión de eventos:sean A y B dos eventos cuales quiera su unión estará formada por los elementos que pertenecen a A o B, o ambos. Su símbolo es: “U” y su conectivo es “O”, su representación gráfica es:
-
Intersección de eventos: sea A y B dos eventos cuales quieran su intersección está formada por los elementos que pertenecen a A y a B, es decir los que se repiten. Su símbolo es: “Π” y su conectivo es “y”, su representación gráfica es:
-
Eventos mutuamente excluyentes.
Se dice que dos o más eventos son mutuamente excluyentes cuando no tienen ningún elemento en común, por lo que su presentación grafica es:
Su ley adictiva es: la probabilidad de A o B es igual a la probabilidad de A con B.
P(A o B) = P(A U B) = P(A) + P(B).
-
Un grupo universitario tiene 50 alumnos los cuales presentaron exámenes finales. La información brindada por parte del profesor, es que de estos alumnos, 20 reprobaron inglés y 18 estadística; pero también se supo que dentro de estos alumnos hay 8 que reprobaron inglés y estadística.
Si seleccionamos al azar a uno de estos estudiantes, ¿Cuál es la probabilidad de que este:
-
Halla reprobado inglés.
-
Halla reprobado estadística.
-
Halla reprobado inglés y estadística.
-
Halla reprobado inglés o estadística, o ambas.
-
Únicamente halla reprobado inglés.
-
Únicamente halla reprobado estadística.
-
Que no halla reprobado ninguna de estas dos materias.
Datos:
Total= 50
Reprobado Inglés=20
Reprobado Estadística=18
Reprobado Inglés y Estadística=8
Resultados:
-
20/50=0.40=40%
-
18/50=0.36=36%
-
8/50=0.16=16%
-
30/50=0.60=60%
-
12/50=0.24=24%
-
10/50=0.2=2%
-
20/50=0.4=4%