Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Probabilidad y estadística (página 2)



Partes: 1, 2

.Es la parte de la estadística matemática
que se encarga del estudio de los métodos
para la obtención del modelo de
probabilidad
que sigue una variable aleatoria de una determinada población, a través de una muestra obtenida
de la misma.

.proceso de
análisis que consiste en inferir las
propiedades de una población con base en la
caracterización de la muestra.

TEORÍA DE DECISIÓN

Estudio formal sobre la toma de
decisiones. Los estudios de casos reales, que se sirven de la
inspección y los experimentos, se
denominan teoría
descriptiva de decisión; los estudios de la toma de
decisiones racionales, que utilizan la lógica
y la estadística, se llaman teoría preceptiva de
decisión. Estos estudios se hacen más complicados
cuando hay más de un individuo,
cuando los resultados de diversas opciones no se conocen con
exactitud y cuando las probabilidades de los distintos resultados
son desconocidas. La teoría de decisión comparte
características con la teoría de
juegos, aunque en la teoría de decisión el
"adversario" es la realidad en vez de otro jugador o
jugadores.

Al hacer un análisis sobre esta
teoría, y mirándola desde el punto de vista de un
sistema, se puede
decir que al tomar una decisión sobre un problema en
particular, se debe tener en cuenta los puntos de dificultad que
lo componen, para así empezar a estudiarlos uno a uno
hasta obtener una solución que sea acorde a lo que se esta
esperando obtener de este, y sino, buscar otras soluciones que
se acomoden a lo deseado.

La teoría de decisión, no solamente
se puede ver desde el punto de vista de un sistema, sino en
general, porque esta se utiliza a menudo para tomar decisiones de
la vida cotidiana, ya que muchas personas piensan que la vida es
como una de las teorías; La teoría del juego, que
para poder
empezarlo y entenderlo hay que saber jugarlo y para eso se deben
conocer las reglas de este, para que no surjan equivocaciones al
empezar la partida.

Se puede decir que la Teoría de
decisión es una de las ramas que sirve para que al dar un
paso, no se vaya a dar en falso, porque si se conoce de esta no
hay el porque de equivocarse.

POBLACION EN ESTADISTICA

El concepto de
población en estadística va más allá
de lo que comúnmente se conoce como tal. Una
población se precisa como un conjunto finito o infinito de
personas u objetos que presentan características comunes.
"Una población es un conjunto de todos los elementos que
estamos estudiando, acerca de los cuales intentamos sacar
conclusiones". Levan & Rubin (1996). "Una población es
un conjunto de elementos que presentan una característica
común". Cadenas (1974). Ejemplo: Los miembros del Colegio
de Ingenieros del Estado
Cojedes. El tamaño que tiene una población es un
factor de suma importancia en el proceso de investigación estadística, y este
tamaño vienen dado por el número de elementos que
constituyen la población, según el número de
elementos la población puede ser finita o infinita. Cuando
el número de elementos que integra la población es
muy grande, se puede considerar a esta como una población
infinita, por ejemplo; el conjunto de todos los números
positivos. Una población finita es aquella que está
formada por un limitado número de elementos, por ejemplo;
el número de estudiante del Núcleo San Carlos de la
Universidad
Nacional Experimental Simón Rodríguez. Cuando la
población es muy grande, es obvio que la observación de todos los elementos se
dificulte en cuanto al trabajo,
tiempo y
costos necesarios
para hacerlo. Para solucionar este inconveniente se utiliza una
muestra estadística. Es a menudo imposible o poco
práctico observar la totalidad de los individuos, sobre
todos si estos son muchos. En lugar de examinar el grupo entero
llamado población o universo, se
examina una pequeña parte del grupo llamada muestra.

Población o Universo: es el total del
conjunto de elementos u objetos de los cuales se quiere obtener
información. Aquí el término
población tiene un significado mucho más amplio que
el usual, ya que puede referirse a personas, cosas, actos,
áreas geográficas e incluso al tiempo.

La población debe estar perfectamente
definida en el tiempo y en el espacio, de modo que ante la
presencia de un potencial integrante de la misma, se pueda
decidir si forma parte o no de la población bajo estudio.
Por lo tanto, al definir una población, se debe cuidar que
el conjunto de elementos que la integran quede perfectamente
delimitado.

MUESTRA ALEATORIA

Es una muestra sacada de una población
de unidades, de manera que todo elemento de la población
tenga la misma probabilidad de
selección y que las unidades diferentes se
seleccionen independientemente.

Muestra aleatoria: muestra elegida
independientemente de todas las demás, con la misma
probabilidad que cualquier otra y cuyos elementos están
elegidos independientemente unos de otros y con la misma
probabilidad. Muestra aleatoria

Una muestra aleatoria es una muestra sacada de
una población de unidades, de manera que todo elemento de
la población tenga la misma probabilidad de
selección y que las unidades diferentes se seleccionen
independientemente.

Variables aleatorias y distribuciones

Se llama variable aleatoria aquella que toma
diversos valores o
conjuntos de
valores con distintas probabilidades. Existen 2
características importantes de una variable aleatoria, sus
valores y las probabilidades asociadas a esos valores.

Una tabla, gráfico o expresión
matemática que de las probabilidades con que una variable
aleatoria toma diferentes valores, se llama distribución de la variable aleatoria.

Como vimos anteriormente, la inferencia
estadística se relaciona con las conclusiones que se
pueden sacar acerca de una población de observaciones
basándose en una muestra de observaciones. Entonces
intervienen las probabilidades en el proceso de la
selección de la muestra; en este caso se desea saber algo
sobre una distribución con base en una muestra aleatoria
de esa distribución.

De tal manera vemos que trabajamos con muestras
aleatorias de una población que es mas grande que la
muestra obtenida; tal muestra aleatoria aislada no es mas que una
de muchas muestras diferentes que se habrían podido
obtener mediante el proceso de selección. Este concepto es
realmente importante en estadística.

La distribución de un estadígrafo
en todas las muestras aleatorias de tamaño n tomadas de
una población, se llama distribución muestral del
estadígrafo para muestras aleatorias de tamaño
n.

Para muestras aleatorias de tamaño n de
toda población base, la media de la distribución
muestral de la media muestral, es la mediaµ de la
población de base.

Para muestras aleatorias de tamaño n de
toda población base, la varianza de la distribución
muestral de la media muestral, es s2/ n que es la varianza de la
población de base dividida por el tamaño de la
muestra.

Para muestras aleatorias de tamaño n de
toda población de base, la media de la distribución
muestral de la varianza muestral s2, es la varianza s2 de la
población de base.

PARAMETROS ALEATORIOS

Se llama variable aleatoria aquella que toma
diversos valores o conjuntos de valores con distintas
probabilidades. Existen 2 características importantes de
una variable aleatoria, sus valores y las probabilidades
asociadas a esos valores.

Una tabla, gráfico o expresión
matemática que dé las probabilidades con que una
variable aleatoria toma diferente valores, se llama
distribución de la variable aleatoria.

Como vimos anteriormente, la inferencia
estadística se relaciona con las conclusiones que se
pueden sacar acerca de una población de observaciones
basándose en una muestra de observaciones. Entonces
intervienen las probabilidades en el proceso de la
selección de la muestra; en este caso se desea saber algo
sobre una distribución con base en una muestra aleatoria
de esa distribución.

De tal manera vemos que trabajamos con muestras
aleatorias de una población que es más grande que
la muestra obtenida; tal muestra aleatoria aislada no es
más que una de muchas muestras diferentes que se
habrían podido obtener mediante el proceso de
selección. Este concepto es realmente importante en
estadística.

ENFOQUE CLASICO EN ESTADISTICA

En el enfoque clásico los primeros
gerentes y autores sobre administración buscaban "el mejor camino",
una serie de principios para
crear una estructura
organizacional que funcionara bien en todas las situaciones.
Max Weber,
Frederick Taylor y Henri
Fayol fueron
los principales contribuyentes al llamado enfoque clásico
para diseñar organizaciones.
Ellos pensaban que las organizaciones más eficientes y
eficaces tenían una estructura
jerárquica en la cual los miembros de la
organización, en sus acciones, eran
guiados por un sentimiento de obligación en la organización y por una serie de regla y
reglamentos racionales. Según Weber, cuando
estas organizaciones se habían desarrollado plenamente, se
caracterizaban por la especialización de tareas, los
nombramientos por méritos, la oferta de
oportunidades para que sus miembros hicieran carrera, la
rutinización de actividades y un clima impersonal
y racional en la organización, Weber lo llamó
burocracia.

Weber alababa la burocracia porque
establecía reglas para tomar decisiones, una cadena de
mando clara y a la promoción de las personas con base en la
capacidad y la experiencia, en lugar del favoritismo o el
capricho. Asimismo, admiraba que la burocracia especificaba, con
claridad, la autoridad y la
responsabilidad lo cual, en su opinión,
facilitaba la evaluación
de los resultados y su recompensa. Tanto él como otros
autores clásicos, así como sus
contemporáneos en la
administración, vivieron en una época en que
este enfoque para diseñar organizaciones se fundamentaba
en el precedente de los servicios
civiles del gobierno. El
término burocracia no siempre ha tenido la
connotación negativa moderna; es decir, un marco para la
actividad lenta, ineficiente, sin imaginación de las
organizaciones.

ENFOQUE BAYESIANO EN ESTADISTICA

En el enfoque Bayesiano de la Estadística,
la incertidumbre presente en un modelo dado, es representada a
través de una distribución de probabilidad sobre
los posibles valores del parámetro desconocido
(típicamente multidimensional) que define al modelo. El
Teorema de Bayes, permite entonces incorporar la
información contenida en un conjunto de datos,
produciendo una descripción conjunta de la incertidumbre
sobre los valores de
los parámetros del modelo a través de la
distribución final. Desafortunadamente, la
implementación de las técnicas
Bayesianas usualmente requiere de un esfuerzo computacional muy
alto. La mayor parte de este esfuerzo se concentra en el cálculo de
ciertas características de la distribución final
del parámetro de interés
(que llamaremos resúmenes inferenciales). Así, por
ejemplo, para pasar de una distribución conjunta a una
colección de distribuciones y momentos marginales que sean
útiles para hacer inferencias sobre subconjuntos de
parámetros, se requiere integrar. En la mayoría de
los casos los resúmenes inferenciales básicos se
reducen a integrales de
la forma donde, , , y . Así, por ejemplo, donde denota a
la función
indicadora del conjunto y denota a la distribución
predictiva de una observación futura. En la
práctica es común que la dimensión de sea
muy grande. Por otro lado, excepto en aplicaciones muy sencillas
tanto como pueden llegar a tener formas muy complicadas. En la
gran mayoría de los problemas las
integrales requeridas no pueden resolverse analíticamente,
por lo que es necesario contar con métodos
numéricos eficientes que permitan calcular o aproximar
integrales en varias dimensiones.

El propósito de estas notas es revisar de
manera general algunos de los métodos clásicos para
calcular integrales, tales como la aproximación de
Laplace,
cuadratura (integración numérica) y el método de
Monte Carlo, así como discutir algunas de las
técnicas de integración desarrolladas durante los
últimos años y conocidas con el nombre
genérico de técnicas de Monte Carlo vía
cadenas de Markov. El lector interesado en el enfoque Bayesiano
de la Estadística o en aspectos específicos de los
métodos aquí discutidos puede consultar los
libros de
Bernardo y Smith (1994) y O"Hagan (1994), así como las
referencias que ahí se incluyen.

En términos generales, los métodos
antes mencionados serán más eficientes y
darán resultados más precisos en la medida en que
la distribución final sea más parecida a una
distribución normal. Es por esta razón que en la
mayoría de los casos resulta conveniente trabajar en
términos de una reparametrización del modelo, de
manera que cada uno de los nuevos parámetros tome valores
en todo y su distribución final sea aproximadamente
normal. También es importante que la correlación
final entre los nuevos parámetros no sea muy alta.

En lo que resta de esta sección
describiremos dos problemas que nos servirán para ilustrar
y comparar los métodos discutidos en estas notas. Algunos
de estos métodos han sido instrumentados en el lenguaje S
de S-Plus. El código
correspondiente, así como los resultados principales,
pueden encontrarse en los apéndices al final de este
trabajo.

DESCRIPCION DE DATOS EN ESTADISTICA

La estadística
descriptiva es una parte de la estadística que se
dedica a analizar y representar los datos. Este análisis
es muy básico, pero fundamental en todo estudio. Aunque
hay tendencia a generalizar a toda la población las
primeras conclusiones obtenidas tras un análisis
descriptivo, su poder inferencia es mínimo y
debería evitarse tal proceder. Otras ramas de la
estadística se centran en el contraste de hipótesis y su generalización a la
población.

Algunas de las técnicas empleadas en este
primer análisis de los datos se enumeran más abajo
en el listado de conceptos básicos. Básicamente, se
lleva a cabo un estudio calculando una serie de medidas de
tendencia central, para ver en qué medida los datos se
agrupan o dispersan en torno a un
valor
central.

DATOS AGRUPADOS Y NO AGRUPADOS

Cuando la muestra que se ha tomado de la
población o proceso que se desea analizar, es decir,
tenemos menos de 20 elementos en la muestra, entonces estos datos
son analizados sin necesidad de formar clases con ellos y a esto
es a lo que se le llama tratamiento de datos no agrupados.

Cuando la muestra consta de 30 o más
datos, lo aconsejable es agrupar los datos en clases y a partir
de estas determinar las características de la muestra y
por consiguiente las de la población de donde fue tomada.
Antes de pasar a definir cuál es la manera de determinar
las características de interés (media, mediana,
moda, etc.)
cuando se han agrupado en clases los datos de la muestra, es
necesario que sepamos como se agrupan los datos.

FRECUANCIA DE CLASE

Marca de clase (punto medio): punto que divide a
la clase en dos partes iguales. Es el promedio entre los límites
superior e inferior de la clase.

Intervalo de clase: para una distribución
de frecuencias que tiene clases del mismo tamaño, el
intervalo de clase se obtiene restando el límite inferior
de una clase del límite inferior de la siguiente.

FRECUENCIA RELATIVA

Es la relación o cociente entre la
frecuencia absoluta y el número total de observaciones. Es
la proporción entre la frecuencia de un intervalo y el
número total de datos.

PUNTO MEDIO

Punto medio

Punto medio es el punto que divide a un segmento
en dos partes iguales.

El punto medio de un segmento, es único y
equidista de los extremos del segmento. Cumpliendo esta
última condición, pertenece a la mediatriz del
segmento.

La fórmula para determinar el punto medio
de un segmento en el plano, con coordenadas: (x1,y1) y (x2,y2)
es: [(x1 + x2) / 2] + [(y1 + y2) / 2]

LIMITES EN ESTADISTICA

Son los valores extremos que tiene el intervalo
de clase, inferior y superior, entre los cuales van a estar los
valores de los datos agrupados en ese intervalo de clase.

HISTOGRAMA EN ESTADISTICA

El Histograma representa la frecuencia con la que
se presentan los diferentes grupos de datos
de la variable objeto de estudio. Es un conjunto de
rectángulos, los cuales representan a cada una de las
clases. En el eje de abscisas se representan las clases definidas
y en el eje de ordenadas la frecuencia de cada una de ellas. La
amplitud del intervalo de las clases se halla dividiendo el
Recorrido entre el número de clases. El Histograma
proporciona mucha información respecto a la estructura de
los datos. Por tanto, es importante analizar la situación
del centro del Histograma y el ancho del mismo que definen la
tendencia central y la variabilidad del conjunto de datos
respectivamente, así como la forma del Histograma que
identifica algunas de las características del proceso en
estudio.

Historia de la Estadística""

Etimología

La palabra "estadística" procede del
latín statisticum collegium ("consejo de Estado") y de su
derivado italiano statista ("hombre de
Estado" o "político"). El término alemán
Statistik, introducido por Gottfried Achenwall (1749), designaba
originalmente el análisis de datos del Estado, es decir,
"la ciencia del
Estado". No fue hasta el siglo XIX cuando el término
estadística vino a designar la colección y
clasificación de datos.

En su origen, por tanto, la estadística
estuvo asociada al control de datos
poblacionales por parte de la administración
pública. Este tipo de prácticas han sido
analizadas por Michel Foucault como una
forma de impolítica, un estilo de gobierno caracterizado
por regular a las poblaciones a través del biopoder. Desde
los comienzos de la civilización han existido formas
sencillas de estadística, pues ya se utilizaban
representaciones gráficas y otros símbolos en pieles, rocas, palos de
madera y
paredes de cuevas para contar el número de personas,
animales o
ciertas cosas. Hacia el año 3000 a. C. los babilonios
usaban ya pequeñas tablillas de arcilla para recopilar
datos en tablas sobre la producción agrícola y de los
géneros vendidos o cambiados mediante trueque. Los
egipcios analizaban los datos de la población y la renta
del país mucho antes de construir las pirámides en
el siglo XXXI a. C. Los libros bíblicos de Números
y Crónicas incluyen, en algunas partes, trabajos de
estadística. El primero contiene dos censos de la
población de Israel y el
segundo describe el bienestar material de las diversas tribus
judías. En China
existían registros
numéricos similares con anterioridad al año 2000 a.
C. Los griegos clásicos realizaban censos cuya
información se utilizaba hacia el 594 a. C. para cobrar
impuestos.

HISTOGRAMA DE FRECUENCIA RELATIVA

El histograma de una imagen representa
la frecuencia relativa de los niveles de gris de la imagen. Las
técnicas de modificación del histograma de una
imagen son útiles para aumentar el contraste de imágenes
con histogramas muy concentrados.

Sea u una imagen de tamaño NxN, la
función de distribución del histograma es: Fu(l) =
(Numerodepixels(i,j)talesqueu(i,j) < = l) / N2

Ejemplos de otros tipos de representaciones
gráficas: Hay histogramas donde se agrupan los datos en
clases, y se cuenta cuántas observaciones (frecuencia
absoluta) hay en cada una de ellas. En algunas variables
(variables cualitativas) las clases están definidas de
modo natural, p.e sexo con dos
clases: mujer,
varón o grupo sanguíneo con cuatro: A, B, AB, O. En
las variables cuantitativas, las clases hay que definirlas
explícitamente (intervalos de clase).

Se representan los intervalos de clase en el eje
de abscisas (eje horizontal) y las frecuencias, absolutas o
relativas, en el de ordenadas (eje vertical).

A veces es más útil representar las
frecuencias acumuladas.

O representar simultáneamente los
histogramas de una variable en dos situaciones distintas.

Otra forma muy frecuente, de representar dos
histogramas de la misma variable en dos situaciones
distintas.

En las variables cuantitativas o en las
cualitativas ordinales se pueden representar polígonos de frecuencia en lugar de
histogramas, cuando se representa la frecuencia acumulativa, se
denomina ojiva.

MEDIDAS DE TENDENCIA CENTRAL

También se les conoce como medidas de
posición o promedios son los valores que se utilizan para
representar el conjunto de observaciones. Tienden a situarse en
el centro del conjunto de los datos, previamente ordenados.

  • Las principales medidas centrales son:

La media, la mediana y la moda.

MEDIA ARITMETICA GEOMETRICA PONDERADA

Media aritmética:

Es uno de los promedios de mayor
utilización. Su generalización se debe a las
propiedades que posee, que la convierten en un indicador muy
representativo.

Se obtiene sumando los productos de
cada valor de la variable por su respectiva frecuencia, y
dividiendo esta suma por el total de observaciones.

MEDIANA EN ESTADISTICA

Mediana:

Es el valor de la variable que divide a la
distribución de frecuencias en dos partes iguales.

  • Para hallar la mediana ordenamos la
    frecuencias de mayor a menor o viceversa, y si hay un
    número impar de valores la mediana es el central y si
    es par será la semisuma de los dos valores.

Monografias.com

MEDIDAS DE DISPERSIÓN

MODA EN ESTADÍSTICA

En Estadística, la moda es el valor que
cuenta con una mayor frecuencia en una distribución de
datos.

Hablaremos de una distribución bimodal de
los datos, cuando encontremos dos modas, es decir, dos datos que
tengan la misma frecuencia absoluta máxima. Una
distribución trimodal de los datos es en la que
encontramos tres modas. Si todas las variables tienen la misma
frecuencia diremos que no hay moda.

El intervalo modal es el de mayor frecuencia
absoluta. Cuando tratamos con datos agrupados antes de definir la
moda, se ha de definir el intervalo modal.

La moda, cuando los datos están agrupados,
es un punto que divide al intervalo modal en dos partes de la
forma p y c-p, siendo c la amplitud del intervalo, que verifiquen
que:

Siendo la frecuencia absoluta del intervalo modal
las frecuencias absolutas de los intervalos anterior y posterior,
respectivamente, al intervalo modal.

Se llama típicaión de un conjunto
de datos al grado en que los diferentes valores de los datos
tiende a extenderse alrededor del valor medio utilizado.

Este grado de típicaión se mide por
medio de los indicadores
típicaións llamados medidas de típica
ión, entre ellas tenemos el rango, la varianza, y la
típicaión típica.

Hasta el momento hemos estudiado los valores
centrales de la distribución, pero también es
importante conocer si los valores en general están cerca o
alejados de estos valores centrales, es por lo que surge la
necesidad de estudiar medidas de dispersión.

Rango:

Es la primera medida que vamos a estudiar, se
define como la diferencia existente entre el valor mayor y el
menor de la distribución,. Lo notaremos como R. Realmente
no es una medida muy significativa e la mayoría de los
casos, pero indudablemente es muy fácil de calcular.

Hemos estudiado varias medidas de centralización, por lo que podemos hablar
de desviación con respecto a cualquiera de ellas, sin
embargo, la mas utilizada es con respecto a la media.

Desviación:

Es la diferencia que se observa entre el valor de
la variable y la media aritmética. La denotaremos por
di.

No es una medida, son muchas medidas, pues cada
valor de la variable lleva asociada su correspondiente
desviación, por lo que precisaremos una medida que resuma
dicha información.

La primera solución puede ser calcular la
media de todas las desviaciones, es decir, si consideramos como
muestra la de todas las desviaciones y calculamos su media. Pero
esta solución es mala pues como veremos siempre va a ser
0.

Monografias.com

Luego por lo tanto esta primera idea no es
valida, pues las desviaciones positivas se contrarrestan con las
negativas.

Para resolver este problema, tenemos dos
caminos:

Tomar el valor absoluto de las desviaciones.
Desviación media Elevar al cuadrado las
desviaciones. Varianza.

Varianza:

Monografias.com

MEDIDAS DE DISPERSIÓN

VARIANZA EN ESTADISTICA

Varianza (Concepto)

Es el estadístico de dispersión que
mide el grado de variabilidad que sintetiza el grado de
homogeneidad o heterogeneidad de las diferencias individuales
entre los casos de una muestra (o de varias muestras) respecto de
una o varias variables numéricas continuas o
cuantitativas.

En teoría de probabilidad y
estadística la varianza es un estimador de la divergencia
de una variable aleatoria x de su valor esperado E[x].
También se utilizan la desviación estándar,
la raíz de la varianza.

La varianza s2 de una variable aleatoria x se
define como

Método abreviado:

También se expresa como la diferencia
entre el momento de orden 2 y el cuadrado del valor esperado:

Mientras que la desviación estándar
es el promedio de la distancia de cada punto respecto del
promedio la varianza es como un área.

s 2 = å f(x – m )2 / N

s 2 = varianza de la población.

x = punto medio de cada una de las clases.

m = media de la población.

N = número total de elementos de la
población.

f = frecuencia de cada una de las clases donde
vean el 2 se eleva al cuadrado y este símbolo (å) es
de sumatoria

Cruz Bazan R. (Instituto Tecnológico
Superior del Oriente del Estado De Hidalgo).

DESVIACION ESTANDAR

La desviación estándar (o
desviación típica) es una medida de
dispersión para variables de razón (ratio o
cociente) y de intervalo, de gran utilidad en la
estadística descriptiva. Es una medida (cuadrática)
de lo que se apartan los datos de su media, y por tanto, se mide
en las mismas unidades que la variable.

Para conocer con detalle un conjunto de datos, no
basta con conocer las medidas de tendencia central, sino que
necesitamos conocer también la desviación que
representan los datos en su distribución, con objeto de
tener una visión de los mismos más acorde con la
realidad a la hora de describirlos e interpretarlos para la toma
de decisiones.

DESVIACION MEDIANA

Desviación Mediana.

El criterio que guía esta
estadística, radica en el uso de diferencias de cada dato
respecto a la mediana muestral m.

Si estas diferencias son muy grandes, entonces
estamos ante un caso de gran variabilidad, y si son
pequeñas se espera que la variabilidad sea
pequeña.

Naturalmente que el criterio que parece
más apropiado es agrupar las discrepancias individuales y
tratarlas en conjunto.

Un agrupamiento natural sería una suma de
ellas, pero el sólo uso de las diferencias no garantiza
que se pueda medir discrepancias porque algunas
(prácticamente la mitad) serán menores que la
mediana, con diferencias negativas, y el resto mayores que la
mediana, con diferencias positivas, y al sumar dichos valores
habría compensaciones entre valores negativos y
positivos.

Por lo tanto, una salida a esta dificultad es
considerar el valor absoluto de las diferencias calculadas y
promediarlos.

Puede verse entonces que, cuanto mayor sea la
dispersión existente entre los datos, tanto mayor
tenderá a ser el promedio del valor absoluto de las
diferencias de los datos, respecto de la mediana muestral.

Esta estadística se encuentra medida en la
misma escala que los
datos originales, lo que facilita su comprensión.

RANGO EN ESTADISTICA

RANGO

El rango en estadística es la diferencia o
resta del límite superior menos el límite inferior,
de los datos utilizados en una clase.

Se simboliza con la letra R mayúscula.

Para averiguar el rango de un grupo de
números:

Ordene los números según su
tamaño Reste el valor mínimo al valor
máximo.

PARAMETROS PARA DATOS AGRUPADOS

En el estudio de las distribuciones de datos, la
estadística selecciona un conjunto de los mismos de forma
que sean representativos de todos los de la
distribución.

  • Estos datos seleccionados se denominan
    características de la distribución o
    parámetros estadísticos.

MEDIA DE DATOS AGRUPADOS

MEDIA DE DATOS AGRUPADOS Media para un conjunto
de datos agrupados.

La media para datos agrupados es la
siguiente:

Donde es el total de datos, m el número
total de clase y es la frecuencia de datos.

La definición es claramente entendida como
una extensión de la definición que dimos para datos
no agrupados, ya que es lógico suponer que datos que se
repiten con una frecuencia pueden simplificar la suma por, por
supuesto que los índices de la segunda suma con respecto a
la primera corren con respecto a menor número, es decir,
con respecto al número de agrupamientos m.

Ejemplo:

Sean los siguientes datos 1, 1, 2, 2, 4, 4, 5, 2,
3, 2, 3, 4, 1, 2, 1. La media para dichos datos es
aproximadamente igual a 2.4666, es decir,

Sin embargo, el mismo resultado podemos obtener
si tomamos la frecuencia con que aparecen los datos, en este
caso:

Dato

Frecuencia

Producto de
frecuencias y datos

1 4 4 2 5 10 3 2 6 4 3 12 5 1 5

La obtención de la media finalmente se
convierte en para la obtención de la media cuando las
frecuencias están sujetas a la elección de clase
bajo los métodos mostrados, se realiza de igual manera, la
única diferencia existe en determinar el valor como el
punto medio de cada clase, veamos el siguiente ejemplo.

Supongamos que una clínica de salud, obtiene una tabla de
edades de las personas que son atendidas en un fin de semana,
para los que presentan la siguiente tabla. ¿Cuál
será el promedio de edades de los enfermos que acudieron a
recibir atención médica?

DISTRIBUCION DE FRECUENCIA

La distribución de frecuencia es la
representación estructurada, en forma de tabla, de toda la
información que se ha recogido sobre la variable que se
estudia. Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada x x x x x X1 n1 n1 f1 =
n1 / n f1 X2 n2 n1 + n2 f2 = n2 / n f1 + f2 . . . . . Xn-1 nn-1
n1 + n2 +..+ nn-1 fn-1 = nn-1 / n f1 + f2 +..+fn-1 f( n fn = nn /
n (Xn nn

Siendo X los distintos valores que puede tomar la
variable. Siendo n el número de veces que se repite cada
valor. Siendo f el porcentaje que la repetición de cada
valor supone sobre el total Veamos un ejemplo: Medimos la altura
de los niños
de una clase y obtenemos los siguientes resultados (cm): Alumno
Estatura Alumno Estatura Alumno Estatura x x x x x x Alumno 1
1,25 Alumno 11 1,23 Alumno 21 1,21 Alumno 2 1,28 Alumno 12 1,26
Alumno 22 1,29 Alumno 3 1,27 Alumno 13 1,30 Alumno 23 1,26 Alumno
4 1,21 Alumno 14 1,21 Alumno 24 1,22 Alumno 5 1,22 Alumno 15 1,28
Alumno 25 1,28 Alumno 6 1,29 Alumno 16 1,30 Alumno 26 1,27 Alumno
7 1,30 Alumno 17 1,22 Alumno 27 1,26 Alumno 8 1,24 Alumno 18 1,25
Alumno 28 1,23 Alumno 9 1,27 Alumno 19 1,20 Alumno 29 1,22 Alumno
10 1,29 Alumno 20 1,28 Alumno 30 1,21

Si presentamos esta información
estructurada obtendríamos la siguiente tabla de
frecuencia: Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada x x x x x 1,20 1 1 3,3%
3,3% 1,21 4 5 13,3% 16,6% 1,22 4 9 13,3% 30,0% 1,23 2 11 6,6%
36,6% 1,24 1 12 3,3% 40,0% 1,25 2 14 6,6% 46,6% 1,26 3 17 10,0%
56,6% 1,27 3 20 10,0% 66,6% 1,28 4 24 13,3% 80,0% 1,29 3 27 10,0%
90,0% 1,30 3 30 10,0% 100,0% Si los valores que toma la variable
son muy diversos y cada uno de ellos se repite muy pocas veces,
entonces conviene agruparlos por intervalos, ya que de otra
manera obtendríamos una tabla de frecuencia muy extensa
que aportaría muy poco valor a efectos de síntesis.

La distribución de frecuencia es la
representación estructurada, en forma de tabla, de toda la
información que se ha recogido sobre la variable que se
estudia. Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada x x x x x X1 n1 n1 f1 =
n1 / n f1 X2 n2 n1 + n2 f2 = n2 / n f1 + f2 . . . . . Xn-1 nn-1
n1 + n2 +..+ nn-1 fn-1 = nn-1 / n f1 + f2 +..+fn-1 f( n fn = nn /
n (Xn nn

Siendo X los distintos valores que puede tomar la
variable. Siendo n el número de veces que se repite cada
valor. Siendo f el porcentaje que la repetición de cada
valor supone sobre el total Veamos un ejemplo: Medimos la altura
de los niños de una clase y obtenemos los siguientes
resultados (cm): Alumno Estatura Alumno Estatura Alumno Estatura
x x x x x x Alumno 1 1,25 Alumno 11 1,23 Alumno 21 1,21 Alumno 2
1,28 Alumno 12 1,26 Alumno 22 1,29 Alumno 3 1,27 Alumno 13 1,30
Alumno 23 1,26 Alumno 4 1,21 Alumno 14 1,21 Alumno 24 1,22 Alumno
5 1,22 Alumno 15 1,28 Alumno 25 1,28 Alumno 6 1,29 Alumno 16 1,30
Alumno 26 1,27 Alumno 7 1,30 Alumno 17 1,22 Alumno 27 1,26 Alumno
8 1,24 Alumno 18 1,25 Alumno 28 1,23 Alumno 9 1,27 Alumno 19 1,20
Alumno 29 1,22 Alumno 10 1,29 Alumno 20 1,28 Alumno 30 1,21

Si presentamos esta información
estructurada obtendríamos la siguiente tabla de
frecuencia: Variable Frecuencias absolutas Frecuencias relativas
(Valor) Simple Acumulada Simple Acumulada x x x x x 1,20 1 1 3,3%
3,3% 1,21 4 5 13,3% 16,6% 1,22 4 9 13,3% 30,0% 1,23 2 11 6,6%
36,6% 1,24 1 12 3,3% 40,0% 1,25 2 14 6,6% 46,6% 1,26 3 17 10,0%
56,6% 1,27 3 20 10,0% 66,6% 1,28 4 24 13,3% 80,0% 1,29 3 27 10,0%
90,0% 1,30 3 30 10,0% 100,0% Si los valores que toma la variable
son muy diversos y cada uno de ellos se repite muy pocas veces,
entonces conviene agruparlos por intervalos, ya que de otra
manera obtendríamos una tabla de frecuencia muy extensa
que aportaría muy poco valor a efectos de síntesis.
(Tal como se verá en la siguiente lección).

DISTRIBUCIONES NUMERICAS

Distribución de frecuencia de clase o de
datos Agrupados:

Es aquella distribución en la que la
disposición tabular de los datos estadísticos se
encuentra ordenada en clases y con la frecuencia de cada clase;
es decir, los datos originales de varios valores adyacentes del
conjunto se combinan para formar un intervalo de clase. No
existen normas
establecidas para determinar cuándo es apropiado utilizar
datos agrupados o datos no agrupados; sin embargo, se sugiere que
cuando el número total de datos (N) es igual o superior 50
y además el rango o recorrido de la serie de datos es
mayor de 20, entonces, se utilizará la distribución
de frecuencia para datos agrupados, también se
utilizará este tipo de distribución cuando se
requiera elaborar gráficos lineales como el histograma, el
polígono de frecuencia o la ojiva.

La razón fundamental para utilizar la
distribución de frecuencia de clases es proporcionar mejor
comunicación acerca del patrón
establecido en los datos y facilitar la manipulación de
los mismos. Los datos se agrupan en clases con el fin de
sintetizar, resumir,

DISTRIBUCIONES CATEGÓRICAS

Si las distribuciones se hallan agrupadas de
acuerdo con alguna cualidad o atributo denominaremos
distribución categórica a esa
distribución.

DISTRIBUCIONES ACOMULADAS

Una distribución de frecuencias acumulada
(ogiva) se usa para determinar cuántos o qué
proporción de los valores de los datos es menor o mayor
que cierto valor.

Una distribución de frecuencias acumuladas
identifica el número acumulado de observaciones incluidas
bajo el límite exacto superior de cada clase de la
distribución. Las frecuencias acumuladas de una clase
pueden determinarse sumando las frecuencias observadas de esa
clase a las frecuencias acumuladas de la clase anterior.

La gráfica de una distribución de
frecuencias acumuladas se llama ojiva. En el caso de
distribuciones acumuladas del tipo "y menor que", esta
gráfica indica las frecuencias acumuladas bajo cada
límite exacto de clase de la distribución de
frecuencias. Si esa gráfica de líneas se suaviza,
se obtiene la curva llamada ojiva.

DISTRIBUCIONES PORCENTUALES ACOMULADAS

Es la distribución de frecuencias
acumuladas

Fi = Ni/N

La Fi multiplicada por 100 se obtiene la
distribución de porcentaje acumulado (Pi) que al igual que
Fi deberá de resultar al final el 100% de N.

TECNICAS DE AGRUPACION DE DATOS

Estoy invitando a todos los maestros, alumnos y
personas interesadas en esta área y/o carrera a colaborar
construyendo este sitio dedicado a esta hermosa y útil
profesión aportando el material apropiado a cada uno de
los más de 1,000 temas que lo componen.

También los invito a aportar material a
los más de 20,000 temas que constituyen las 20 carreras
profesionales que se imparten en los Institutos
Tecnológicos de México y
se encuentran en este sitio.

Es un esfuerzo personal y de
muchos amigos de MEXICO y el Mundo Hispano por devolver algo de
lo mucho que hemos recibido en el proceso de la educación
superior, saludos Prof. lauro soto, Tijuana, BC, mexica

PARA EMPEZAR SOLO USAR OPCION edit. ABAJO Y
EMPIEZA A CONSTRUIR, SALUDOS Y MUCHAS GRACIAS

LIMITES DE CLASE

Límites Reales de Clases

Límite Real Inferior: Se determina sumando
el límite inferior de la clase en la que nos ubicamos,
más el límite superior de la clase contigua
anterior y dividiendo por dos.

Límite Real Superior: Se determina sumando
el límite superior de la clase en la que nos ubicamos,
más el límite superior de la clase contigua
siguiente o superior y dividendo por dos.

Por Ejemplo: Considerando una tabla de
frecuencias:

Salarios diarios de Profesionales de la
industria
petrolera
.

Salarios [Clases o
Categorías]

No. de Profesionales
[Frecuencias de Clase]

30 – 39

7

40 – 49

12

50 – 59

19

60 – 69

16

70 – 79

10

80 – 89

6

90 – 99

2

 

72

Salarios

Límites Inferiores

 

Límites Superiores

*

29

30

39

40

49

50

59

60

69

70

79

80

89

90

99

100

*

Calculando los límites reales de clases
para el primer intervalo de clase, resulta:

LÍMITE REAL INFERIOR = (Límite
inferior actual
+ Límite superior anterior) /
2 = (30+29)/2 = 29.5

LÍMITE REAL SUPERIOR = (Límite
superior actual
+ Límite inferior superior) /
2 = (39+40)/2 = 39.5

Por lo anterior, se concluye que los
límites reales de clases para la tabla del ejemplo
son:

Límites Reales de Clases

Salarios

Límites Reales
Inferiores

 

Límites Reales
Superiores

29.5

39.5

39.5

49.5

49.5

59.5

59.5

69.5

69.5

79.5

79.5

89.5

89.5

99.5

La tabla anterior, resulta ser incierta, ya que
los límites reales de clases no serán coincidentes
con las observaciones reales, pues, si una observación
fuese 49.5, no es posible definir si pertenece al intervalo de
clase (39.5–49.5) o al intervalo de clase
(49.5–59.5). Lo anterior da lugar, que a veces los
"límites reales de clases" sean utilizados,
únicamente como símbolos de las
clases
.

PARA EMPEZAR SOLO USAR OPCION edit. ABAJO Y
EMPIEZA A CONSTRUIR, SALUDOS Y MUCHAS GRACIAS

FRONTERAS DE CLASE

Son los puntos medios entre
límites de clases adyacentes. Los límites de una
clase estarán siempre contenidos entre las fronteras de la
misma clase y tendrán mayor aproximación que los
datos, y por lo tanto también que los límites. La
distancia entre la frontera
inferior y el límite inferior de una misma clase, al igual
que la distancia entre el límite superior y la frontera
superior de una misma clase, es igual a media unidad de
aproximación.

MARCA DE CLASE

En un estudio estadístico, valor
representativo de cada intervalo. Tomamos como marca de clase el
punto medio de cada intervalo y lo calculamos sumando los
extremos del intervalo y dividiéndolo entre 2.

INTERVALO DE CLASE

Es cada uno de los grupos que formamos de los
valores de la variable.

Para obtener la amplitud de cada intervalo,
tenemos que dividir el recorrido de la variable por el
número de grupos que queramos formar.

DIAGRAMA DE TALLOS Y HOJAS

EL DIAGRAMA DE
TALLO Y HOJA

Es una técnica estadística para
representar un conjunto de datos. Cada valor numérico se
divide en dos partes. El o los dígitos principales forman
el tallo y los dígitos secundarios las hojas. Los tallos
están colocados a lo largo del eje vertical, y las hojas
de cada observación a lo largo del eje horizontal.

Ejemplo

La siguiente distribución de frecuencia
muestra el número de anuncios comerciales pagados por los
45 miembros de Grietear Bufadlo Automobile Dealer´s
Association en 1999. Observemos que 7 de los 45 comerciantes
pagaron entre 90 y 99 anuncios (pero menos de 100). Sin embargo,
¿El numero de comerciantes pagados en esta clase se
agrupan en alrededor de 90, están dispersos a lo largo de
toda clase, o se acumulan alrededor de 99? No podemos
saberlo.

# De anuncios comprados Frecuencia

80 a 90 2

90 a 100 7

100 a 110 6

110 a 120 9

120 a 130 8

130 a 140 7

140 a 150 3

150 a 160 3

Sumatoria de la frecuencia= 45

Una técnica que se usa para presentar
información cuantitativa en forma condensada es el
diagrama de tallo y hoja. En el ejemplo anterior no se da la
identidad de
los valores de la clase de 90 a 100. Para ilustrar la construcción de un diagrama de tallo y
hojas usando el número de comerciales comprados,
supongamos que las 7 observaciones en la clase de 90 a 100 sean
96, 94, 93, 94, 95, 96, 97. EL valor de tallo es el digito o
dígitos principales, en este caso el 9. Las hojas son los
dígitos secundarios. EL tallo se coloca a la izquierda de
una línea vertical y los valores de las hojas a la
derecha.

Los valores de las clases de 90 a 100,
aparecerían como sigue:

9 | 6 4 3 4 5 6 7

Por ultimo, ordenamos los valores dentro de cada
tallo de menor a mayor. El segundo renglón del diagrama de
tallo y hojas aparecería como sigue:

9 | 3 4 4 5 6 6 7

Con el diagrama de tallo y hojas podemos observar
rápidamente que hubo 2 comerciantes que compraron 94
comerciales y que el número de anuncios comprados fue
desde 93 hasta 97. Un diagrama de tallo y hojas es semejante a
una distribución de frecuencia, pero con más
información, esto es, valores de datos en lugar de
marcas.

Diagrama de
Pareto

El Diagrama de Pareto es una gráfica en
donde se organizan diversas clasificaciones de datos por orden
descendente, de izquierda a derecha por medio de barras sencillas
después de haber reunido los datos para calificar las
causas. De modo que se pueda asignar un orden de prioridades.

¿Qué es?

El nombre de Pareto fue dado por el Dr. Joseph
Juran en honor del economista italiano Vilfredo Pareto
(1848–1923) quien realizo un estudio sobre la
distribución de la riqueza, en el cual descubrió
que la minoría de la población poseía la
mayor parte de la riqueza y la mayoría de la
población poseía la menor parte de la riqueza. Con
esto estableció la llamada "Ley de Pareto"
según la cual la desigualdad económica es
inevitable en cualquier sociedad.

El Dr. Juran aplicó este concepto a la
calidad,
obteniéndose lo que hoy se conoce como la regla 80/20.

Según este concepto, si se tiene un
problema con muchas causas, podemos decir que el 20% de las
causas resuelven el 80% del problema y el 80% de las causas solo
resuelven el 20% del problema.

Por lo tanto, el Análisis de Pareto es una
técnica que separa los "pocos vitales" de los "muchos
triviales". Una gráfica de Pareto es utilizada para
separar gráficamente los aspectos significativos de un
problema desde los triviales de manera que un equipo sepa
dónde dirigir sus esfuerzos para mejorar. Reducir los
problemas más significativos (las barras más largas
en una Gráfica Pareto) servirá más para una
mejora general que reducir los más pequeños. Con
frecuencia, un aspecto tendrá el 80% de los problemas. En
el resto de los casos, entre 2 y 3 aspectos serán
responsables por el 80% de los problemas.

En relación con los estilos gerenciales de
Resolución de Problemas y Toma de Decisiones (Conservador,
Bombero, Oportunista e Integrador)[1], vemos como la
utilización de esta herramienta puede resultar una
alternativa excelente para un gerente de
estilo Bombero, quien constantemente a la hora de resolver
problemas solo "apaga incendios", es
decir, pone todo su esfuerzo en los "muchos triviales".

¿Cuándo se utiliza? · Al
identificar un producto o servicio para
el análisis para mejorar la calidad.

· Cuando existe la necesidad de llamar la
atención a los problema o causas de una forma
sistemática.

· Al identificar oportunidades para
mejorar

· Al analizar las diferentes agrupaciones
de datos (ej.: por producto, por segmento, del mercado,
área geográfica, etc.)

· Al buscar las causas principales de los
problemas y establecer la prioridad de las soluciones

· Al evaluar los resultados de los cambios
efectuados a un proceso (antes y después)

· Cuando los datos puedan clasificarse en
categorías

· Cuando el rango de cada categoría
es importante

Pareto es una herramienta de análisis de
datos ampliamente utilizada y es por lo tanto útil en la
determinación de la causa principal durante un esfuerzo de
resolución de problemas. Este permite ver cuáles
son los problemas más grandes, permitiéndoles a los
grupos establecer prioridades. En casos típicos, los pocos
(pasos, servicios, ítems, problemas, causas) son
responsables por la mayor parte el impacto negativo sobre la
calidad. Si enfocamos nuestra atención en estos pocos
vitales, podemos obtener la mayor ganancia potencial de nuestros
esfuerzos por mejorar la calidad.

Un equipo puede utilizar la Gráfica de
Pareto para varios propósitos durante un proyecto para
lograr mejoras:

· Para analizar las causas

· Para estudiar los resultados

· Para planear una mejora continua

· Las Gráficas de Pareto son
especialmente valiosas como fotos de "antes y
después" para demostrar qué progreso se ha logrado.
Como tal, la Gráfica de Pareto es una herramienta sencilla
pero poderosa.

¿Cómo se utiliza? 1. Seleccionar
categorías lógicas para el tópico de
análisis identificado (incluir el periodo de tiempo).

2. Reunir datos. La utilización de un
Check List puede ser de mucha ayuda en este paso.

3. Ordenar los datos de la mayor categoría
a la menor

4. totalizar los datos para todas las
categorías

5. calcular el porcentaje del total que cada
categoría representa

6. trazar los ejes horizontales (x) y verticales
(y primario – y secundario)

7. trazar la escala del eje vertical izquierdo
para frecuencia (de 0 al total, según se calculó
anteriormente)

8. de izquierda a derecha trazar las barras para
cada categoría en orden descendente. Si existe una
categoría "otros", debe ser colocada al final, sin
importar su valor. Es decir, que no debe tenerse en cuenta al
momento de ordenar de mayor a menor la frecuencia de las
categorías.

9. trazar la escala del eje vertical derecho para
el porcentaje acumulativo, comenzando por el 0 y hasta el
100%

10. trazar el gráfico lineal para el
porcentaje acumulado, comenzando en la parte superior de la barra
de la primera categoría (la más alta)

11. dar un título al gráfico,
agregar las fechas de cuando los datos fueron reunidos y citar la
fuente de los datos.

12. analizar la gráfica para determinar
los "pocos vitales"

Consejos para la construcción / interpretación Como hemos visto, un
Diagrama de Pareto es un gráfico de barras que enumera las
categorías en orden descendente de izquierda a derecha, el
cual puede ser utilizado por un equipo para analizar causas,
estudiar resultados y planear una mejora continua.

Dentro de las dificultades que se pueden
presentar al tratar de interpretar el Diagrama de Pareto es que
algunas veces los datos no indican una clara distinción
entre las categorías. Esto puede verse en el
gráfico cuando todas las barras son más o menos de
la misma altura.

Otra dificultad es que se necesita más de
la mitad de las categorías para sumar más del 60%
del efecto de calidad, por lo que un buen análisis e
interpretación depende en su gran mayoría de un
buen análisis previo de las causas y posterior recogida de
datos.

En cualquiera de los casos, parece que el
principio de Pareto no aplica. Debido a que el mismo se ha
demostrado como válido en literalmente miles de
situaciones, es muy poco probable que se haya encontrado una
excepción. Es mucho más probable que simplemente no
se haya seleccionado un desglose apropiado de las
categorías. Se deberá tratar de estratificar los
datos de una manera diferente y repetir el Análisis de
Pareto.

Esto nos lleva a la conclusión que para
llevar a cabo un proceso de Resolución de Problemas /Toma
de Decisiones (RP/TD) es necesario manejar cada una de las
herramientas
básicas de la calidad, tanto desde el punto de vista
teórico como desde su aplicación.

La interpretación de un Diagrama de Pareto
se puede definir completando las siguientes oraciones de
ejemplo:

"Existen (número de categorías)
contribuyentes relacionados con (efecto). Pero estos
(número de pocos vitales) corresponden al (número)
% del total (efecto). Debemos procurar estas (número)
categorías pocos vitales, ya que representan la mayor
ganancia potencial para nuestros esfuerzos."

DIAGRAMA DE PUNTOS

El diagrama de puntos resulta de utilidad cuando
el conjunto de datos desrazonablemente pequeño o hay
relativamente pocos datos distintos. Cada dato representa con un
punto encima de la correspondiente localización en una
escala horizontal de medida. Cuando un valor se repite, hay un
punto por cada ocurrencia y se colocan verticalmente. Permite por
ejemplo analizar la dispersión y detectar datos
atípicos.

HISTOGRAMA

Histograma: Es una representación grafica
de datos a través de barras las cuales representan la
frecuencia de las clases. Estas barras deben ser dibujadas sin
espacios entre si y no necesariamente inician en el origen.

Se utiliza en datos cuantitativos en
distribuciones de frecuencia.

Son rectángulos verticales unidos entre
sí, en donde sus lados son los límites reales
inferior y superior de clase y cuya altura es igual ala
frecuencia de clase.

Con la distribución de frecuencia anterior
se tiene:

DIAGRAMA DE BARRAS

Se utilizan rectángulos separados, que
tienen como base a cada uno de los datos y como altura la
frecuencia de ese dato. El diagrama de barras o gráfica de
barras suele elaborarse con algunas variantes; por ejemplo, se
pueden utilizar líneas en vez de rectángulos
ó barras (ó líneas) horizontales en vez de
verticales. Si se tienen datos cuantitativos se grafica en el eje
de las x los valores centrales (marcas de clase), cuyas alturas
son proporcionales a sus frecuencias.

POLIGONO DE FRECUENCIAS

Es la línea quebrada que une los puntos
medios de los lados superiores (marcas de clase) de un
histograma.

Los puntos o vértices del polígono
de frecuencias están situados, por tanto, en las marcas de
clase, ya que estos corresponden a los puntos medios de los
intervalos.

OJIVAS

Una gráfica similar al polígono de
frecuencias es la ojiva, pero ésta se obtiene de aplicar
parcialmente la misma técnica a una distribución
acumulativa y de igual manera que éstas, existen las
ojivas mayores que y las ojivas menores que.

Existen dos diferencias fundamentales entre las
ojivas y los polígonos de frecuencias (y por esto la
aplicación de la técnica es parcial):

Un extremo de la ojiva no se "amarra" al eje
horizontal, para la ojiva mayor que sucede con el extremo
izquierdo; para la ojiva menor que, con el derecho.

En el eje horizontal en lugar de colocar las
marcas de clase se colocan las fronteras de clase. Para el caso
de la ojiva mayor que es la frontera menor; para la ojiva menor
que, la mayor.

Las siguientes son ejemplos de ojivas, a la
izquierda la mayor que, a la derecha la menor que, utilizando los
datos que se usaron para ejemplificar el histograma:

La ojiva mayor que (izquierda) se le denomina de
esta manera porque viendo el punto que está sobre la
frontera de clase "4:00? se ven las visitas que se realizaron en
una hora mayor que las 4:00 horas (en cuestiones temporales se
diría: después de las 4:00 horas). De forma
análoga, en la ojiva menor que la frecuencia que se
representa en cada frontera de clase son el número de
observaciones menores que la frontera señalada (en caso de
tiempos sería el número de observaciones antes de
la hora que señala la frontera).

Si se utiliza una distribución porcentual
acumulativa entonces se obtiene una ojiva (mayor que o menor que
según sea el caso) cuyo eje vertical tiene una escala que
va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor
que se acaba de usar, pero con una distribución
porcentual:

Distribuciones
muestrales

El estudio de determinadas características
de una población se efectúa a través de
diversas muestras que pueden extraerse de ella.

El muestreo puede
hacerse con o sin reposición (con o sin reemplazo,
también aparece en la literatura), y la
población de partida puede ser infinita o finita. Una
población finita en la que se efectúa muestreo con
reposición puede considerarse infinita
teóricamente. También, a efectos prácticos,
una población muy grande puede considerarse como infinita.
En todo nuestro estudio vamos a limitarnos a una población
de partida infinita o a muestreo con reposición.

Consideremos todas las posibles muestras de
tamaño n en una población. Para cada
muestra podemos calcular un estadístico (media,
desviación típica, proporción,.) que
variará de una a otra. Debemos aclarar que un
"estadístico" es cualquier combinación lineal de
los datos muéstrales. Así obtenemos una
distribución del estadístico que se llama
distribución muestra.

Las dos medidas fundamentales de esta
distribución son la media y la desviación
típica (estándar), también denominada error
estándar.

Hay que hacer notar que si el tamaño de la
muestra es lo suficientemente grande las distribuciones
muéstrales son (aproximadamente) normales (para fines
prácticos) y en esto se basarán todos los
resultados que alcancemos.

1. DISTRIBUCIÓN MUESTRAL DE MEDIAS

Cada muestra de tamaño n que podemos
extraer de una población proporciona una media. Si
consideramos cada una de estas medias como valores de una
variable aleatoria podemos estudiar su distribución que
llamaremos distribución muestra de medias.

Si tenemos una población normal N (m, s) y
extraemos de ella muestras de tamaño n, la
distribución muestra de medias sigue también una
distribución normal

Si la población no sigue una
distribución normal pero n>30, aplicando el llamado
Teorema central del límite la distribución muestra
de medias se aproxima también a la normal anterior.

2. DISTRIBUCIÓN MUESTRAL DE
PROPORCIONES

En numerosas ocasiones se plantea estimar una
proporción o porcentaje. En estos casos la variable
aleatoria toma solamente dos valores diferentes (éxito o
fracaso), es decir sigue una distribución binomio y cuando
la extensión de la población es grande la
distribución binomio B(n,p) se aproxima a la normal .

Para muestras de tamaño n>30, la
distribución muestra de proporciones sigue una
distribución normal

N(p, vpq/n)

Donde p es la proporción de uno de los
valores que presenta la variable estadística en la
población y q=1-p.

 

 

 

Autor:

Omar Alejandro Patino Arellano

Profesor: José Guadalupe

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter