Monografias.com > Computación
Descargar Imprimir Comentar Ver trabajos relacionados

Técnicas descriptivas para la Minería de Datos




Enviado por Pablo Turmero



Partes: 1, 2


    Monografias.com

    1
    Métodos Descriptivos
    Correlación y Asociaciones (análisis exploratorio o link analysis):
    Coeficiente de correlación:

    donde

    Asociaciones (cuando los atributos son discretos).
    Ejemplo: tabaquismo y alcoholismo están asociados.

    Dependencias funcionales: asociación unidireccional.
    Ejemplo: el nivel de riesgo de enfermedades cardiovasculares depende del tabaquismo y alcoholismo (entre otras cosas).

    Monografias.com

    2
    Correlaciones y Estudios Factoriales:
    Permiten establecer relevancia/irrelevancia de factores y si aquélla es positiva o negativa respecto a otro factor o variable a estudiar.

    Ejemplo (Kiel 2000): Estudio de visitas: 11 pacientes, 7 factores:
    Health: salud del paciente (referida a la capacidad de ir a la consulta). (1-10)
    Need: convicción del paciente que la visita es importante. (1-10)
    Transportation: disponibilidad de transporte del paciente al centro. (1-10)
    Child Care: disponibilidad de dejar los niños a cuidado. (1-10)
    Sick Time: si el paciente está trabajando, puede darse de baja. (1-10)
    Satisfaction: satisfacción del cliente con su médico. (1-10)
    Ease: facilidad del centro para concertar cita y eficiencia de la misma. (1-10)
    No-Show: indica si el paciente no se ha pasado por el médico durante el último año (0-se ha pasado, 1 no se ha pasado)

    Métodos Descriptivos

    Monografias.com

    3
    Correlaciones y Estudios Factoriales. Ejemplo (cont.):
    Matriz de correlaciones:

    Coeficientes de Regresión:

    Métodos Descriptivos
    Indica que un incremento de 1 en el factor Health aumenta la probabilidad de que no aparezca el paciente en un 64.34%

    Monografias.com

    4
    Reglas de Asociación y Dependencia:
    La terminología no es muy coherente en este campo (Fayyad, p.ej. suele llamar asociaciones a todo y regla de asociación a las dependencias):
    Asociaciones:
    Se buscan asociaciones de la siguiente forma:
    (X1 = a) ? (X4 = b)
    De los n casos de la tabla, que las dos comparaciones sean verdaderas o falsas será cierto en rc casos:
    Un parámetro Tc (confidence):
    Tc= certeza de la regla = rc/n
    si consideramos valores nulos, tenemos también un número de casos en los que se aplica satisfactoriamente (diferente de Tc) y denominado Ts.
    Métodos Descriptivos

    Monografias.com

    5
    Reglas de Asociación y Dependencia de Valor:
    Dependencias de Valor:
    Se buscan dependencias de la siguiente forma (if Ante then Cons):
    P.ej. if (X1= a, X3=c, X5=d) then (X4=b, X2=a)
    De los n casos de la tabla, el antecendente se puede hacer cierto en ra casos y de estos en rc casos se hace también el consecuente, tenemos:
    Dos parámetros Tc (confidence/accuracy) y Ts (support):
    Tc= certeza de la regla =rc/ra, fuerza o confianza P(Cons|Ante)
    Ts = mínimo nº de casos o porcentaje en los que se aplica
    satisfactoriamente (rc o rc /n respectivamente).
    Llamado también prevalencia: P(Cons ? Ante)
    Métodos Descriptivos

    Monografias.com

    6
    Reglas de Asociación y Dependencia de Valor. Ejemplo:

    Asociaciones:
    Casado e (Hijos > 0) están asociados (80%, 4 casos).
    Obeso y casado están asociados (80%, 4 casos)
    Dependencias:
    (Hijos > 0) ? Casado (100%, 2 casos).
    Casado ? Obeso (100%, 3 casos)
    Métodos Descriptivos

    Monografias.com

    7
    Reglas de Asociación y Dependencia de Valor:
    Condiciones que se suelen imponer:
    Tc > 95%
    Ts > 20 (absoluto) o 50% (relativo)

    Complejidad de los algoritmos de asociaciones y dependencias:
    Temporal: bajo ciertas condiciones de dispersión y para atributos discretos se pueden encontrar en casi tiempo lineal (Agrawal et al. 1996).
    Métodos Descriptivos
    Nótese que la búsqueda de asociaciones con estas condiciones no es un problema inductivo, ya que se trata de un problema completamente determinado, sin criterios de evaluación y relativamente simple.

    Monografias.com

    8
    Métodos Descriptivos
    Algoritmos de búsqueda de asociaciones y dependencias.
    La mayoría se basa en descomponer el problema en dos fases:

    FASE A: BÚSQUEDA DE “LARGE ITEMSETS”. Se buscan conjuntos de atributos con ‘support’ >= al support deseado, llamados ‘large itemsets’ (conjuntos de atributos grandes). De momento no se busca separarlos en parte izquierda y parte derecha.

    FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS). Se hacen particiones binarias y disjuntas de los itemsets y se calcula la confianza de cada uno. Se retienen aquellas reglas que tienen confianza >= a la confianza deseada.

    Propiedad: cualquier subconjunto de un conjunto grande es también grande.

    Monografias.com

    9
    Métodos Descriptivos
    Algoritmos de búsqueda de asociaciones.
    FASE A:
    Método genérico de búsqueda de “LARGE ITEMSETS”
    Dado un support mínimo smin:
    1. i=1 (tamaño de los conjuntos)
    2. Generar un conjunto unitario para cada atributo en Si.
    3. Comprobar el support de todos los conjuntos en Si. Eliminar aquellos cuyo support < smin.
    4. Combinar los conjuntos en Si para crear conjuntos de tamaño i+1 en Si+1.
    5. Si Si no es vacío entonces i:= i+1. Ir a 3.
    6. Si no, retornar S2 ? S3 ? … ? Si

    Hay refinamientos que permiten una mejor paralelización (dividen en subproblemas con menos tuplas y luego comprueban para todo el problema). El más famoso es el algoritmo “APRIORI” (Agrawal & Srikant 1994).

    Monografias.com

    10
    Métodos Descriptivos
    Algoritmos de búsqueda de asociaciones. Ejemplo:
    FASE A:

    S1= { {1}, {2}, {3}, {4}, {5} } S’1:support = { {1}:2, {2}:3, {3}:3, {5}:3 }
    S2= { {1,2}, {1,3}, {1,5}, {2,3}, {2,5}, {3,5} } S’2:support = { {1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2 }
    S3= { {1,2,3}, {1,2,5}, {1,3,5}, {2,3,5} } S’3:support = { {2,3,5}:2 }

    Sfinal = S’2 ? S’3 = { {1,3}, {2,3}, {2,5}, {3,5}, {2,3,5} }

    FASE B: Se evalúa la confianza:

    tabla:
    support = 2
    confidence = 0.75
    {1}?{3} : 1 {3}?{1} : 0.67
    {2}?{3} : 0.67 {3}?{2} : 0.67
    {2}?{5} : 1 {5}?{2} : 1
    {3}?{5} : 0.67 {5}?{3} : 0.67
    {2,3}?{5} : 1 {2,5}?{3} : 0.67 {3,5}?{2} : 1

    Partes: 1, 2

    Página siguiente 

    Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

    Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

    Categorias
    Newsletter