Extracción de Conocimiento en Grandes Bases de Datos (página 2)

Partes: 1, 2

variety of techniques to identify nuggets of information or decision-making knowledge in bodies of data, and extracting these in such a way that they can be put to use in the areas such as decision support, prediction, forecasting and estimation. The data is often voluminous, but as it stands of low value as no direct use can be made of it; it is the hidden information in the data that is useful.
Multidisciplinar. Areas y Técnicas Involucradas
Modelado de Dependencias:
asociaciones entre variables.
reglas y grafos (redes Bayesianas).
Componentes Principales:
compresión de la información.
Componentes Independientes:
extracción de características.
Agrupación:
hallar grupos de elementos.
Clasificación:
asignar elementos a clases.
Predicción:
estimación de valores.
Visualización:
representación gráfica.
Técnicas Involucradas

Monografias.com

Nonlinear
Regression

Pattern
Finding

Computer Vision,
Signal Recognition

Flexible
Classification
Models

Scalable
Algorithms

Graphical
Models

Hidden
Variable
Models

Hidden
Markov
Models
Belief
Networks
Support
Vector
Machines
Mixture/
Factor Models
Classification
Trees
Association
Rules
Deformable
Templates
Model
Combining
Hot Topics (Statistics and Machine Learning)
Padhraic SmythInformation and Computer ScienceUniversity of California, Irvine

Monografias.com

Objetivos. Un Primer Ejemplo
(Gp:) Un sistema de minería de datos aprende de los datos cómo particionar o calsificar los mismos en base a reglas de clasificación:
Ejemplo – Base de datos de clientes de un banco.
Pregunta – Un cliente que solicita un préstamo, es una buena inversión?
Regla típica formulada:
if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes
then INVESTMENT_TYPE = good
(Gp:) Clasificación:

(Gp:) Asociación:
(Gp:) Interesa obtener automáticamente reglas que relacionen unos atributos de la base de datos con otros, en base a alguna asociación:
Ejemplo – Base de datos de clientes de un banco.
Regla de Asociación:
if STATUS = married and INCOME > 10000 and HOUSE_OWNER = yes
then INVESTMENT_TYPE = good

Monografias.com

Aplicaciones de la Minería de Datos.
(Gp:) En Internet
(Gp:) E-bussines. Perfiles de clientes, publicidad dirigida, fraude.
Buscadores "inteligentes". Generación de jerarquías, bases de conocimiento web.
Gestión del tráfico de la red. Control de eficiencia y errores.
(Gp:) Reglas de asociación:
El 60% de las personas que esquían viajan frecuentemente a Europa.
Clasificación:
Personas menores de 40 años y salario superior a 2000$ compran on-line frecuentemente.
Clustering:
Los usuarios A y B tienen gustos parecidos (acceden URLs similares).
Detección de "outliers"
El usuario A navega en Internet más del doble del tiempo promedio.
(Gp:) Gran cantidad de información (financiera, servicios, empresas, universidades, libros y hobbies), con complejas interrelaciones.
El 99% de la información no le interesa al 99% de la gente.
(Gp:) La publicidad en Internet es uno de los tópicos más actuales de Data Mining.
(Gp:) Ambiente dinámico

(Gp:) El Mundo de los Negocios
(Gp:) Banca. Grupos de clientes, préstamos, oferta de productos.
Compañías de seguros. Detección de fraude, administración de recursos.
Marketing. Publicidad dirigida, estudios de competencia.
(Gp:) Los data warehouse de las empresas contienen enormes cantidades de información sobre sus clientes y gestiones.

Monografias.com

Ejemplo. Meteorología.
Meteorología. Teleconexiones (asociaciones espaciales), predicción.
Existen bases de datos con simulaciones de los campos atmosféricos en rejillas dadas.
Se dispone de gran cantidad de información en observatorios locales:
Precipitación, temperatura,
Viento, etc.

Monografias.com

(Gp:) L
(Gp:) o
(Gp:) s
(Gp:)
(Gp:) 6
(Gp:)
(Gp:) p
(Gp:) r
(Gp:) i
(Gp:) m
(Gp:) e
(Gp:) r
(Gp:) o
(Gp:) s
(Gp:)
(Gp:) d
(Gp:) í
(Gp:) g
(Gp:) i
(Gp:) t
(Gp:) o
(Gp:) s
(Gp:)
(Gp:) s
(Gp:) o
(Gp:) n
(Gp:)
(Gp:) f
(Gp:) e
(Gp:) c
(Gp:) h
(Gp:) a
(Gp:)
(Gp:) c
(Gp:) o
(Gp:) n
(Gp:)
(Gp:) e
(Gp:) l
(Gp:)
(Gp:) f
(Gp:) o
(Gp:) r
(Gp:) m
(Gp:) a
(Gp:) t
(Gp:) o
(Gp:) :
(Gp:) a
(Gp:) a
(Gp:) m
(Gp:) m
(Gp:) d
(Gp:) d
(Gp:)
(Gp:) (
(Gp:) a
(Gp:) ñ
(Gp:) o
(Gp:) ,
(Gp:) m
(Gp:) e
(Gp:) s
(Gp:)
(Gp:) y
(Gp:)
(Gp:) d
(Gp:) í
(Gp:) a
(Gp:) )
(Gp:) p
(Gp:) o
(Gp:) s
(Gp:) i
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 7
(Gp:) :
(Gp:)
(Gp:) 0
(Gp:) =
(Gp:) S
(Gp:) i
(Gp:) n
(Gp:)
(Gp:) P
(Gp:) r
(Gp:) e
(Gp:) c
(Gp:) i
(Gp:) p
(Gp:) i
(Gp:) t
(Gp:) a
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 1
(Gp:) =
(Gp:) L
(Gp:) l
(Gp:) u
(Gp:) v
(Gp:) i
(Gp:) a
(Gp:)
(Gp:) 3
(Gp:) =
(Gp:) L
(Gp:) l
(Gp:) o
(Gp:) v
(Gp:) i
(Gp:) z
(Gp:) n
(Gp:) a
(Gp:)
(Gp:) 5
(Gp:) =
(Gp:) C
(Gp:) h
(Gp:) u
(Gp:) b
(Gp:) a
(Gp:) s
(Gp:) c
(Gp:) o
(Gp:) p
(Gp:) o
(Gp:) s
(Gp:) i
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 8
(Gp:) :
(Gp:)
(Gp:) 0
(Gp:) =
(Gp:) S
(Gp:) i
(Gp:) n
(Gp:)
(Gp:) N
(Gp:) i
(Gp:) e
(Gp:) v
(Gp:) e
(Gp:)
(Gp:) 1
(Gp:) ,
(Gp:) 2
(Gp:) ,
(Gp:) 3
(Gp:)
(Gp:) o
(Gp:)
(Gp:) 4
(Gp:) =
(Gp:) N
(Gp:) i
(Gp:) e
(Gp:) v
(Gp:) e
(Gp:) p
(Gp:) o
(Gp:) s
(Gp:) i
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 9
(Gp:) :
(Gp:)
(Gp:) 0
(Gp:) =
(Gp:) S
(Gp:) i
(Gp:) n
(Gp:)
(Gp:) G
(Gp:) r
(Gp:) a
(Gp:) n
(Gp:) i
(Gp:) z
(Gp:) o
(Gp:)
(Gp:) 1
(Gp:) ,
(Gp:) 2

(Gp:) ,
(Gp:) 3
(Gp:)
(Gp:) o
(Gp:)
(Gp:) 4
(Gp:) =
(Gp:) G
(Gp:) r
(Gp:) a
(Gp:) n
(Gp:) i
(Gp:) z
(Gp:) o
(Gp:) p
(Gp:) o
(Gp:) s
(Gp:) i
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 1
(Gp:) 0
(Gp:) :
(Gp:)
(Gp:) 0
(Gp:) =
(Gp:) S
(Gp:) i
(Gp:) n
(Gp:)
(Gp:) T
(Gp:) o
(Gp:) r
(Gp:) m
(Gp:) e
(Gp:) n
(Gp:) t
(Gp:) a
(Gp:)
(Gp:) 1
(Gp:) =
(Gp:) T
(Gp:) o
(Gp:) r
(Gp:) m
(Gp:) e
(Gp:) n
(Gp:) t
(Gp:) a
(Gp:) p
(Gp:) o
(Gp:) s
(Gp:) i
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 1
(Gp:) 1
(Gp:) :
(Gp:)
(Gp:) 0
(Gp:) =
(Gp:) S
(Gp:) i
(Gp:) n
(Gp:)
(Gp:) N
(Gp:) i
(Gp:) e
(Gp:) b
(Gp:) l
(Gp:) a
(Gp:)
(Gp:) 1
(Gp:) ,
(Gp:) 2
(Gp:) ,
(Gp:) 3
(Gp:)
(Gp:) o
(Gp:)
(Gp:) 4
(Gp:) =
(Gp:) N
(Gp:) i
(Gp:) e
(Gp:) b
(Gp:) l
(Gp:) a
(Gp:) p
(Gp:) o
(Gp:) s
(Gp:) i
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 1
(Gp:) 2
(Gp:) :
(Gp:)
(Gp:) 0
(Gp:) =
(Gp:) S
(Gp:) i
(Gp:) n
(Gp:)
(Gp:) R
(Gp:) o
(Gp:) c
(Gp:) í
(Gp:) o
(Gp:)
(Gp:) 1
(Gp:)
(Gp:) o
(Gp:)
(Gp:) 6
(Gp:) =
(Gp:) R
(Gp:) o
(Gp:) c
(Gp:) í
(Gp:) o
(Gp:) p
(Gp:) o
(Gp:) s
(Gp:) i
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 1
(Gp:) 3
(Gp:) :
(Gp:)
(Gp:) 0
(Gp:) =
(Gp:) S
(Gp:) i
(Gp:) n
(Gp:)
(Gp:) E
(Gp:) s
(Gp:) c
(Gp:) a
(Gp:) r
(Gp:) c
(Gp:) h
(Gp:) a
(Gp:)
(Gp:) 1
(Gp:)
(Gp:) o
(Gp:)
(Gp:) 6
(Gp:) =
(Gp:) E
(Gp:) s
(Gp:) c
(Gp:) a
(Gp:) r
(Gp:) c
(Gp:) h
(Gp:) a
(Gp:) p
(Gp:) o
(Gp:) s
(Gp:) i
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 1
(Gp:) 4
(Gp:) :
(Gp:)
(Gp:) 0
(Gp:) =
(Gp:) S
(Gp:) i
(Gp:) n
(Gp:)
(Gp:) N
(Gp:) i
(Gp:) e
(Gp:) v
(Gp:) e
(Gp:)
(Gp:) c
(Gp:) u
(Gp:) b

(Gp:) r
(Gp:) i
(Gp:) e
(Gp:) n
(Gp:) d
(Gp:) o
(Gp:)
(Gp:) e
(Gp:) l
(Gp:)
(Gp:) S
(Gp:) u
(Gp:) e
(Gp:) l
(Gp:) o
(Gp:)
(Gp:) 1
(Gp:) =
(Gp:) N
(Gp:) i
(Gp:) e
(Gp:) v
(Gp:) e
(Gp:)
(Gp:) c
(Gp:) u
(Gp:) b
(Gp:) r
(Gp:) i
(Gp:) e
(Gp:) n
(Gp:) d
(Gp:) o
(Gp:)
(Gp:) e
(Gp:) l
(Gp:)
(Gp:) S
(Gp:) u
(Gp:) e
(Gp:) l
(Gp:) o
(Gp:) p
(Gp:) o
(Gp:) s
(Gp:) i
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 1
(Gp:) 5
(Gp:) :
(Gp:)
(Gp:) 0
(Gp:) =
(Gp:) S
(Gp:) i
(Gp:) n
(Gp:)
(Gp:) N
(Gp:) e
(Gp:) b
(Gp:) l
(Gp:) i
(Gp:) n
(Gp:) a
(Gp:)
(Gp:) 1
(Gp:) =
(Gp:) N
(Gp:) e
(Gp:) b
(Gp:) l
(Gp:) i
(Gp:) n
(Gp:) a
(Gp:) p
(Gp:) o
(Gp:) s
(Gp:) i
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 1
(Gp:) 6
(Gp:) :
(Gp:)
(Gp:) 0
(Gp:) =
(Gp:) S
(Gp:) i
(Gp:) n
(Gp:)
(Gp:) C
(Gp:) a
(Gp:) l
(Gp:) i
(Gp:) m
(Gp:) a
(Gp:)
(Gp:) 1
(Gp:) =
(Gp:) C
(Gp:) a
(Gp:) l
(Gp:) i
(Gp:) m
(Gp:) a
(Gp:) p
(Gp:) o
(Gp:) s
(Gp:) i
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 1
(Gp:) 7
(Gp:) :
(Gp:)
(Gp:) 0
(Gp:) =
(Gp:) S
(Gp:) i
(Gp:) n
(Gp:)
(Gp:) V
(Gp:) i
(Gp:) e
(Gp:) n
(Gp:) t
(Gp:) o
(Gp:) >
(Gp:) 5
(Gp:) 0
(Gp:) k
(Gp:) m
(Gp:) /
(Gp:) h
(Gp:)
(Gp:) 1
(Gp:) =
(Gp:) V
(Gp:) i
(Gp:) e
(Gp:) n
(Gp:) t
(Gp:) o
(Gp:) >
(Gp:) 5
(Gp:) 0
(Gp:) k
(Gp:) m
(Gp:) /
(Gp:) h
(Gp:) p
(Gp:) o
(Gp:) s
(Gp:) i
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) 1
(Gp:) 8
(Gp:) :
(Gp:)
(Gp:) 0
(Gp:) =
(Gp:) S
(Gp:) i
(Gp:) n
(Gp:)
(Gp:) P
(Gp:) o
(Gp:) l
(Gp:) v
(Gp:) a
(Gp:) r
(Gp:) e
(Gp:) d
(Gp:) a
(Gp:)
(Gp:) 1
(Gp:) =
(Gp:) P
(Gp:) o
(Gp:) l
(Gp:) v
(Gp:) a
(Gp:) r
(Gp:) e
(Gp:) d
(Gp:) a

(Gp:) 8
(Gp:) 6
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 1
(Gp:) 5
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 8
(Gp:) 6
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 2
(Gp:) 1
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 8
(Gp:) 6
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 3
(Gp:) 5
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 8
(Gp:) 6
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 4
(Gp:) 5
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 8
(Gp:) 6
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 5
(Gp:) 1
(Gp:) 0
(Gp:) 1
(Gp:) 1
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 8
(Gp:) 6
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 6
(Gp:) 1
(Gp:) 0
(Gp:) 1
(Gp:) 1
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 8
(Gp:) 6
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 7
(Gp:) 3
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 8
(Gp:) 6
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 8
(Gp:) 5
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 8
(Gp:) 6
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 9
(Gp:) 5
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 8
(Gp:) 6
(Gp:) 0
(Gp:) 1
(Gp:) 1
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 1
(Gp:) 0
(Gp:) 0
(Gp:) 8
(Gp:) 6
(Gp:) 0
(Gp:) 1
(Gp:) 1
(Gp:) 1
(Gp:) 0
(Gp:) 0
(Gp:) 1
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0
(Gp:) 0

Monografias.com

Relaciones entre atributos. Fórmulas y Reglas.
(Gp:) Una de las técnicas más habituales en data mining consiste en extraer las relaciones
relevantes que existan entre conjuntos de variables (itemsets) de la base de datos.
De esta forma se pueden detectar errores, fraudes, e inconsistencias fácilmente.

En el caso de bases de datos relacionales trabajaríamos con conjuntos formados por pares (atributo # valor) utilizando los registros de la base de datos. {Cliente = Pepe, Precio > 10$}
{Producto = Café}
(Gp:) Estas relaciones de asociación se pueden establecer en distintas formas:
(Gp:) Reglas if-then "reglas de asociación"
(Gp:) Son implicaciones de la forma X=>Y
if (X1= a, X3= c, X5= d) then (X4= b, X2= a)
(Gp:) La fiabilidad [confidence] es la proporción de
Aquellos registros con X que también contienen también a Y.

La relevancia [support] es la proporción de
registros que contienen tanto X como Y.
(Gp:) If Cliente is Pepeand Precio is lower than 10$ThenProducto = Café
confidence: 0.98The rule exists in 102 recordsSignificance level: error prob < 0.001

Monografias.com

(Gp:) Asociaciones
(Gp:) Se buscan asociaciones de la forma:
(X1= a) <=> (X4= b)
De los n registros de la tabla, las dos igualdades
Son verdaderas o falsas simultáneamente
en rc casos:
fiabilidad de la asociación = rc /n
(Gp:) The value Pepe in the Cliente field is associated with the value Café in the Producto field
Rule’s fiab: 0.8

Reglas de Asociación:
(Hijos > 0) => Casado (100%, 2 casos).
Casado => Obeso (100%, 3 casos).
Asociaciones:
Casado e (Hijos > 0) están asociados (80%, 4 casos).
Obeso y casado están asociados (80%, 4 casos)

(Gp:) Ejemplo:

Monografias.com

(Gp:) Fórmulas
(Gp:) A = B * C
Where: A = Total
B = Cantidad
C = Precio
Rule’s Accuracy Level: 0.99
The rule exists in 1890 records
(Gp:) Relaciones matemáticas X=f(Y,Z)=Y*Z
(Gp:) La fiabilidad denota el cociente entre el número de casos en que se cumple la fórmula (suponiendo un cierto error de redondeo) y el número total de casos.

(Gp:) Reglas de hortografía.
(Gp:) The value Pepe appears 52 times
in the Cliente field.

There are 2 case(s)
containing similar value(s)
{Pepr, Repe}
(Gp:) Estas reglas permiten detectar errores de ortografía. Un nombre es similar a otro pero la frecuencia en que aparecen ambos es muy diferente.
(Text Mining)

Monografias.com

AIS [Agrawal, Imielinski & Swami]R. Agrawal, T. Imielinsky & A. SwamiIBM Almaden Research Center, 1993
Algoritmos de Búsqueda de Reglas de Asociación
La mayoría se basa en descomponer el problema en dos fases:
• FASE A: BÚSQUEDA DE GRANDES CONJUNTOS DE ATRIBUTOS.
Se buscan conjuntos de atributos con relevancia >= umbral. De momento no se busca separarlos en parte izquierda y parte derecha.
• FASE B: ESCLARECIMIENTO DE DEPENDENCIAS (REGLAS).
Se hacen particiones binarias y disjuntas de los conjuntos hallados y se calcula la confianza de cada uno. Se retienen aquellas reglas que tienen confianza >= umbral
Propiedad: cualquier subconjunto de un conjunto grande es también grande.
AIS es el primer algoritmo que se desarrolló para obtener reglas de asociación.
X=>Y [s,c] donde
Y es un único atributo,
s es la relevancia y
c su fiabilidad.

Monografias.com

Dada una relevancia mínima Rmin:
1. i = 1 (tamaño de los conjuntos)
2. Generar un conjunto unitario en S1 para cada atributo.
3. Comprobar la relevancia de todos los conjuntos en Si. Eliminar aquellos cuya relevancia < Rmin.
4. Combinar los conjuntos en Si creando conjuntos de tamaño i+1 en Si+1.

5. Si Si no es vacío entonces i:= i+ 1. Ir a 3.
6. Si no , retornar S2 È S3 È … È Si
Fase A: Selección Grandes de Atributos
Este paso se lleva a cabo secuencialmente, recorriendo los registros de la base de datos siguiendo el contador i. Tras leer un registro de la base de datos, se hallan los conjuntos relevantes Si contenidos en el mismo. Si+1 se genera extendiendo los conjuntos hallados con otros atributos del registro.
(Gp:) Dados n registros y m atributos reglas posibles.
(Gp:) Complejidad computacional

Monografias.com

FASE A:
S1 = {{1}, {2}, {3}, {4}, {5}} S’1:rel = {{1}:2, {2}:3, {3}:3, {5}:3}
S2 = {{1,2},{1,3},{1,5},{2, 3},{2, 5},{3, 5}} S’2:rel = {{1,3}:2, {2,3}:2, {2,5}:3, {3,5}:2}
S3 = {{1,2, 3}, {1,2, 5}, {1,3, 5}, {2,3, 5}} S’3:rel = {{2,3,5}:2}
Sfinal = S’2 È S’3 = {{1, 3}, {2, 3}, {2, 5}, {3, 5}, {2,3,5}}
Ejemplo
relevancia = 2
confianza = 0.75
FASE B:
{1} ® {3} : 1 {3} ® {1} : 0.67{2} ® {3} : 0.67 {3} ® {2} : 0.67{2} ® {5} : 1 {5} ® {2} : 1{3} ® {5} : 0.67 {5} ® {3} : 0.67{2,3} ® {5} : 1 {2,5} ® {3} : 0.67 {3,5} ® {2} : 1

Monografias.com

El Algoritmo APRIORI
Fk : Set of frequent itemsets of size k
Ck : Set of candidate itemsets of size k
F1 = {single attribute sets} with minimum support
for ( k=2; Fk != 0; k++) do {
Ck+1 = New candidates generated from Fk

foreach entry t in the database do
Increment the count of all candidates in Ck+1 contained in t
Fk+1 = Candidates in Ck+1 with minimum support
}
Answer = Uk Fk
Every subset of a frequent itemset is also frequent=> a candidate itemset in Ck+1 can be pruned if even one of its subsets is not contained in Fk

Monografias.com

Este algoritmo realizan múltiples pasadas sobre la base de datos para obtener los conjuntos de atributos relevantes.

En la primera pasada, se obtienen los items individuales cuya relevancia alcanza el umbral mínimo preestablecido: L[1] de conjuntos relevante.
En las siguientes iteraciones, se utiliza el último conjunto L[k] obtenido para generar un conjuntos de (k+1) atributos potencialmente relevantes (el conjunto de candidatos C[k+1]) y se obtiene la relevancia de estos candidatos para quedarnos sólo con aquéllos que son relevantes, que incluimos en el conjunto L[k+1]. Este proceso se repite hasta que no se encuentran más itemsets relevantes.

En el algoritmo AIS, los candidatos se generaban sobre la marcha, conforme se iban leyendo registros de la base de datos. Se generan innecesariamente conjuntos candidatos que de por sí nunca pueden llegar a ser relevantes.
Por su parte, en Apriori los candidatos se generan a partir de los conjuntos relevantes encontrados en la iteración anterior, única y exclusivamente. La idea subyacente es que, dado un itemset relevante, cualquier subconjunto suyo también es relevante.
Por lo tanto, los conjuntos de k atributos candidatos del conjunto C[k] pueden generarse a partir del conjunto L[k-1].
Fase de Combinación

Monografias.com

Database D
C1
F1
C2
C2
F2
Scan D
Scan D
Ejemplo

Monografias.com

eg1. John is a human
every human are mortals
therefore
John is mortal.

In logic:
human(John)
?h(human(h) ?mortal(h))
therefore: human(John) ?mortal(John) ? elim. rule
therefore: mortal(John) ?elim. rule
Lógica
La lógica proporciona un entorno para representar conocimiento en el que es fácil razonar.
Símbolos lógicos ~ NOT ? AND ? OR ? IMPLIES

Cuantificadores ? FOR ALL ? THERE EXISTS
Las expresiones lógicas se construyen en base a un conjunto reducido de símbolos y cuantificadores.

Monografias.com

A language of PC, call it LPC is defined by the following rules:1. Variables p, q, r,… are in LPC. We call the above variables: undeterminate statements. 2. If a statement A is in LPC and a statement B is in LPC , then the statement (A&B) is in LPC .Similarly for the symbols: ?, ?.3. If a statement A is in LPC, then the statement ~A is in LPC .
Lógica. Representación de Conocimiento con LPC
(~A?B)
(((A?B)&(A?B)?B)
LPC is a set of statements which represent useful logical expressions for a given problem
Using the above rules and some other logical inference techniqes it is easy to reason on a given problem.

Monografias.com

Inferencia Lógica. Deducción natural.
Natural deduction uses the definition of logical symbols for eliminating, or introducing, knowledge on a given expression.

Monografias.com

Tablas de Verdad y Leyes Lógicas
~(~P) = P
(P Ú Q) = (~P ® Q) [or (~ P Ú Q) = (P ® Q)]

De Morgan’s laws:
~(P Ú Q) = (~P Ù ~Q)
~(P Ù Q) = (~P Ú ~Q)
Distributive laws:
P Ú (Q Ù R) = (P Ú Q) Ù (P Ú R)
P Ù (Q Ú R) = (P Ù Q) Ú (P Ù R)

Monografias.com

Modus ponens
If P is true and P ® Q is true
then Q is true

Modus tolens
if P ® Q is true and Q is false or ~Q is true
then ~P is true
e. g., sick( student) ® not_ attend_ lecture( student)
~not_ attend_ lecture( student)
produces: ~sick( student)

Elimination
if P Ù Q is true
then P is true and Q is true
Reglas de Inferencia Lógica.

Monografias.com

Componentes Principales:
compresión de la información.
Componentes Independientes:
extracción de características.
Modelado de Dependencias:
hallar asociaciones entre variables
redes Bayesianas
Agrupamiento:
hallar grupos de elementos
Clasificación:
asignar elementos a clases
Predicción:
estimación de valores
Visualización:
representación gráfica.
Redes Neuronales
Modelado de Dependencias (redes Bayesianas)

Monografias.com

Redes Probabilísticas. Redes Bayesianas
Algunos problemas involucran
gran número de variables y se
conocen ciertas relaciones de
independencia entre ellas.

Obtener un modelo probabilístico
(Gp:) P
(Gp:) (
(Gp:) X
(Gp:) 1
(Gp:) ,
(Gp:)
(Gp:) X
(Gp:) 2
(Gp:) ,
(Gp:)
(Gp:) .
(Gp:) .
(Gp:) .
(Gp:) ,
(Gp:)
(Gp:) X
(Gp:) n
(Gp:) )
(Gp:) F
(Gp:) u
(Gp:) n
(Gp:) c
(Gp:) i
(Gp:) ó
(Gp:) n
(Gp:)
(Gp:) d
(Gp:) e
(Gp:) p
(Gp:) r
(Gp:) o
(Gp:) b
(Gp:) a
(Gp:) b
(Gp:) i
(Gp:) l
(Gp:) i
(Gp:) d
(Gp:) a
(Gp:) d
(Gp:)
(Gp:) c
(Gp:) o
(Gp:) n
(Gp:) j
(Gp:) u
(Gp:) n
(Gp:) t
(Gp:) a

(Gp:) {
(Gp:) X
(Gp:) 1
(Gp:) ,
(Gp:)
(Gp:) X
(Gp:) 2
(Gp:) ,
(Gp:)
(Gp:) .
(Gp:) .
(Gp:) .
(Gp:) ,
(Gp:)
(Gp:) X
(Gp:) n
(Gp:) }
(Gp:) C
(Gp:) t
(Gp:) o
(Gp:) .
(Gp:)
(Gp:) d
(Gp:) e
(Gp:)
(Gp:) v
(Gp:) a
(Gp:) r
(Gp:) i
(Gp:) a
(Gp:) b
(Gp:) l
(Gp:) e
(Gp:) s
(Gp:) a
(Gp:) l
(Gp:) e
(Gp:) a
(Gp:) t
(Gp:) o
(Gp:) r
(Gp:) i
(Gp:) a
(Gp:) s
(Gp:) I(X,Y|Z)
(Gp:) M
(Gp:) C
(Gp:) t
(Gp:) o
(Gp:) .
(Gp:)
(Gp:) d
(Gp:) e
(Gp:)
(Gp:) r
(Gp:) e
(Gp:) l
(Gp:) a
(Gp:) c
(Gp:) i
(Gp:) o
(Gp:) n
(Gp:) e
(Gp:) s

Factorización de la probabilidad !!
(Gp:) P
(Gp:) (
(Gp:) x
(Gp:) 1
(Gp:) ,
(Gp:) .
(Gp:) .
(Gp:) .
(Gp:) ,
(Gp:) x
(Gp:) n
(Gp:) )
(Gp:) =
(Gp:) n
(Gp:) i
(Gp:) =1
(Gp:) P
(Gp:) i
(Gp:) (
(Gp:) x
(Gp:) i
(Gp:) |
(Gp:) p
(Gp:) i
(Gp:) )

P
Lluvia Nieve Granizo Tormenta Niebla …
5 0 0 0 0 …
1 0 0 0 0 …
5 0 0 1 0 …
Relaciones de dependencia
Mediante un grafo dirigido donde cada variable tiene sus antecedentes.
Cuantificación
Funciones de prob.
condicionada.

Partes: 1, 2

Página anterior

Volver al principio del trabajo

Página siguiente