Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Redes Neuronales (página 2)



Partes: 1, 2

 

  1. ESTRUCTURAS DE LAS REDES
    NEURONALES ARTIFICIALES

Los aspectos
más característicos de las estructuras
son la estructura
de conexión, el tamaño de la red y la elección
entre (All Class
in One Network -Todas las Clases en Una Red) y OCON (One Class
in One Network – Una Clase en Una
Red).

ESTRUCTURAS DE
CONEXIÓN

Una red neuronal
está determinada por la neurona y la
matriz de
pesos. El comportamiento de la red depende en gran medida
del comportamiento de la matriz de pesos. Hay tres tipos de
capas de neuronas: la de entrada, las ocultas y la de salida.
Entre dos capas de neuronas existe una red de pesos de
conexión, que puede ser de los siguientes tipos: Hacia
delante, hacia atrás, lateral y de retardo.

  1. Conexiones hacia delante:
    Los datos de las
    neuronas de una capa inferior son propagados hacia las
    neuronas de la capa superior por medio de las redes de conexiones
    hacia adelante.

  2. Conexiones hacia
    atrás:
    Los datos de las neuronas de una capa
    superior son propagados hacia las neuronas de la capa inferior
    por medio de las redes de conexiones hacia
    adelante.
  3. Conexiones con retardo:
    los elementos de retardo se incorporan en las conexiones para
    implementar modelos
    dinámicos y temporales, es decir, modelos que precisan
    de memoria.

TAMAÑO DE LAS REDES
NEURONALES

El Tamaño
de las Redes depende del Número de Capas y del
Número de Neuronas Ocultas por Capa.

  1. Número de capas:
    En una Red Multicapa, hay una o más capas de
    neuronas ocultas entre la entrada y la salida. El
    número de capas se cuenta a menudo a partir del
    número de capas de pesos en vez de las capas de
    neuronas).
  2. Número de unidades
    ocultas:
    El Número de Unidades Ocultas está
    directamente relacionado con las capacidades de la red. Para
    que el comportamiento de la red sea correcto se tiene que
    determinar apropiadamente el número de neuronas de la
    capa oculta.

APROXIMACIONES
ACON FRENTE A OCON

Normalmente,
cada nodo de salida se usa para representar una clase. Si
tomamos un problema de reconocimiento alfanumérico,
habrá 36 clases y 36 nodos de salida. Dado un
patrón de entrada en la fase de prueba, el ganador es
normalmente el nodo que tiene el valor
más alto a la salida.

ALL CLASS IN
ONE NETWORK – ACON:
Todas las clases son reconocidas
dentro de una única Súper Red.

ONE CLASS IN
ONE NETWORK – OCON:
En algunos casos es ventajoso
descomponer esta Súper Red en varias Subredes más
pequeñas. La descomposición más extrema es
la llamada OCON donde una Subred se dedica para una sola clase.
Aunque el número de Subredes en la estructura OCON es
relativamente largo, cada una de ellas tiene un tamaño
menor que la red ACON.

RED
ENTERA

SUBREDES
VARIAS

  1. MODELOS NO SUPERVISADOS

La capacidad de
clasificación de la red neuronal depende de los valores
de los pesos sinápticos los cuales pueden ser
preestablecidos o entrenados adaptativamente mediante
mecanismos de aprendizaje. En
función de la forma con la que los pesos
sinápticos son entrenados, las ANNs se pueden clasificar en modelos supervisados y modelos
no supervisados.

Una clase de
modelos de entrenamiento
no supervisado son las Redes Asociativas de Pesos Fijos que se
usan para obtener patrones originales libres de ruido a
partir de señales incompletas o distorsionadas. La
principal característica de estas redes es que sus
pesos son preestablecidos y precalculados. Adicionalmente,
estas redes tienen aplicaciones limitadas ya que no se pueden
adaptar a ambientes cambiantes.

Otra clase de
modelos de entrenamiento no supervisado son las Redes de
Aprendizaje Competitivo cuyos pesos se adaptan de acuerdo con
reglas de aprendizaje no supervisadas. Estas redes pueden
aprender en ausencia de un maestro. En decir, el entrenamiento
de las mismas se basa únicamente en la información de los patrones de
entrada.

REDES DE MEMORIA
PROASOCIATIVA

  1. MEMORIA ASOCIATIVA LINEAL
    (LAM)

Una red de
memoria asociativa es matemáticamente un mapeado de un
espacio de entrada sobre uno de salida. Las redes de memoria
asociativa se pueden usar tanto para las aplicaciones
autoasociativas como para las heteroasociativas. En las
aplicaciones autoasociativas la dimensión del espacio de
entrada es igual al de salida. En las aplicaciones
heteroasociativas la dimensión del espacio de entrada y
del espacio de salida son en general diferentes. Los valores de
entrada y de salida pueden ser reales o binarios.

Una LAM es una
red de una capa de propagación. La LAM se deriva de un
conjunto de pares de patrones de entrada/salida {b
{m}, a {m}}. Aquí la entrada
es b {m} = [b1 {m}, b2
{m},…, bk {m}]t y la salida es a {m} =
[a1 {m},a2 {m},
…, ak {m} ]t
para m=1, 2,…., M, donde [-]t
denota la transpuesta del Vector o Matriz. El objetivo de
LAM es recuperar el patrón de salida basado en la
información total o parcial del patrón de
entrada.

  • Patrones de entrada
    Continuos

La Matriz de Pesos
Sinápticos W en la Memoria
Asociativa Lineal se obtiene de la correlación de los
pares de patrones originales: W = S
a (m) b (m) t
donde a y b son Vectores
Reales Continuos: a Î R
N y b Î R
N. Las entradas de la matriz se denotan por
Wij = S a
i(m) bj(m) t .

  • Patrones de Entrada
    Binarios

Si las
entradas son binarias (1/0), entonces los elementos de la
matríz de pesos W, de N x K dimensiones, que se
calculan como:

Donde
a, b Î Ik (Vectores Binarios). Esta
fórmula permite que la condición de
ortogonalidad sea impuesta más apropiadamente. Para
producir una salida binaria, los elementos del vector Wt se
ajustan primero por sus umbrales respectivos:

Luego son
procesados por alguna unidad no lineal en los nodos de
salida. Si el valor ajustado es positivo entonces la salida
será 1; de cualquier otro modo, será
0.

  1. MEMORIA ASOCIATIVA NO LINEAL PARA LA
    RECUPERACIÓN HOLOGRÁFICA

El uso de una
unidad de proceso no
lineal, será esencial para eliminar las perturbaciones
indeseadas. Dado un Patrón de Prueba t, definimos el
Vector Resultado s como el Producto
Interno entre b(m) y el Patrón de Prueba
t y lo escribimos como <b(m) , t
>.

S = [< b
(1), t >, < b (2), t>,…,
< b (M), t>] donde la operación del
Producto Interno para una entrada de valor real se define
como:

Al vector
resultado s se le hace un Procesado no Lineal llegando a un
Vector de Decisión Binario V = N {s} que se espera tenga
solo un elemento distinto de cero. Si este elemento se
posiciona correctamente, entonces se puede realizar la
Recuperación Holográfica. El patrón a
recuperar es el Valor de Salida Av. constituida por la matriz
formada por los vectores columna a
(k).

El
propósito del operador NOLINEAL N {-} es
seleccionar sólo un nodo ganador y
simultáneamente descartar todos los otros nodos. El
propósito es suprimir el ruido llegando a la
Recuperación Holográfica. Los operadores no
lineales se pueden manifestar como un elemento de umbral o un
circuito MAXNET.

  • Redes de
    Hamming

Las redes de
Hamming son comúnmente utilizadas cuando las entradas
son de tipo binario. La red de Hamming selecciona un ganador
de entre los patrones almacenados {b(m) ,
m=1,…, M}, que tienen la menor distancia de Hamming al
vector de entrada. Para los vectores bipolares (-1/1) se
puede adoptar la misma definición de producto interno
introducida anteriormente. Para los valores binarios (1/0) de
entrada, el producto interno se tiene que redefinir
como:

Por lo tanto
se tiene que:

= numero total de bits que
concuerdan

– numero de bits que no
concuerdan

= K – 2 (distancia de Hamming
entre b (m) y t)

En donde la
distancia de Hamming es el número de inconsistencias
entre los bits de los dos vectores. Esto prueba que en este
caso, tanto el valor del producto interno como la distancia
de Hamming darán el mismo efecto.

REDES DE MEMORIA RETROASOCIATIVA

Una Red con
Realimentación necesita de muchas iteraciones hasta que
conseguir la recuperación del patrón final. La
Red de Retroasociacion más popular es el Modelo de
Hopfield el cual que tiene las siguientes
características:

  1. Los Pesos sinápticos son
    prealmacenados.

  2. Se usan operaciones
    no lineales de escalonamiento en cada etapa para producir
    valores binarios.

  3. La retroalimentación tiene la función
    de propiciar que los estados se puedan actualizar
    iterativamente.
  4. Las iteraciones convergen hacia
    una solución que minimiza una función de
    energía de la red.
  1. Obtención de los Pesos
    Sinápticos

    Dados M
    patrones binarios (i.e., {ai (m)}
    tiene valores binarios 0 o 1), los pesos en el modelo de
    Hopfield se obtienen de la siguiente forma:

    Wij = S Mm =1 (2ª
    i (m) – 1)
    (2ªj(m) – 1 ) i ¹ j

    El umbral de
    la red se da de la siguiente forma:

    k

    q i = – ½ S Wij

    j=1

    Funciones de Energía y
    Convergencia

    Utilizando la
    Función de Liapunov como concepto de
    Función de Energía:

    E = – ½
    S S
    Wij ai aj – S q i
    ai

    i
    j i

    Bajo la
    situación ideal de que los vectores almacenados son
    perfectamente ortogonales, entonces cada patrón
    original representa un mínimo local (o global) de la
    función de energía. Esto motiva que se
    diseñe la red para que iterativamente se pueda buscar
    el estado
    de mínimo local. La técnica del gradiente nos
    lleva al modelo secuencial de Hopfield. La diferencia de la
    función de energía antes y después de la
    actualización de un estado
    es:

    D kE
    = E
    ( k+
    1 )
    – E
    ( k)

    En caso de una
    actualización secuencial (asíncrona), hay solo
    una adaptación de un bit al mismo tiempo.
    Sin perdida de generalidad, asumamos que sea
    en D ai(k) +
    1)E en el bit
    i-esimo:

    D kE
    = – ui( k+
    1 )
    D ai ( k+
    1 ) –
    ½Wij

    Puesto
    que Wii = 0:

    D kE
    = – Ui (k + 1)
    D ai( k+
    1 )

    Introduzcamos
    una versión discreta del gradiente como:

    Para
    garantizar el descenso de la Función de
    Energía D
    ai( k+ 1 ) se debería actualizar en la dirección de descenso del
    gradiente:

    D ai(
    k+ 1
    ) a
    ui( k+ 1 )

  2. MODELO DE HOPFIELD
    SECUENCIAL (ASÍNCRONO)
  3. MODELO DE HOPFIELD, ALGORITMO
    SEQUENCIAL

Suponiendo que
la entrada a la red de retroalimentación es a, que se
usa como el vector de estado inicial, esto es, se
fija a= a(0) = (a1(0), a2 (0),
…, aN(0)]T y las iteraciones inician
en k=1 hasta la convergencia. Durante la
iteración k-ésima, la red realiza la
actualización en orden secuencial desde  i=1,
i=2,…, hasta i=N se tiene que:

Cálculo
del valor de red

Ui(K
+ 1) = S Wij
aj (k) + q
I

Actualización de los
estados

ai (k + 1) =
1 Ui (k + 1) > 0

0 Ui (k + 1)
<0

ai
(k) Ui (k + 1)=0

Se repite el mismo proceso
para la siguiente iteración hasta la convergencia, lo
que ocurre cuando ninguno de los elementos cambia de estado
durante alguna iteración.

D kE =
– Ui( k+ 1 ) D ai
( k+ 1 )

RED DE KOHONEN

La idea
básica que yace en las SOFM es la incorporación a
la regla de aprendizaje competitivo un cierto grado de
sensibilidad con respecto al vecindario o la historia. Esto hace que el
número de neuronas que no aprenden desaparezca y ayuda a
que se destaquen propiedades topológica que aparezcan en
el "mapeado" de caracteristicas.

Suponiendo que un
vector de entrada tiene N características y se representa
por un vector x en un espacio de patrones N-dimensional. La red
mapea el patrón de entrada hacia un espacio de salida. Por
ejemplo, el espacio de salida puede ser un array unidimensional o
bidimensioanl de nodos de salida, que posee cierto orden
topológico. La cuestión es cómo entrenar la
red para que esa relación de orden se preserve. Kohonen
propuso que las neuronas de salida interactuaran lateralmente,
llegando así a los mapas de características
autorganizativos
.

La
característica más importante del modelo es el
concepto de aprendizaje en un vecindario próximo a la
neurona ganadora.

  1. Las ANNs de
    entrenamiento supervisado constituyen la línea
    fundamental de desarrollo
    en este campo. Algunos ejemplos bien conocidos de las
    primeras redes son
    red
    perceptrón
    ,
    ADALINE/MADALINE, y varias redes multicapa. En el
    entrenamiento supervisado hay dos fases a realizar: fase de
    prueba y fase de entrenamiento.

    1. La red
      conocida como perceptron simple es una red
      neuronal tipo feed-forward supervisada, sin capa
      oculta, constituida por un vector de
      "p" inputs, X=(x1,
      x2, …,xn)’, un vector
      de "n" outputs deseados,
      X=(y1, y2,
      …,yn)’, (véase ilustración). La relación
      entre ambos vectores, (inputs; outputs) se
      obtiene mediante la regla de aprendizaje, perceptron
      learning rule
      . Se demuestra que converge de forma
      correcta en un número finito de iteraciones
      (perceptron convergence theorem). Si
      adicionalmente las clases son linealmente separables,
      permite su utilización en problemas de clasificación con
      más de una categoría.

    2. Red Perceptron:

      Un modelo
      neuronal que representa la relación lineal entre
      input y output es la red Adaline
      (adaptive linear element). Este modelo utiliza una
      neurona similar a la del perceptrón simple
      pero de respuesta lineal. Su utilización es
      posible siempre que los inputs sean linealmente
      independientes, lo cual implica, de forma unidireccional,
      la condición de separabilidad entre los mismos. El
      mecanismo que posee para su aprendizaje es la regla de
      Windrow-Hoff o least mean square (LMS) ,
      que puede considerarse un caso particular de la regla de
      aprendizaje delta, delta learning rule.
      Ésta última considera como función
      de activación no lineal la función
      sigmoidea. La versión multicapa de la red Adaline
      se denomina Madaline y su homólogo en
      términos de perceptron simple son las redes
      multilayer feed-forward, (véase
      ilustración).

    3. Red
      Adaline
    4. Las redes
      Multilayer:
  2. MODELOS SUPERVISADOS

Las redes
Multilayer feed-forward (MLP) pueden considerarse unos
aproximadotes funcionales universales, es decir, una red con
una única capa oculta, puede aproximar hasta el nivel
deseado dentro de un conjunto compacto cualquier función
continua. Las redes multilayer feed-forward son entrenadas
habitualmente con el algoritmo de aprendizaje denominado
Back-propagation o BP, uno de los algoritmos
con más importancia histórica en el desarrollo de
las redes neuronales. Las redes neuronales asociadas al
algoritmo Backpropagation se definen como redes
back-propagation
(véase ilustración
).

Los factores que
influyen en el proceso de aprendizaje del algoritmo
back-propagation

(BP) son, entre
otros.

  • Los pesos iniciales que son
    normalmente inicializados de forma aleatoria, pero existen
    otras posibilidades, como por ejemplo, donde "ki " es el
    número de conexiones entre inputs y neuronas en la capa
    oculta.
  • La constante de aprendizaje,
    factor de gran importancia en el proceso de convergencia, tanto
    en lo referente a cómo afecta su valor, como cual es el
    mejor valor a utilizar en las aplicaciones.
  • Las funciones de
    coste, usualmente se utiliza la función
    cuadrática.
  • El momentum,
    filtrado de paso bajo (alisado) del gradiente del
    error.
  • Técnicas de
    optimización utilizadas, métodos
    de gradiente descendente, método
    de Newton,
    método de quasi-Newton, método de
    dirección conjugada.
  • Aprendizaje y
    generalización
  • Número
    de neuronas en las capas ocultas.

Muchas
aplicaciones requieren que las redes neuronales
diseñadas respondan a secuencias en el tiempo de
patrones, es decir, series temporales. Si utilizamos el
algoritmo de aprendizaje BP, podemos convertir una red MLP en
una red time-delay neural networks (TDNN) simplemente
utilizando inputs o entradas con retardos.
Adicionalmente existen otros tipos de
redes feed-forward, agrupadas con el nombre de redes
polinomiales. Ejemplos de ellas son: las redes
functional-link, que son redes con una sola capa oculta
en la que las entradas se procesan con un conjunto de funciones
elegidas en función del problema; las redes
neuronales arbóreas
o TNN, que utilizan
pequeñas redes MLP en cada nodo de partición para
una clasificación binaria que permita extraer las
características no lineales; las redes neuronales
Wavelet o WNN, que son una alternativa a las redes
neuronales feed-forward para aproximarse de forma
arbitraria a funciones no lineales. Y por último, las
redes GMDH

  1. Redes Neuronales
    Polinomiales (PoNN): Algoritmo
    GMDH
    .

Las redes
neuronales polinómicas (PoNN) utilizan el
algoritmo "Group Method of Data
Handling
" (GMDH). Las primeras investigaciones
fueron a cargo de R. Shankar (1972) el cual presentó el
algoritmo GMDH como un método que permitía
describir de forma sucesiva un sistema
complejo de relaciones a partir de simples operaciones matemáticas.

De hecho, es un
buen método para solucionar problemas del estilo,
identificación, predicción a corto y a largo
plazo de procesos
aleatorios, reconocimiento de patrones en entornos complejos,
etc. La teoría matemática fue desarrollada de forma
conjunta por muchos investigadores, siendo su máximo
exponente A.G. Ivakhnenko, hacia los años sesenta. El
contenido del algoritmo se desarrolló como
vehículo para identificar relaciones no lineales entre
inputs y outputs, generando una estructura
óptima a partir de un proceso sucesivo de varias
generaciones de descripciones parciales de los datos, mediante
la incorporación de nuevas capas. En cada capa se inicia
con un número máximo de neuronas (definido por
combinatoria), de forma que, mediante un proceso de selección se determina el número
de neuronas más idóneo en cada capa y así
el proceso se diferencia claramente del back-propagation
en donde todas las capas participan simultáneamente en
el proceso de aprendizaje.

Los aspectos
más importantes del proceso histórico son los
siguientes:

  • Se caracterizó por
    aplicaciones orientadas a establecer criterios de regularidad
    para solucionar problemas de identificación,
    predicción a corto plazo, reconocimiento de patrones,
    pero no se investigó la robustez frente al ruido de
    los datos (1968-1971).
  • Se solucionó el
    problema de la modelización con datos incompletos o
    con ruido

(1972-1975).

  • Fue investigado el grado de
    convergencia del algoritmo GMDH (1976-1979).
  • Se obtuvieron
    importantes resultados teóricos, proponiendo modelos
    no físicos para predicciones a largo plazo, modelos en
    dos niveles, etc, (1980-1988).
  • Aparición de nuevos algoritmos
    para la modelización no paramétrica, como por
    ejemplo, "Twice-Multilayered Neural
    Nets
    " (TMNN) (1988 hasta la actualidad).

Respecto a las
aplicaciones, véase tabla, son cada vez más
numerosas y relacionadas con diversos campos
científicos

Tabla: Áreas
de aplicación de los modelos GMDH.

El primer modelo
neuronal diseñado fue "Ivakhnenko
Polynomial
" o "Kolmogorov-Gabor
Polynomial
", con una topología formada por dos inputs y
un output. Dicha expresión es el resultado de una
combinación cuadrática de los inputs generando un
total de 6 ponderaciones, cuya expresión del
output es, en este caso,

Una
topología más completa incorpora capas ocultas,
donde el output puede ser expresado como un polinomio de
grado 2(k −1), siendo
"k" el número total de capas en el modelo
neuronal.

El proceso de
estimación de los parámetros posee tres fases
(véase ilustración)

La primera de
ellas consiste en agrupar por parejas todas las variables
independientes de forma que,

así con las
variables anteriores se crean ecuaciones de regresión,

Cada
término de regresión se verifica con la muestra de
datos de entrenamiento y de test, pero
sólo las mejores variables se mantienen utilizando la
muestra de test

Las variables
nuevas se pueden considerar versiones mejoradas de las primeras
variables generadas. Así por ejemplo, para un caso de 3
variables de entrada o inputs obtenemos los
siguientes modelos

En el segundo
paso de la optimización, véase ilustración
2.2.5.6., las variables originales " i x
" se
substituyen por las variables nuevas, " i z
", que son
las que mejor describenla variable dependiente,
"y".

Para cada
combinación de las variables originales , la raíz del
error cuadrático medio se utiliza para calcular el
criterio de regularidad (CR) como una medida de bondad del
ajuste (mediante los datos de la base de test). Todas las
variables se
mantienen como nuevos regresores, donde
"R" se especifica a priori y la expresión de " 2j
r
"es,

En la
última fase, la bondad del modelo permite determinar la
necesidad de más iteraciones. El valor de más
pequeño obtenido se compara con el generado en la
última iteración, si no existe mejora el proceso ha
terminado, (véase ilustraciones).

Al final del
proceso anterior, se posee un modelo con los regresores que se
crearon como una síntesis
de diversas variables de generaciones anteriores. Estas
variables pueden ser expresadas de manera recursiva en
términos de las variables originales149. Como podemos
observar, es un modelo que no está completamente
interconectado, similar a un método autoorganizativo
inductivo
y con la capacidad de solucionar problemas
complejos, (véase ilustración.).

Especialmente la
última fase descrita es problemática. El
criterio de regularidad (CR) descrito anteriormente es
sensible a los datos con fuerte componente aleatoria, por esta
razón se suelen utilizar otros criterios, como por
ejemplo, el criterio no sesgado o el criterio
combinado.

Para el primero
de ellos, se subdividen los datos disponibles en dos muestras
"A" y

"B", donde para
cada una de ellas, se aplica de manera independiente el
algoritmo, siendo su expresión, la siguiente,

donde, la
variable " ij z "
solo permanecerá en la
próxima iteración si u siendo
"U" un umbral predefinido. Los resultados empíricos
no han sido muy buenos para este primer caso.

En segundo
lugar, el criterio combinado, intenta solventar los problemas
del primero, combinando los dos con la siguiente
expresión,

donde, la
variable " ij z "
solo permanecerá en la
próxima iteración si c C j 2
, siendo "C" un umbral
predefinido

Los modelos
neuronales polinomiales (PoNN) poseen una diferencia
importante

respecto a los
modelos donde las neuronas están previamente definidas y
es que, sus unidades de procesamiento poseen un papel activo,
debido a que los algoritmos GMDH se ejecutan dentro de las
propias unidades, representando una nueva variable, que es
generada mediante la selección independiente de las
entradas relevantes necesarias para encontrar la estructura
óptima.

 

Jorge Antonio Delgado
Palomino

Ingeniero Industrial

Universidad Nacional de San
Agustín

 

Arequipa – Perú

Partes: 1, 2
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter