Tipos de problemas paralelos. Metodología de desarrollo de programas paralelos (página 2)

Enviado por Pablo Turmero

Partes: 1, 2

? Estudio del algoritmo a priori

Antes de hacer el programa correspondiente.

Sirve para identificar si el algoritmo es adecuado para el problema, o para seleccionar entre varios algoritmos.

También sirve para determinar el tamaño de los problemas a resolver en función de las limitaciones de tiempo y memoria.

Monografias.com

? Estudio a posteriori

Tras haber hecho el programa.

Sirve para comparar entre dos programas según el tamaño de entrada.

También para encontrar fallos o posibles mejoras de un programa.
? Estudio teórico (a priori o posteriori) y estudio experimental (a posteriori).

Monografias.com

? Tipos de estudios teóricos:

Tiempo de ejecución (ej. ordenación)
– caso más favorable, cota inferior: tm (n)
– caso más desfavorable, cota superior: tM (n)
– caso promedio: tp (n)

donde:
n es el tamaño de la entrada
? es una entrada de las S posibles entradas

Monografias.com

? Tipos de estudios teóricos:

Ocupación de memoria
– caso más favorable, cota inferior: mm (n)
– caso más desfavorable, cota superior: mM (n)
– caso promedio: mp (n)

donde:
n es el tamaño de la entrada
? es una entrada de las S posibles entradas

Monografias.com

? Conteo de instrucciones

– decidir qué instrucciones/operaciones (flop) se quieren contar.
– asignar costes a instrucciones de cada tipo.
– una función: coste de las instrucciones que la componen.
– bucles: mediante sumatorios o cotas superior e inferior si no se conoce el número de veces que se ejecutará.
– bifurcaciones: contar el número de veces que pasa por cada rama, o establecer una cota superior (rama más costosa) o una inferior (rama menos costosa).

Monografias.com

? Conteo de instrucciones (caso promedio)

k número de instrucciones del programa
tp (n,i) número promedio de veces que la instrucción i se ejecuta para una entrada de tamaño n

(Gp:) p (i,j) probabilidad de que la instrucción i se ejecute j veces

Monografias.com

? Notación asintótica

Dado que lo que interesa es saber cómo se comporta el algoritmo cuando crece el tamaño de la entrada (tamaños grandes), ya que es cuando podemos tener problemas de tiempo, se suelen utilizar notaciones asintóticas.

Acotan la forma en que crece el tiempo de ejecución cuando el tamaño de la entrada tiende a infinito, sin tener en cuenta las constantes que le afectan.

Monografias.com

? Acotar superiormente, orden de f:
? Acotar inferiormente, omega de f:
? Acotar sup. e inferiormente, orden exacto de f:

Monografias.com

? A nivel práctico, a veces interesa no perder la información de las constantes del término de mayor orden:
(Gp:) ? Algunas relaciones entre órdenes:

Monografias.com

? Factores que afectan al tiempo de ejecución de un programa paralelo:
(Gp:) Estimación del tiempo de ejecución real

(Gp:) Conteo de instrucciones
(Gp:) ¿?

Monografias.com

? Tiempo de comunicación punto a punto entre dos procesadores:

(Gp:) ? Tiempo de comunicación de un mensaje dividido en paquetes a distancia d:

? En general, conviene agrupar mensajes (full duplex?, red conmutada?, Ethernet…)

Monografias.com

? Ejemplo: suma de n números
s = a[0];
for(i=1; i< n; i++)
s = s + a[i];
? Tiempos de la versión secuencial:
– conteo de instrucciones: t(n) = tcalc(n) = 2n – 1
– conteo de operaciones: t(n) = tcalc(n) = n – 1

Monografias.com

? Ejemplo: suma de n números (memoria compartida)
– una versión paralela con n/2 procesos
doall pid = 0, n/2-1
{
ini = 2 * pid;
des = 1;
act = true;
for (k=1; k++; k < = log n)
{
if (act) {
a[ini] = a[ini] + a[ini+des];
des = des * 2;
}
if ((i mod des)!=0) act = false;
}
}

Monografias.com

? Ejemplo: suma de n números (memoria compartida)
– una versión paralela con n/2 procesos (memoria compartida):
(Gp:) 0
(Gp:) 1
(Gp:) 2
(Gp:) 3
(Gp:) 4
(Gp:) 5
(Gp:) 6
(Gp:) 7
(Gp:) k = 1

(Gp:) 0, 1
(Gp:) 2, 3
(Gp:) 4, 5
(Gp:) 6, 7
(Gp:) k = 2

(Gp:) 0, 1, 2, 3, 4, 5, 6, 7
(Gp:) k = log n

(Gp:) 0, 1, 2, 3
(Gp:) 4, 5, 6, 7
(Gp:) …

Monografias.com

? Ejemplo: suma de n números (memoria compartida)
? Problemas:
– distribución del trabajo entre procesos
– overheads = variables auxiliares, comprobaciones…
– ley de Amdahl
? Tiempos de la versión paralela (mem. compartida):

– conteo de instrucciones: tcalc(n, n/2) = 3 + 6 log n
– conteo de operaciones: tcalc(n, n/2) = log n
(+ sincronización tras cada iteración)

Monografias.com

? Ejemplo: suma de n números (memoria distribuida)
– una versión paralela con n/2 procesos
doall Pi, i = 0, n/2-1 {
des = 1;
act = true;
for (k=1; k++; k < = log n -1) {
if (act) {
a = a + b;
des = des * 2;
if ((i mod des)!=0) {
act = false;
Envia (a, Pi-des/2);
}
else Recibe (b, Pi+des/2);
}
}
if (i = 0) a = a + b;
}

Monografias.com

? Ejemplo: suma de n números (mem. distribuida)
? Problemas:
– añade la comunicación y su gestión, cuyo coste puede influir más o menos
? Tiempos de la versión paralela (mem. distribuida):

– instrucciones: tcalc(n, n/2) = 4+6 (log n -1)
– operaciones: tcalc(n, n/2) = log n

– comunicación: tcom(n, n/2) = (log n -1) (ts + tw)
(suponiendo comunicaciones directas y en paralelo)

Monografias.com

? Ejemplo: suma de n números (mem. distribuida)
speed-up para n=64 y p=32 según relación entre ts, tw y top

Monografias.com

? Algunas conclusiones:
– No tiene sentido suponer p ilimitado para una entrada constante (eliminar la restricción n = 2p), n y p deben ser independientes.

– No tiene sentido utilizar programación paralela para resolver problemas pequeños. Mejor resolverlos secuencialmente. En el ejemplo, el coste es lineal, y, por tanto, no es adecuado.

– Dependiendo de la plataforma, un programa derivado de un algoritmo puede proporcionar unas prestaciones muy diferentes.

Monografias.com

? Medidas de prestaciones:

– Speed-up
? Ejemplo: suma de n números (instr./flops)
– Memoria compartida

– Memoria distribuida

Monografias.com

(Gp:) ? Ejemplo: suma de n números (flops)
– Memoria compartida

– Memoria distribuida

? Medidas de prestaciones:

– Eficiencia

Monografias.com

? Medidas de prestaciones:

– Coste

– Función overhead:
(Gp:) ? Ejemplo: suma de n números (flops)
– Memoria compartida

– Memoria distribuida

Monografias.com

? Escalabilidad
Que se mantengan las prestaciones al aumentar p y el tamaño del problema.
(Gp:) ? Función de isoeficiencia
Indica la forma en la que debe aumentar el tamaño de la entrada en función del tamaño del sistema para mantener las prestaciones (despejar n en función de p).

Monografias.com

? Ejemplo: suma de n números (flops)
Memoria compartida
– manteniendo proporcional el coste del secuencial a la función overhead:
– comparando los términos de mayor orden: I(p) = p log p
Memoria distribuida
– manteniendo proporcional el coste del secuencial a la función overhead:
– comparando los términos de mayor orden: I(p) = p log p

Monografias.com

? Ejemplo: suma de n números (flops)
– en ambos casos I(p) = p log p

Monografias.com

Índice
1. Introducción.
2. Análisis de algoritmos.
3. Metodología de desarrollo de programas paralelos.
4. Esquemas de algoritmos paralelos.
5. Problemas numéricos. Librerías.

Monografias.com

? Es diferente paralelizar un algoritmo o programa secuencial, que programar en paralelo una aplicación desde el comienzo.
? En el primer caso, interesa detectar aquellas partes del código con un mayor coste computacional.

Lo más habitual es utilizar trazas, timers, profiling, etc., y ejecutar en paralelo aquellas partes que ofrecen un buen rendimiento (por ejemplo, paralelismo incremental de OpenMP).

Monografias.com

? En el segundo caso, se empieza analizando las carac-terísticas de la propia aplicación, para determinar el/los algoritmos paralelos más adecuados.
OJO: conviene partir de un buen algoritmo ya optimizado (¡no hay que reinventar la rueda!).
? Aunque no hay un “camino único”, se suele recomendar utilizar un determinado procedimiento o metodología.

Monografias.com

? La programación paralela añade, respecto a la programación secuencial, una serie de aspectos a tener en cuenta:

– Concurrencia (sincronización, comunicación).

– Asignación de datos y código a procesadores.

– Acceso simultáneo a datos compartidos (sincronización).

– Escalabilidad.

Monografias.com

? Otra diferencia entre la programación secuencial y la paralela es la forma en que los módulos que componen una aplicación se pueden ensamblar:

– Composición secuencial: los módulos se ejecutan secuencialmente.

– Composición paralela: diferentes módulos se ejecutan simultáneamente sobre conjuntos disjuntos de procesos (escalabilidad y localidad).

– Composición concurrente: diferentes módulos se ejecutan concurrentemente sobre los mismos procesos (solapamiento computación y comunicación).

Monografias.com

(Gp:) PROBLEMA

(Gp:) Particionado

(Gp:) Comunicación

(Gp:) Aglomerado

(Gp:) Mapeado

Modelo PCAM

Monografias.com

(Gp:) PROBLEMA

(Gp:) Particionado
(Gp:) Comunicación

(Gp:) Aglomerado
(Gp:) Mapeado

(Gp:) Descomposición (tareas+comunicación)

(Gp:) Asignación (tareas a procesos)

Modelo PCAM

Monografias.com

Descomposición
? La descomposición consiste en dividir el cálculo en partes de menor tamaño que vamos a denominar tareas, con el objetivo de ejecutarlas en paralelo.
? Según el tamaño (coste computacional) de las tareas se habla de:
– granularidad fina (muchas tareas pequeñas).
– granularidad gruesa (pocas tareas grandes).

Monografias.com

Descomposición
? En esta fase es fundamental tener en cuenta las dependencias entre las tareas y reflejarlas en un grafo de dependencias para poder estimar las necesidades de sincronización y estructura de comunicación que hay entre las tareas.
? Es deseable obtener un número suficientemente alto de tareas (grano fino) para tener más flexibilidad en la fase de asignación.

Monografias.com

Descomposición
? Ejemplo 1: Evaluación polinomial
Se trata de evaluar, para un valor x = b, m funciones polinomiales de grado n f i (x) con i=0,…,m-1; y obtener el valor mínimo.
? Un posible reparto es asignar una tarea a la evaluación de cada polinomio (o conjunto de polinomios) y luego ir calculando el mínimo entre las tareas.

Monografias.com

Descomposición
? Ejemplo 1: Evaluación polinomial
Veamos dos grafos de dependencias entre las tareas (para el caso de 4 polinomios), con sus costes computacionales (cc=5 para evaluar y cc=1 para calcular el mínimo):
(Gp:) f1(b)
(Gp:) 5
(Gp:) f0(b)
(Gp:) 5
(Gp:) f2(b)
(Gp:) 5
(Gp:) f3(b)
(Gp:) 5
(Gp:) min
(Gp:) 1
(Gp:) min
(Gp:) 1
(Gp:) min
(Gp:) 1
(Gp:) (a)

(Gp:) f1(b)
(Gp:) 5
(Gp:) f0(b)
(Gp:) 5
(Gp:) f2(b)
(Gp:) 5
(Gp:) f3(b)
(Gp:) 5
(Gp:) min
(Gp:) 1
(Gp:) min
(Gp:) 1
(Gp:) min
(Gp:) 1
(Gp:) (b)

Monografias.com

Descomposición
? Mediante el grafo de dependencias se puede establecer el máximo grado de concurrencia de un algoritmo.
Para caracterizar el paralelismo potencial de un algoritmo se suele calcular el grado medio de concurrencia (gmc), es decir, el número medio de tareas que se podrían ejecutar en paralelo.
(Gp:) gmc(grafo a) = 23/7 = 3,28
(Gp:) gmc(grafo b) = 23/8 = 2,875

L: long. camino crítico
cc: coste computacional

Monografias.com

Descomposición
? Para el ejemplo 1 (evaluación polinomial) el grafo con la estructura de comunicación necesaria para el caso de paso de mensajes sería:
(Gp:) f1(b)
(Gp:) 5
(Gp:) f0(b)
(Gp:) 5
(Gp:) f2(b)
(Gp:) 5
(Gp:) f3(b)
(Gp:) 5
(Gp:) min
(Gp:) 1
(Gp:) min
(Gp:) 1
(Gp:) min
(Gp:) 1

Lectura+reparto
4
4
4
4
1
1
1
1
1
1
Patrón de comunicación
(recursiva)

Monografias.com