Página 1
Arquitecturas con varios procesadores
(Gp:) Arquitectura
(Gp:) Tecnología
(Gp:) Mercado
(Gp:) Aplicaciones
(Gp:) Posibilidades
(Gp:) Restricciones Económicas
(Gp:) Selección
(Gp:) Demanda
(Gp:) Nuevas Restricciones
(Gp:) Posibilidades
(Gp:) Posibilidades
(Gp:) Capacidades Prestaciones
(Gp:) Promueve
(Gp:) Generación
(Gp:) Fundamental
Fuerte
Visible
(Gp:) Adaptado de Vajapeyam/Valero (Computer, Abril 2001)
Página 2
Tecnología
Procesadores de altas prestaciones: permiten configurar plataformas paralelas eficientes en tiempos reducidos.
Limitaciones previsibles en la tecnología: efecto de los retardos relativos crecientes y de las limitaciones en el consumo de potencia (12% de crecimiento anual de la capacidad de los procesadores)
Página 3
Aplicaciones y Mercados
Aplicaciones que demandan velocidades y capacidad de memoria fuera del alcance de las plataformas monoprocesador.
Demanda elevada de disponibilidad:
Procesamiento de transacciones.
Sistemas de control con restricciones de alta seguridad (medicina, transportes, …).
Aplicaciones sobre internet (mercados financieros contínuos, acceso a información, computación móvil) ? necesidad de disponibilidad 24×7.
Página 4
La falsa ley de Moore
El rendimiento se multiplica por dos cada dos años.
El progreso en rendimiento de los dos próximos años igualará el progreso de todo el pasado.
No tiene en cuenta que:
La latencia de la memoria no progresa al mismo ritmo.
Página 5
CPU / Memoria
Página 6
La verdadera ley de Moore
El número de transistores en un chip se dobla cada 18-24 meses.
Pero con las latencias de memoria incrementándose, esto no tiene efecto sobre aplicaciones en un único hilo.
Página 7
Ritmo de mejora
SI PROSIGUE
Plataformas paralelas que puedan desarrollarse en poco tiempo, a partir de hardware disponible
Plataformas con muchos procesadores (suponen un incremento de prestaciones muy elevado)
SI NO PROSIGUE
Usar varios procesadores es la opción para configurar plataformas con mejores prestaciones.
Página 8
Mejoras en la tecnología
Mejoras:
Reducción del tamaño de los transistores.
Aumento de la superficie.
Efectos:
Más transistores por circuito integrado.
Microarquitecturas más complejas en un solo circuito integrado.
Paralelismo entre instrucciones ? Procesadores superescalares.
Reducción de la longitudo de puerta y tiempo de conmutación.
Mayores frecuencias de funcionamiento.
Página 9
Reducción de ciclos por instrucción
IF ID EX MEM WB
IF
ID
EX
MEM
WB
IF ID EX MEM WB
IF
ID
EX
MEM
WB
IF
ID
EX
MEM
WB
IF
ID
EX
MEM
WB
Inst. 1
Inst. 2
Inst. 1
Inst. 2
Inst. 3
Inst. 4
IF
ID
EX
MEM
WB
IF
ID
EX
MEM
WB
IF
ID
EX
MEM
WB
IF
ID
EX
MEM
WB
Inst. 1
Inst. 2
Inst. 3
Inst. 4
5T
No segmentado
Segmentado
Superescalar o VLIW
CPI=5
T
CPI=1
T
CPI=0.5
Página 10
Procesadores superescalares
Procesador más complejo.
Más recursos para ejecutar más instrucciones por ciclo.
Página 11
Límites de la mejora
La mejora prevista para procesadores superescalares es del 12% anual hasta 2014 ? Factor de incremento de prestaciones de 7.4.
Factor de mejora anual anterior = 55% ? Factor acumularo de 1700.
Alternativas:
Procesamiento de un único hilo: VLIW
Procesamiento praralelo de varios hilos ? SMT y CMP
Página 12
VLIW: Itanium 2 (IA-64)
Paralelismo responsabilidad del compilador
Página 13
SMT: Pentium 4 HT
Procesador ejecuta dos hilos simultaneamente.
Hilos pueden pertenecer al mismo proceso o a procesos diferentes.
Página 14
CMP: IBM Power 4
Dos procesadores superescalares en un único chip.
Página 15
Otra arquitectura novedosa: Cell
Originalmente concebido por Sony para la PlayStation 3.
Trabajo conjunto de Sony, IBM y Toshiba.
Página 16
Razones
Sony y Toshiba desan ahorrar costes produciendo sus propios componentes.
La siguiente generación de electrónica de consumo requiere alta potencia de cómputo (un decodificador de televisión digital que procese todos los canales simultáneamente).
IBM ha anunciado servidores basados en Cell.
Página 17
Especificaciones
Formado por:
1 procesador principal (PPE).
8 procesadores auxiliares (SPEs).
Bus de interconexión (EIB).
Controlador DMA (DMAC).
2 controladores de memoria Rambus XDR.
Interfaz de entrada salida Rambus.
Página 18
Página 19
PPE
Núcleo de procesador convencional.
Ejecuta el SO y parte de las aplicaciones, descargando partes a los SPEs.
Es un procesador de 64 bits con arquitectura Power.
Caché ? 512 KB.
IMPORTANTE: Juego de instrucciones compatible con PowerPC, pero arquitectura totalmente rediseñada.
Los ciclos por instrucción no son comparables a igualdad de frecuencia de reloj.
Página 20
PPE
Es un procesador de dos hilos (SMT).
Diseño muy simple al no implementar ejecución de instrucciones fuera de orden
ahorro de mucho silicio.
ahorro de consumo.
Contrapartida:
Más trabajo para el compilador ? Necesidad de buenos compiladores.
Página 21
SPEs
Procesador vectorial.
Cada SPE contiene:
128 registros de 128 bits.
4 unidades de coma flotante.
4 unidades artiméticas enteras.
Memoria local de 256 KB.
No tienen cachés.
Página 22
Cell como procesador de flujo
Página 23
Algunos retos
Integración en la planificación del consumo de los hilos.
Sistemas de memoria: Nuevas jerarquías de memoria.
Compiladores que generen código que evite necesidades hardware.
Paralelización automática de aplicaciones secuenciales.
Optimización dinámica del código.