Red de conocimiento informático - Problemas con los teléfonos móviles - Información detallada de SSE4

Información detallada de SSE4

El nombre completo en inglés del conjunto de instrucciones SSE4 es: Streaming SIMD Extensions 4, que es la mayor actualización y expansión de Intel del conjunto de instrucciones de extensión ISA desde SSE2. El nuevo conjunto de instrucciones mejora el rendimiento en áreas que van desde aplicaciones multimedia hasta aplicaciones informáticas de alto rendimiento, al tiempo que utiliza algunos circuitos dedicados para acelerar aplicaciones específicas. Introducción básica Nombre chino: SSE4 Conjunto de instrucciones: SSE4.2 Características: Nueva tecnología independiente Procesador: Intel Core de segunda generación de 45 nm Introducción, historial de desarrollo, antecedentes de producción, versión, características, compilador vectorizado, acelerador de medios, introducción real, el conjunto de instrucciones SSE4 no puede Se puede decir completamente que es una nueva tecnología independiente, porque está integrada en el procesador Intel Core de 2 generación de 45 nm lanzado en 2008. Esta generación de procesadores integró el conjunto de instrucciones SSE4.1 y los procesadores Nehalem posteriores con arquitecturas más nuevas y procesos actualizados integran El conjunto de instrucciones SSE4.2, por lo que el conjunto de instrucciones SSE4 en realidad incluye los conjuntos de instrucciones SSE4.1 y SSE4.2. Se puede decir que este conjunto de instrucciones es una de las muchas tecnologías nuevas del procesador. Pero la razón por la que lo saco por separado para que todos lo analicen es principalmente porque a medida que mejoran los niveles de vida de las personas, los requisitos de todos para la reproducción y descompresión de videos de alta definición también son cada vez mayores. Por lo tanto, en esta página, el editor presentará en detalle las características del conjunto de instrucciones SSE4 y lo probará en consecuencia. Historia del desarrollo Primero, revisemos la historia de las instrucciones integradas del procesador Intel y luego presentemos el nacimiento del conjunto de instrucciones SSE4. A partir del procesador Intel Pentium MMX, el procesador ha agregado recientemente el conjunto de instrucciones multimedia SIMD (Instrucción única de datos múltiples). Este conjunto de instrucciones puede editar varios lotes de grupos de instrucciones en una sola instrucción para mejorar las capacidades de procesamiento de datos. El procesador Pentium integrado con instrucciones MMX se utiliza principalmente para mejorar las capacidades de procesamiento de datos multimedia, con un total de 57 instrucciones. Posteriormente, Intel lanzó el conjunto de instrucciones SSE basado en instrucciones MMX en 1999, con el nombre completo de Streaming SIMD Extensions. El primer procesador Pentium III que admite SSE, además de agregar 70 nuevas instrucciones, también mejora aún más las capacidades de procesamiento de datos multimedia. Lo más importante es resolver el problema de que las instrucciones MMX y las instrucciones de punto flotante no se pueden procesar al mismo tiempo. tiempo. El conjunto de instrucciones SSE2 lanzado posteriormente en 2001 agregó 144 nuevas instrucciones sobre la base original. Además de ser el principal responsable de los números de punto flotante de doble precisión de 64 bits y las operaciones con números enteros y de reducir los retrasos en el control de la caché, lo que es más importante, resuelve por completo el problema de que el conjunto de instrucciones SSE necesita ocupar registros de datos de punto flotante. En 2004, el procesador Intel Pentium 4 con Prescott como núcleo agregó el conjunto de instrucciones SSE3, con solo 13 instrucciones nuevas, principalmente operaciones en números enteros de registro horizontal, que pueden sumar o sumar múltiples valores al mismo tiempo. permiten al procesador realizar una gran cantidad de operaciones de naturaleza DSP y 3D. Además, SSE3 está optimizado para aplicaciones multiproceso, lo que permite utilizar mejor la función Hyper-Threading original del procesador. Después de 2005, como versión complementaria del conjunto de instrucciones SSE3, SSSE3 apareció en los procesadores de microarquitectura Core con los que ya estamos relativamente familiarizados y agregó 16 instrucciones para mejorar aún más las capacidades de procesamiento de la CPU en multimedia, gráficos e Internet. Intel originalmente planeó incluir las 16 instrucciones en el conjunto de instrucciones SSE4 posterior, pero considerando la mejora sustancial en la velocidad de actualización del hardware en ese momento, finalmente decidió agregarlas temprano a los productos de microarquitectura Core. Por lo tanto, los primeros SSE4 se confunden fácilmente con SSSE3, incluida la CPU-Z de generación anterior, que identifica directamente a SSSE3 como SSE4. Sin embargo, de hecho, el nuevo conjunto de instrucciones SSE4 apareció en el procesador 45nmCore 2 de nueva generación lanzado en 2008, que es. la primera versión. Antecedentes de generación El siguiente es el conjunto de instrucciones SSE4, el protagonista de esta página. Como se ha rumoreado ampliamente en la industria anteriormente, el conjunto de instrucciones SSE4 se considera la mejora en la arquitectura del conjunto de instrucciones de medios más importante desde 2001.

Además de actualizar la arquitectura de 32 bits que ha durado muchos años a 64 bits, también se han agregado muchas instrucciones como gráficos, codificación de video, procesamiento, imágenes 3D y aplicaciones de juegos, lo que hace que el procesador tenga un alto rendimiento en audio. imágenes, algoritmos de compresión de datos, etc. Aumento de amplitud. Versión Sin embargo, a diferencia del pasado, Intel dividió SSE4 en dos versiones, 4.1 y 4.2, por lo que sólo la versión SSE4.1 está integrada en el procesador central Penryn de 45 nanómetros. El conjunto de instrucciones SSE4.2 nos llega en la nueva generación de procesadores de arquitectura Nehalem. ¿Cuáles son las características especiales del nuevo conjunto de instrucciones SSE 4.1? ¡Echemos un vistazo! La versión SSE4.1 del conjunto de instrucciones agrega 47 nuevas instrucciones, principalmente para operaciones de dibujo vectorial, aceleración de juegos 3D, aceleración de codificación de video y aceleración de procesamiento colaborativo. Intel señaló que después de aplicar el conjunto de instrucciones SSE4, el núcleo Penryn de 45 nanómetros proporciona dos soportes adicionales de multiplicación de enteros vectoriales de 32 bits y, sobre esta base, también introduce valores mínimos y máximos sin signo de 8 bits y 16 bits, 32. Las operaciones de bits con y sin signo pueden mejorar eficazmente la eficiencia de la compilación del compilador y, al mismo tiempo, mejorar la capacidad de vectorizar números enteros y operaciones de precisión simple. Además, SSE4.1 también mejora operaciones como inserción, extracción, búsqueda, discretización, carga de zancada y almacenamiento, asegurando la especialización de las operaciones vectoriales. SSE4.1 también agrega 6 instrucciones de operación de punto flotante para admitir operaciones de punto flotante de precisión simple y doble y operaciones de generación de punto flotante. Entre ellos, la instrucción IEEE 754 puede realizar una conversión inmediata del modo de ruta de operación, lo que reduce en gran medida el retraso y garantiza el flujo fluido del canal de operación de datos. Estos cambios tienen una importancia de gran alcance para los juegos 3D y la producción de gráficos relacionados. Además, el conjunto de instrucciones SSE4.1 también agrega instrucciones de carga de transmisión, que pueden aumentar el ancho de banda de lectura de datos en el búfer de cuadros de gráficos. En teoría, se puede obtener una línea de caché completa, es decir, se pueden leer 64 bits en un. una sola vez En lugar de los 8 bits originales, y se puede mantener en el búfer temporal, la instrucción puede mejorar hasta 8 veces el rendimiento del ancho de banda de lectura. Desempeña un papel importante en el intercambio de datos entre el procesador gráfico y la unidad central de procesamiento. SSE4.2 es un nuevo conjunto de 7 instrucciones basado en el conjunto de instrucciones SSE4.1 de la arquitectura Nehalem de nueva generación basada en la microarquitectura Core. A diferencia de SSE4.1, su objetivo principal es acelerar el procesamiento multimedia del procesador, como por ejemplo. Como visualización de gráficos y codificación y procesamiento de video, procesamiento de imágenes 3D, juegos de computadora, etc., SSE4.2 se aplica principalmente a instrucciones de procesamiento de cadenas y texto. El conjunto de instrucciones SSE4.2 se puede subdividir en dos grupos: STTNI y ATA. STTNI se utiliza principalmente para acelerar el procesamiento de cadenas y texto, como aplicaciones XML para búsqueda y comparación de alta velocidad. En comparación con las operaciones de software, SSE4.2 proporciona. aproximadamente 3,8 veces La velocidad mejora y ahorra 2,7 veces los ciclos de instrucción, lo que mejora significativamente el rendimiento de las aplicaciones del servidor. El conjunto completo de instrucciones SSE4 ha sido compatible y soportado por el nuevo procesador de arquitectura bulldozer de AMD lanzado a finales de 2011. Características Dos subconjuntos de SSE4 (SSE4.1 y SSE4.2) contienen 54 instrucciones, divididas principalmente en dos categorías: compiladores vectorizados y aceleradores de medios, y aceleración eficiente del procesamiento de cadenas y texto. Compilador vectorizado El compilador vectorizado y el acelerador de medios proporcionan bibliotecas de compilador de alto rendimiento, como aritmética de enteros empaquetada (que utiliza múltiples operandos simultáneamente) y aritmética de punto flotante para generar código de rendimiento optimizado. Además, incluye operaciones altamente optimizadas relacionadas con los medios, como la suma de diferencias absolutas, el producto punto flotante y la carga de memoria. Las directivas del compilador de vectorización y del acelerador de medios mejoran el rendimiento de las aplicaciones de edición de audio, vídeo e imágenes, codificadores de vídeo, aplicaciones y juegos 3D. Media Accelerator La aceleración eficiente del procesamiento de cadenas y texto incluye múltiples instrucciones de comparación de cadenas comprimidas, lo que permite ejecutar múltiples operaciones de comparación y búsqueda simultáneamente. Las aplicaciones que se benefician de esto incluyen aplicaciones de bases de datos y minería de datos, así como aquellas que utilizan algoritmos de análisis, búsqueda y coincidencia de patrones, como escáneres y compiladores de virus.