Red de conocimiento informático - Material del sitio web - Conjunto de instrucciones del conjunto de instrucciones multimedia

Conjunto de instrucciones del conjunto de instrucciones multimedia

El conjunto de instrucciones extendido de la CPU no es muy diferente en términos de funciones básicas para la CPU. Los conjuntos de instrucciones básicos también son similares. Sin embargo, muchos fabricantes han desarrollado instrucciones adicionales para mejorar el rendimiento de la CPU. Un cierto aspecto. El conjunto de instrucciones extendido define nuevos datos e instrucciones, lo que puede mejorar en gran medida ciertos aspectos de las capacidades de procesamiento de datos, pero se requiere soporte de software.

Después de años de desarrollo, el conjunto de instrucciones multimedia se ha convertido en una parte inseparable de la CPU. Cada vez que aparece una nueva CPU, estamos acostumbrados a usar CPU-Z para verificar si ha agregado algún conjunto de instrucciones nuevo. Desde la perspectiva de nuestro entorno de aplicaciones, las imágenes 3D se están volviendo cada vez más complejas y la tasa de compresión de la codificación de video es cada vez mayor, lo que plantea requisitos más altos para la CPU. Es posible que la CPU solo pueda seguir tomando SSE. como "estimulante".

Aunque el conjunto de instrucciones en la CPU pasa desapercibido, juega un papel importante en la aceleración de las operaciones de la CPU, especialmente en la codificación. Si el software utilizado está optimizado para el conjunto de instrucciones de la CPU, entonces el rendimiento informático de la CPU mejorará. La velocidad de carrera mejora enormemente en comparación con la velocidad sin optimización del conjunto de instrucciones. Como columna vertebral de Intel, el conjunto de instrucciones SSE es evidentemente importante. Cada actualización del conjunto de instrucciones SSE implica un gran esfuerzo por parte de Intel. Además de su propia investigación y desarrollo de conjuntos de instrucciones, cómo habilitar muchos software para que admitan el nuevo conjunto de instrucciones es un tema más crítico.

La CPU se basa en instrucciones para calcular y controlar el sistema. Cada CPU está diseñada con una serie de sistemas de instrucciones que coinciden con su circuito de hardware. La solidez de las instrucciones también es un indicador importante de la CPU. El conjunto de instrucciones es una de las herramientas más eficaces para mejorar la eficiencia de los microprocesadores. A juzgar por la arquitectura convencional actual, el conjunto de instrucciones se puede dividir en dos partes: conjunto de instrucciones complejo y conjunto de instrucciones reducido, que mejoran respectivamente las capacidades de procesamiento multimedia, gráficos e Internet de la CPU. Generalmente nos referimos al conjunto de instrucciones extendido de la CPU. Llamado conjunto de instrucciones de la CPU. Después de una investigación, se descubrió que en las computadoras, el 80% de los programas utilizan solo el 20% del conjunto de instrucciones. A partir de este descubrimiento se propuso el conjunto de instrucciones reducido RISC, que supuso una profunda revolución en la arquitectura de los sistemas informáticos. La idea básica de la arquitectura RISC es aprovechar las deficiencias del sistema de instrucción CISC: demasiados tipos de instrucciones, formatos de instrucción no estándar y demasiados métodos de direccionamiento. Al reducir los tipos de instrucciones, se estandariza el formato de las instrucciones. y simplificando los métodos de direccionamiento, es conveniente para el procesamiento interno del procesador. El procesamiento paralelo mejora la eficiencia de uso de los dispositivos VLSI, mejorando así en gran medida el rendimiento del procesador.

El conjunto de instrucciones RISC tiene muchas características, las más importantes son:

Pocos tipos de instrucciones y formatos de instrucción estandarizados: Los conjuntos de instrucciones RISC normalmente sólo utilizan uno o unos pocos formatos. Las instrucciones tienen una sola longitud (normalmente 4 bytes) y están alineadas en límites de palabras. Las posiciones de los campos, especialmente las posiciones de los códigos de operación, son fijas. Hacer un uso extensivo de las operaciones entre registros: simplificar la estructura del procesador: fortalecer las capacidades paralelas del procesador. Las tecnologías de operación paralela comúnmente utilizadas dentro del procesador se desarrollan y maduran básicamente en base a la arquitectura RISC.

Debido a las ventajas del sistema RISC, se ha utilizado ampliamente en sistemas de alta gama, mientras que el sistema CISC ocupa una posición dominante en los sistemas de escritorio. Hoy en día, RISC también está penetrando continuamente en el campo de los escritorios. Se espera que RISC domine el mundo en el futuro. El conjunto de instrucciones MMX (Multi Media eXtension, Conjunto de instrucciones de extensión multimedia) es una tecnología de mejora de instrucciones multimedia lanzada por Intel en 1996. El conjunto de instrucciones MMX incluye 57 instrucciones multimedia. A través de estas instrucciones, se pueden procesar múltiples datos a la vez y se puede realizar el procesamiento normal cuando los resultados del procesamiento exceden la capacidad de procesamiento real. se puede obtener rendimiento. El beneficio de MMX fue que los sistemas operativos existentes podían ejecutar fácilmente programas MMX sin tener que realizar modificaciones para este propósito. Sin embargo, el problema también es obvio, es decir, el conjunto de instrucciones MMX y las instrucciones de operación de punto flotante x87 no se pueden ejecutar al mismo tiempo. Se requiere una conmutación entrelazada intensiva para la ejecución normal. Esta situación inevitablemente causará una disminución en la calidad de ejecución. de todo el sistema.

Intel promete que a través de su conjunto de instrucciones multimedia inalámbricas MMX2 de segunda generación, los teléfonos móviles y PDA lograrán pantallas más claras, una reproducción de vídeo más fluida y una mayor eficiencia en el uso de la batería. Los desarrolladores y usuarios verán estos efectos en los sucesores de la serie de chips Xscale.

Dado el rápido crecimiento del mercado de la telefonía móvil, no es de extrañar que Intel tenga intención de hacerse con una parte del mismo. En el reciente foro IDF, Intel anunció la plataforma Hermon. La plataforma divide sus chips Bulverde en cuatro plataformas diferentes: plataforma de consumo de gama baja, plataforma de consumo de gama media, plataforma de consumo de gama alta y plataforma de negocios digitales de gama alta. (Para artículos relacionados, consulte "IDF: Intel muestra la tecnología móvil NB después de 2006" e "IDF: Intel reinventa un nuevo plan para el desarrollo de PC de entretenimiento")

Wireless MMX2 es la preparación de Intel para procesadores de teléfonos móviles y PDA. Una de las mejoras. Según el portavoz de Intel, Mark Miller, Bulverde no apoyará esta extensión. MMX2 es para el sucesor de Bulverde, sobre lo cual Miller no quiso comentar. Sin embargo, está claro que Intel lanzará pronto una versión actualizada de Bulverde, ya que el chip se basa en el PXA255, un núcleo de casi cuatro años. Intel introdujo por primera vez el conjunto de instrucciones SSE (Streaming SIMD Extensions, Single Institution Multiple Data Streaming Extensions) en el procesador Pentium III. De hecho, mucho antes del lanzamiento oficial de PIII, Intel había anunciado el llamado conjunto de instrucciones KNI (Katmai New Institution) a través de varios canales. Este conjunto de instrucciones fue el predecesor del conjunto de instrucciones SSE, y muchos medios lo llamaron MMX. próxima versión del conjunto de instrucciones, el conjunto de instrucciones MMX2. Si analizamos los antecedentes, resulta que el conjunto de instrucciones KNI es el primer conjunto de instrucciones que la empresa Intel nombró para su chip de próxima generación, y el llamado MMX2 se basa enteramente en la evaluación de KNI por parte de críticos de hardware y medios de comunicación. Sobre sus sentimientos e impresiones, Intel nunca ha publicado oficialmente noticias sobre MMX2.

El conjunto de instrucciones SSE finalmente lanzado es el llamado conjunto de instrucciones SSE de Internet ganador. El conjunto de instrucciones SSE incluye 70 instrucciones, incluidas 50 instrucciones de operación de punto flotante SIMD (tecnología de datos múltiples de instrucción única) para mejorar la eficiencia de las operaciones de gráficos 3D, 12 instrucciones de mejora de operación de números enteros MMX y 8 instrucciones para optimizar la transferencia continua de bloques de datos en la memoria. . Instrucciones S SE y 3DNow! Se debe decir que el conjunto de instrucciones 3DNow! propuesto por AMD aparece antes del conjunto de instrucciones SSE y es ampliamente utilizado por AMD en sus procesadores K6-2, K6-3 y Athlon (K7). La tecnología de conjunto de instrucciones 3DNow! es en realidad un conjunto de instrucciones extendido de 21 códigos de máquina.

A diferencia de la tecnología MMX de Intel, que se centra en operaciones con números enteros, el conjunto de instrucciones 3DNow! está dirigido principalmente a aplicaciones tridimensionales como modelado tridimensional, transformación de coordenadas y representación de efectos. , puede mejorar enormemente el rendimiento del procesamiento 3D. 3DNow! mejorado se desarrolló posteriormente en Athlon. Estas instrucciones SIMD estándar de AMD tienen el mismo rendimiento que las SSE de Intel. Debido al éxito comercial de Intel y Pentium III, el software compatible con SSE es más común que 3DNow!. 3DNow! mejorado AMD continúa aumentando el número de instrucciones a 52, incluido algo de código SSE, para que se pueda obtener un mejor rendimiento en el software optimizado para SSE.

La última CPU Intel puede admitir conjuntos de instrucciones SSE, SSE2 y SSE3.

Las primeras CPU de AMD solo admitían el conjunto de instrucciones 3DNow! Con la autorización gradual de Intel, a partir del núcleo Venice Athlon 64, las CPU de AMD no solo desarrollaron aún más el conjunto de instrucciones 3DNow, sino que también admitieron los conjuntos de instrucciones SSE, SSE2 y SSE3 de Intel. Sin embargo, el conjunto de instrucciones de la serie SSE de Intel tiene una mayor aceptación en la industria y el conjunto de instrucciones 3DNow! de AMD se utiliza relativamente raramente.

SSE4 El nombre completo es Streaming SIMD Extension 4. Se considera la mejora más importante de la arquitectura del conjunto de instrucciones multimedia desde 2001. Además de ampliar la arquitectura del conjunto de instrucciones Intel 64, también agrega gráficos relacionados. , codificación de video y aplicaciones que involucran algoritmos de compresión de datos, imágenes y audio se beneficiarán enormemente de instrucciones como procesamiento, imágenes 3D y aplicaciones de juegos.

SSE4 se dividirá en la versión 4.1 y la versión 4.2. La versión 4.1 aparecerá por primera vez en el procesador Penryn ***Se agregaron 47 instrucciones, principalmente para operaciones de dibujo vectorial, aceleración de juegos 3D y video. Aceleración de codificación y aceleración de procesamiento colaborativo.

Según Intel, después de aplicar el conjunto de instrucciones SSE4, Penryn agregó dos soportes diferentes para operaciones de multiplicación de enteros vectoriales de 32 bits e introdujo operaciones de valor mínimo y valor máximo sin signo de 8 bits. , así como operaciones firmadas (firmadas) y no firmadas de 16 bits y 32 bits, y mejoran efectivamente la eficiencia del compilador y mejoran las capacidades informáticas de códigos vectorizados enteros y de precisión simple. Al mismo tiempo, SSE4 mejora operaciones como inserción, extracción, búsqueda, discretización, carga de pasos y almacenamiento, especializando aún más las operaciones vectoriales.

Además, SSE4 agrega una instrucción de carga de transmisión, que puede aumentar el ancho de banda de lectura de datos del búfer de cuadros de gráficos. En teoría, se puede obtener una línea de caché completa, es decir, se leen 64 bits cada vez. en lugar de 8 bits, y se puede mantener en el búfer temporal, de modo que la instrucción puede brindar una mejora significativa en el rendimiento del ancho de banda de lectura para aplicaciones de procesamiento de video, imágenes y uso compartido de datos entre procesadores gráficos y procesadores centrales. mejora del rendimiento. 45 nm añade el conjunto de instrucciones SSE4.1, que mejora las capacidades de procesamiento multimedia del procesador hasta en un 70%. SSE4 agrega 6 instrucciones de operación de productos de puntos de punto flotante, que admiten operaciones de punto flotante de precisión simple y doble precisión y operaciones de generación de punto flotante, y las instrucciones IEEE 754 (Nearest, -Inf, Inf y Truncate) pueden convertir inmediatamente sus Estos cambios, que reducen drásticamente los retrasos, serán de gran importancia para las aplicaciones de producción de contenidos 3D y juegos.

El conjunto de instrucciones SSE4 agrega dos unidades diferentes de multiplicación de enteros vectoriales de 32 bits al procesador Penryn de 45 nm y agrega operaciones mínimas y máximas sin signo de 8 bits, así como operaciones con signo (con signo) de 16 bits y 32 bits. . Cuando se enfrenta a un software que admite el conjunto de instrucciones SSE4, puede mejorar eficazmente la eficiencia del compilador y mejorar las capacidades informáticas de códigos vectorizados enteros y de precisión simple. Al mismo tiempo, SSE4 mejora operaciones como inserción, extracción, búsqueda, discretización, carga de paso y almacenamiento, haciendo que las operaciones vectoriales sean más especializadas. Desde que IDF reveló el plan de lanzamiento del procesador Penryn de 45 nm en 2007, se han seguido difundiendo varias noticias sobre Penryn. Además de los avances tecnológicos, este procesador basado en tecnología de 45 nm también tiene cambios arquitectónicos y actualizaciones del conjunto de instrucciones, lo cual está en línea con el hábito de Intel. de realizar mejoras importantes al procesador en un periodo de tiempo (cada 2 años).

El procesador Penryn está equipado con el último conjunto de instrucciones SSE4. SSE4 (Streaming SIMD Extensions 4) es la mayor actualización de Intel al conjunto de instrucciones de extensión ISA desde SSE2. Se actualizará sucesivamente con el procesador Penryn. utilizado en plataformas de escritorio, plataformas móviles y servidores.

Se sabe que SSE4 incluye alrededor de 50 instrucciones nuevas. A través de estos nuevos conjuntos de instrucciones, Penryn mejora el rendimiento desde aplicaciones multimedia hasta aplicaciones informáticas de alto rendimiento y también utiliza algunos circuitos dedicados para lograr aceleración para aplicaciones específicas.

De hecho, los conjuntos de instrucciones cada vez mayores en la arquitectura IA32 se aceleran para aplicaciones multimedia, porque es necesario procesar una gran cantidad de datos repetidos en un entorno multimedia. Por lo tanto, desde MMX, los fabricantes de CPU tienen. Comenzó a agregar un conjunto de instrucciones multimedia SIMD (Instrucción única de datos múltiples) que puede completar múltiples lotes de procesamiento de datos en una sola instrucción, mejorando así en gran medida las capacidades de procesamiento de datos multimedia. Desde que Intel agregó instrucciones MMX (Extensiones multimedia) al Pentium P55C, el conjunto de instrucciones x86 se ha ampliado continuamente y de vez en cuando aparecen conjuntos de extensiones como 3D Now. Estos conjuntos de instrucciones utilizan principalmente SIMD para mejorar las capacidades de procesamiento de datos multimedia.

El conjunto de extensiones MMX con 57 instrucciones es un conjunto de instrucciones extendido que se centra en operaciones con números enteros, además de las operaciones con números enteros, Intel también las introdujo por primera vez en el procesador Pentium III. 1999. SSE (Streaming SIMD Extensions) amplía el conjunto de instrucciones para mejorar las capacidades informáticas de punto flotante de la arquitectura x86. La primera generación de SSE incluyó 70 instrucciones nuevas.

Después de SSE, Intel pronto lanzó el conjunto de instrucciones SSE2 en el Willamette Pentium 4 en 2000. El número de instrucciones en este conjunto de instrucciones alcanzó un número muy alto de 144, que se utilizó para mejorar el vector de doble precisión. Se puede ver que el conjunto de instrucciones SSE no solo incluye operaciones de punto flotante, sino que también puede considerarse como una expansión continua de la arquitectura IA32.

Tras el lanzamiento de SSE2 en el año 2000, Intel no ha realizado grandes expansiones en este ámbito desde hace mucho tiempo. El SSE3 añadido en 2004 sólo incluía 13 nuevas instrucciones (aparecieron por primera vez en Prescott Pentium 4), en 2006. El SSSE3 (Supplemental Streaming SIMD Extensions 3) agregado solo incluye 32 instrucciones nuevas (aparecieron por primera vez en Core 2 Duo). La primera mejora principalmente el rendimiento de las operaciones con números complejos y la segunda mejora principalmente el rendimiento de decodificación, tal vez debido a su lanzamiento anticipado (original planeado para). incluirse en SSE4), SSSE3 no adopta la denominación de SSE4.

Desde la perspectiva del número de instrucciones, las 47 en SSE4 también son la mayor cantidad de cambios desde 2000. Al mismo tiempo, las instrucciones agregadas en SSE4 mejoran las operaciones de números enteros y de punto flotante, admiten operaciones DWORD y QWORD y las nuevas operaciones FP de precisión simple, operaciones de registro rápido, operaciones de memoria para optimización del rendimiento, etc., incluyen innovaciones en gráficos, imágenes y carga de datos. Por lo tanto, no es exagerado llamarlo el mayor cambio en el conjunto de instrucciones desde SSE2. Después de compilar con un compilador que admita el conjunto de instrucciones SSE4, se beneficiarán las aplicaciones que incluyen procesamiento de gráficos/imágenes, procesamiento de video, creación 2D/3D, multimedia, juegos, cargas sensibles a la memoria, informática de alto rendimiento y otras aplicaciones.

Las instrucciones específicas del conjunto de instrucciones SSE4 se muestran en la siguiente figura. Según los datos, el conjunto de instrucciones SSE4 se dividirá en dos versiones: 4.1 y 4.2. Se lanzará la versión SSE4.1. con 45nmPenryn y SSE4 se lanzará con la próxima generación de Nehalem de Penryn. 4.1 incluirá 47 instrucciones y 4.2 incluirá 7 instrucciones. Por lo tanto, la cantidad de instrucciones en la imagen a continuación no es en realidad 47. SSE4.2 en el futuro también puede sufrir cambios.

Para SSE4.2 de Nehalem, Gelsinger de Intel dijo que estos siete conjuntos de instrucciones tienen diferentes usos, como aquellos para aplicaciones específicas como CRC-32 y POP Counts, y algunos específicamente para XML, etc. . Gelsinger dijo que el nuevo conjunto de instrucciones puede combinar 256 instrucciones para su ejecución, triplicando así el rendimiento del trabajo de tipo XML.

SSE4: el conjunto de instrucciones SSE4.1 que lleva Penryn se divide principalmente en tres partes, a saber, la parte de aceleración de codificación de video SSE4, la parte de aceleración de gráficos SSE4 y la parte de carga de transmisión SSE4. La parte incluye Se incluyen 14 instrucciones para acelerar el rendimiento de la suma de diferencias absolutas 4x4 y la búsqueda de datos de una sola vez con filtrado de subpíxeles.

Al realizar la codificación de video, se requiere una gran cantidad de estimación de movimiento (predicción dinámica). La predicción dinámica es un vínculo extremadamente importante en el proceso de codificación de video. La eficiencia de su algoritmo tiene un gran impacto en toda la eficiencia de la codificación. , Y esta predicción dinámica requiere una gran cantidad de operaciones SAD (Sumas de diferencia absoluta, suma de diferencias absolutas), que es un método comúnmente utilizado para la estimación de movimiento en la mayoría de los algoritmos de codificación de video. El algoritmo SAD encontrará una gran porción de movimiento en dos cuadros de video consecutivos adyacentes y registrará sus datos de movimiento en lugar de grabar datos de píxeles para ahorrar capacidad de almacenamiento y comprimir el video. Para hacer esto, SAD necesita calcular la suma acumulada de las diferencias absolutas entre los conjuntos correspondientes de valores de píxeles en cada uno de los dos fragmentos. Esta en sí misma es una operación muy compleja con una gran cantidad de datos. Incluso si se basa en la ventaja de las instrucciones SIMD para procesar una gran cantidad de datos con una sola instrucción, se necesita una gran cantidad de instrucciones para combinarlos en un código de operación SAD. .

La instrucción de operación de aceleración SAD se agrega especialmente al conjunto de instrucciones SSE4 y solo se necesita una instrucción para completar estas tareas de manera rápida y eficiente. Por ejemplo, antes de SSE4, el código de trabajo de SAD era el siguiente:

Era muy largo y engorroso, pero después de SSE4, estas instrucciones se pueden simplificar en una sola instrucción:

MPSADBW xmm0 , xmm1,0

La cantidad de simplificación es enorme. En programas complejos de predicción dinámica, es necesario ejecutar códigos SAD complejos. En este momento, SSE4 también puede proporcionar comodidad adicional:

SSSE3 puede considerarse como uno de los primeros subsistemas "filtrados" de SSE4. En el mismo trabajo, el código SSE4 de la derecha es sin duda más simple que SSSE3.

SSE4 también agrega instrucciones de búsqueda rápida. Aunque no solo es efectivo para la codificación de video, tiene efectos particularmente buenos en la estimación del movimiento de píxeles completos y subpíxeles.

Por ejemplo, en la demostración SSE4 de Intel, se utilizó el sistema Wolfdale Core 2 de 2,66 G equipado con el conjunto de instrucciones SSE4 para realizar la codificación HDTV Pegasys TMPGEnc 4.0 XPress frente al Core 2 Duo E6550 de 2,33 G y finalmente se logró. una mejora de rendimiento del 55%, donde la mejora del rendimiento del procesamiento SAD acelerado y la búsqueda rápida ha alcanzado de 2 a 3 veces en sus respectivos campos. Se puede ver el papel del conjunto de instrucciones SSE4: entre ellos, el aumento de la frecuencia de la CPU es solo. 14, pero la mejora total de la aplicación llega a 55. Esta es la función del comando de aceleración de codificación de video SSE4. La parte de aceleración de gráficos SSE4 incluye 32 instrucciones, incluidas una gran cantidad de instrucciones de operación básicas en la construcción de gráficos: producto escalar, producto de doble byte, acceso por pasos no unitarios, etc., y el soporte cruzado para las instrucciones existentes mejora la vectorización del compilador. Esta parte de las instrucciones equivale a volver a proporcionar una base para las operaciones de gráficos vectorizados, lo que puede mejorar en gran medida las capacidades de procesamiento de gráficos del procesador.

Las 32 instrucciones se dividen en 6 partes:

12 operaciones de vectores enteros de 32 bits, utilizadas para proporcionar operaciones rápidas de vectores enteros

7 operaciones no unitarias La operación de acceso por tamaño de paso proporciona carga/guardado rápido de vectores

Las dos operaciones de producto escalar proporcionan capacidades de operación de producto escalar muy rápidas en la operación Matriz de estructuras

p>

Se utilizan 6 variables y mezcla inmediata para mejorar el rendimiento de los códigos SIMD tradicionales

1 salida de parámetro temprana, que puede probar rápidamente datos de ancho de 128 bits

4 El redondeo de punto flotante se utiliza para códigos de lenguaje de alto nivel de uso frecuente, como Floor(), Ceil(), NINT() y nearint() para mejorar su rendimiento

Como ejemplo, entero vectorial de 32 bits Las instrucciones de operación son vectoriales versiones de las primitivas del lenguaje de programación actual, incluidas instrucciones como multiplicación de doble byte, llenado de valores mínimos/máximos de doble byte, conversión de grupo de DWORD a Word, comparación de QWORD, etc. La esquina inferior derecha muestra el uso de conversión de grupo de DWORD a Word, comparación de QWORD, etc. Las instrucciones SSE2 y SSE4 se escriben por separado: SSE4 solo requiere 1, mientras que SSE2 requiere 11.

Aunque solo hay una instrucción en la parte de carga del flujo SSE4, juega un papel muy importante. En las plataformas existentes, la CPU utiliza la tecnología de combinación de escritura para lograr operaciones de escritura de gran ancho de banda. Los datos gráficos se pueden escribir rápidamente en la caché de combinación de escritura y en la memoria a través de MMIO. Sin embargo, la lectura es muy lenta porque las lecturas desde la escritura. La combinación de caché es lenta (sin combinación de lectura)... el ancho de banda de lectura está limitado a 800 MB/s.

La tecnología Streaming Load está diseñada para resolver este problema. Proporciona una instrucción de carga alineada de 16 bits que puede operar rápidamente en memoria combinada de escritura y cargar datos en la CPU a una velocidad de hasta 8 GB/s (. La arquitectura SSE4 ha agregado un nuevo caché temporal interno para almacenar estos datos, lo que aumenta considerablemente el ancho de banda de datos entre la GPU y la CPU. Con el desarrollo, las GPU se vuelven más potentes y el tráfico de datos aumenta. Esto es muy necesario.

Aunque esta Streaming Load utiliza la aceleración de vídeo como ejemplo, su método de trabajo también es útil para otros periféricos. Esta es una tecnología general para mejorar la velocidad de lectura de la memoria WC. La actualización de la estructura interna de la tecnología de 45 nm sin duda traerá un rendimiento más rápido, pero la introducción de instrucciones SSE4 traerá mejoras aún mayores. La nueva versión de prueba interna de DivX Alaph es totalmente compatible con el conjunto de instrucciones SSE4. El rendimiento informático de un Yorkfield de 3,33 GHz es aproximadamente un 105 % más rápido que el Intel Core 2 Duo QX6800 de la generación anterior. Aproximadamente el 70 % de la ganancia proviene del conjunto de instrucciones SSE4. Se puede ver que la eficiencia del nuevo conjunto de instrucciones es realmente extraordinaria. Otras pruebas de codificación diferentes arrojaron resultados similares.

Y, como parte de la infraestructura del procesador de 45 nm, todos los procesadores centrales Penryn tendrán este conjunto de instrucciones, lo que significa que incluso la versión más económica y de gama más baja de "Celeron" podrá disfrutar de los beneficios que aporta la nueva instrucción. establecer sin pagar un precio especial son también los beneficios reales que las nuevas tecnologías aportan a los usuarios.

La gente puede ver que incluso en la CPU de muestra de ingeniería no completamente optimizada y la versión de prueba correspondiente del software, el rendimiento del nuevo conjunto de instrucciones es satisfactorio. Después de todo, el conjunto de instrucciones SSE4 está diseñado para mejorar el procesamiento de video. , rendimiento informático de imágenes, la pregunta restante es cómo liberar el poder de SSE4.

Como de costumbre, Intel brindará soporte para sus propios compiladores Intel C/C y Fortran cuando se lance la CPU, y también proporcionará documentación relevante y herramientas SDK. Con el atractivo de Intel y las mejoras de rendimiento del propio SSE4, traerá más. Debido a la popularidad del video de alta definición, estas demandas de mejora continua en el rendimiento constituirán un atractivo, y SSE4 tiene buenas perspectivas.

Intel ha agregado el conjunto de instrucciones Intel SSE4 al procesador Penryn de 45 nm por primera vez. Este es el conjunto de instrucciones más grande agregado desde el lanzamiento de la arquitectura ISA del conjunto de instrucciones SSE original. Contiene 47 instrucciones de procesamiento multimedia. , ampliando aún más la arquitectura del conjunto de instrucciones Intel 64. La versión anterior del conjunto de instrucciones del procesador Penryn de 45 nm era SSE4.1. Esta vez, el procesador Nehalem agregó varias instrucciones nuevas basadas en el conjunto de instrucciones SSE4.1, llamado SSE4.2.

Las nuevas partes del conjunto de instrucciones SSE4.2 incluyen principalmente STTNI (STRing & Text New Directions) y ATA (Application Targeted Accelerators). En el pasado, cada actualización del conjunto de instrucciones SSE se reflejaba principalmente en el conjunto de instrucciones multimedia, pero esta vez el conjunto de instrucciones SSE4.2 acelera las operaciones de cadenas, la verificación del almacenamiento, etc. de texto XML.

Más concretamente, SSE4.2 añade siete nuevas instrucciones: CRC32, PCMPESTRI, PCMPESTRM, PCMPISTRI, PCMPISTRM, PCMPGTQ y POPCNT.

Intel dijo que después de adoptar el conjunto de instrucciones SSE 4.2, la velocidad de análisis XML será hasta 3,8 veces más rápida que la original y el ahorro del ciclo de instrucciones alcanzará 2,7 veces. Además, en el campo ATA, el conjunto de instrucciones SSE 4.2 desempeñará el papel que le corresponde en el procesamiento centralizado de datos a gran escala y la mejora de la eficiencia de las comunicaciones, lo que obviamente es útil para las aplicaciones de TI empresariales. Por supuesto, el conjunto de instrucciones SSE 4.2 solo será efectivo si el software lo admite, pero todavía faltan 3 meses para que se lance Nehalem-EP, y creo que para entonces aparecerán optimizaciones y actualizaciones relevantes.