Cómo operar documentos en formato Office Open XML
En versiones anteriores de Microsoft Office, los archivos creados por Microsoft Office Excel, Microsoft Office PowerPoint y Microsoft Office Word se guardaban en un formato de archivo único y único, al que llamaban archivos binarios. El lanzamiento de Microsoft Office System 2007 introdujo un nuevo formato de archivo para Microsoft Office Excel 2007, Microsoft Office PowerPoint 2007 y Microsoft Office Word 2007: el formato Office Open XML.
El formato Office Open XML se crea basándose en la tecnología de archivo XML y ZIP. Al igual que en versiones anteriores de Microsoft Office, los documentos de 2007 se almacenan en un único archivo o contenedor, por lo que el proceso de administración de estos documentos sigue siendo sencillo. Sin embargo, a diferencia de los archivos anteriores, los archivos en formato Office Open XML se pueden abrir en un componente de visualización, lo que le permite acceder a la estructura del archivo.
En este artículo, puede ver archivos en formato Office Open XML abriendo manualmente el archivo y explorando cada componente que compone el documento. Alternativamente puede programar este documento. El archivo que se aplica a este artículo está disponible para descargar, 2007OfficeManipulatedOpenXMLFilesSample.exe. Si no puede descargarlo, puede utilizar sus propios archivos de programa y archivos de imagen.
1.
Abra el Explorador de Windows.
2.
Busque el archivo SampleWordDocument.docx, haga clic derecho en el archivo y seleccione Cambiar nombre.
Importante:
Siga los siguientes tres pasos para extraer archivos en formato Office Open XML. El paso 5 es diferente según el sistema operativo que esté utilizando (Windows XP o Windows Vista).
3.
Agregue una extensión .zip al final del nombre del archivo y el nombre del archivo ahora se convertirá en SampleWordDocument.docx.zip.
4.
Cuando aparezca el mensaje de advertencia, haga clic en Aceptar.
5.
Extraiga el archivo contenedor:
1.
(Si está utilizando Windows XP:) Haga clic derecho en SampleWordDocument.docx, seleccione Abrir con y luego haga clic en Carpetas comprimidas (en zip). Las carpetas y partes que componen el documento ahora aparecerán en el Explorador.
2.
(Si está utilizando Windows Vista:) Haga clic derecho en el archivo SampleWordDocument.docx.zip y haga clic en Extraer todo. En el cuadro de diálogo Extraer carpetas comprimidas (comprimidas), acepte la ubicación predeterminada o seleccione una nueva ubicación y haga clic en Extraer. Las carpetas y partes que componen el documento ahora aparecerán en el Explorador.
En los siguientes pasos detectarás los componentes clave que contiene el documento.
6.
Detecta la parte [Content_Types].xml:
1.
Utiliza el Explorador de Windows y busca el archivo llamado [ Archivo Content_Types].xml.
2.
Haga clic derecho en el archivo, seleccione Abrir con y luego haga clic en Internet Explorer.
Hay un componente [Content_Types].xml en la raíz de cada documento en formato Office Open XML. La función del componente [Content_Types].xml es identificar cada componente de tipo único en el documento. Cada componente debe tener su propio tipo listado en este componente. El componente debe tener un tipo reconocible para que la aplicación sepa cómo utilizarlo al representar el documento. Los tipos también le dan una idea de qué hace un componente y cómo se utiliza.
3.
Cierra el archivo.
7.
Detectar la carpeta .rels:
La asociación representa la conexión entre dos componentes. Las relaciones son componentes almacenados en la subcarpeta _rels. Cualquier componente tiene componentes relacionados, contenidos en la carpeta _rels de la misma estructura, que contiene un componente .rels que define su relación. Las subcarpetas se crean en la misma carpeta que el componente. El nombre de una asociación se obtiene añadiendo la extensión .rels al nombre del archivo del componente original (una excepción es el componente asociado utilizado para archivos de documentos; su nombre es ".rels").
1.
En el Explorador de Windows, haga doble clic en la carpeta _rels y luego haga clic derecho en el archivo .rels.
2.
Seleccione Abrir con, haga clic en Seleccionar programa, haga clic en Internet Explorer y luego haga clic en Aceptar.
3.
Después de completar la detección, cierre IE.
8.
Detectar carpeta docProps:
Las propiedades del documento en la versión 2007 siempre están estructuradas en los tres programas de Microsoft Office System. Divididos en tres componentes XML lógicos, se almacenan en la subcarpeta docProps. Esto facilita que los usuarios accedan a ellos porque están en la misma ubicación y no se confunden con el contenido de otro documento.
En Windows Explorer, haga doble clic en la carpeta docProps, haga clic con el botón derecho en el archivo core.xml, seleccione Abrir con y luego haga clic en Internet Explorer.
9.
Detectar el componente core.xml:
Abra el componente core.xml y observe que se muestran las propiedades que ingresó anteriormente. El componente core.xml contiene atributos ingresados por el usuario que identifican el documento, como título, tema y autor.
10.
Detectar el componente custom.xml:
Desde Windows Explorer, abra custom.xml en Internet Explorer.
El componente custom.xml contiene cualquier propiedad de documento personalizada que el usuario, el desarrollador o mediante lógica personalizada agrega al documento.
11.
Detectar el componente app.xml:
Desde Windows Explorer, abra app.xml en Internet Explorer.
El componente app.xml incluye propiedades únicas que se asignan al documento en el nivel de la aplicación, como el número de páginas del artículo, el número de líneas de texto, la versión de la aplicación y pronto.
12.
Detectar carpeta de palabras:
La mayoría de los componentes de contenido residen en la subcarpeta de palabras. Además, también hay una subcarpeta asociada a _rels en su interior.
Haz doble clic en la carpeta _rels.
En la subcarpeta _rels, el nombre de asociación utilizado para conectar todos los componentes del documento es document.xml.rels.
13.
Detectar el componente document.xml.rels:
Abrir document.xml.rels en Internet Explorer.
Las asociaciones utilizan ID e identificadores uniformes de recursos (URI) para localizar componentes.
Permite invalidar todos los componentes no asociados sin ninguna referencia codificada. Esto se discutirá en detalle en capítulos posteriores.
En la carpeta Word, preste atención al componente estilos.xml.
14.
Detectar el componente estilos.xml:
styles.xml en Internet Explorer.
Contiene algunos acentos y sombreados disponibles que puedes usar en tu documento.
15.
Componentes necesarios y opcionales
16.
El uso de estos componentes en archivos de formato Office Open XML permite que los documentos almacenarse de forma altamente modular. Algunos componentes deben ser válidos para el documento, como el componente document.xml y el componente fontTable.xml.
17.
Detectar el componente document.xml:
1.
Abrir document.xml en Internet Eexplorer. El componente document.xml contiene el texto del cuerpo del documento.
2.
Después de ver este archivo, cierre Internet Explorer.
18.
Detectar el componente fontTable.xml:
1.
Abra el componente fontTable.xml en Internet Explorer.
El componente fontTable.xml contiene la configuración de fuente del documento.
2.
Después de ver este archivo, cierre Internet Explorer.
Si la funcionalidad descrita por el componente no se utiliza en el documento, estos componentes no son necesarios. El ejemplo incluye notas, componentes de encabezado y componentes de pie de página, que son opcionales para documentos de Word. Esto permite a los usuarios navegar fácilmente a través de la estructura del documento sin tener que profundizar en el contenido no utilizado.
XML está diseñado para contenido estructurado y no admite de forma nativa contenido binario, como imágenes u objetos OLE. Los datos binarios se pueden codificar en caracteres y almacenar en formato XML, pero requieren un proceso de codificación y decodificación, lo que los hace ineficientes para las aplicaciones o los desarrolladores. Después de la versión de 2007, no es necesario codificar objetos binarios ya que pueden almacenarse como componentes binarios en su propio formato. Por lo tanto, acceder a objetos binarios en documentos de Office resulta muy sencillo. Los archivos multimedia se almacenan en la carpeta multimedia.
19.
Detecta las carpetas de incrustaciones de palabras "media y word":
En el Explorador de Windows, haz doble clic en la subcarpeta multimedia.
Tenga en cuenta que los archivos multimedia .gif representan imágenes que insertó anteriormente.
Nota:
Es posible que observe que el nombre del archivo de la imagen se ha cambiado de Eagle1.gif a image1.gif. El cambio se realizó para abordar preocupaciones de privacidad, ya que un usuario malintencionado podría aprender algo sobre un componente a partir de su nombre en un documento, como un archivo de imagen. Por ejemplo, un autor podría proteger el contenido de un documento cifrando los componentes de texto dentro del documento. Pero si se insertan dos imágenes old_widget.gif y new_reenforced_widget.gif. Incluso si el texto está protegido, un usuario malintencionado puede saber que el widget se ha actualizado. El uso de archivos de imagen comunes como image1 e image2 puede agregar protección adicional en archivos de formato Office Open XML.
20.
Cierre SampleWordDocument.docx.zip sin guardar.