ibarguensistemas - 3.6.3 Conversiones de datos

Para que cualquier conversión puede ser realizada sin pérdida de información, el formato destino debe soportar las mismas características y atributos presentes en el fichero origen. La conversión de un documento de procesador de texto a texto plano implica necesariamente la pérdida de información, debido a que este último no soporta atributos tales como marcar una palabra en negrita. Por esta razón, la conversión de un formato a otro con menos posibilidades rara vez se lleva a cabo, aunque puede resultar necesaria para la interoperatibilidad, por ejemplo, convertir un fichero de una versión de Microsoft Word a una versión anterior para conseguir que aquellos que no tienen la última versión de Word instalada puedan acceder a los datos.

La pérdida de información puede ser mitigada mediante aproximación en el formato destino. No hay forma de convertir un carácter como «ä» a ASCII, ya que éste estándar carece de él, pero la información puede retenerse aproximando el carácter como «ae». Por supuesto, ésta no es una solución óptima, y puede tener impacto en operaciones como la búsqueda y la copia, y si un lenguaje hace una distinción entre «ä» y «ae» entonces esta aproximación sigue suponiendo pérdida de información.

La conversión de datos también sufre de inexactitud cuando se convierte entre formatos que son conceptualmente diferentes. El paradigma WYSIWYG, presente en procesadores de texto y aplicaciones de autoedición, frente al paradigma estructura-descriptivo, hallado en SGML, XML y muchas aplicaciones basadas en ellos, como HTML y MathML, es un ejemplo. Usar un editor HTML WYSIWYG mezcla los dos paradigmas y el resultado es ficheros HMTL con código subóptimo, e incluso no estándar. En el paradigma WYSIWYG un doble salto de línea significa un párrafo nuevo, pues ésa es la pista visual para dicho constructor, pero en un editor HTML WYSIWYG convertirá esta secuencia a <BR><BR>, que estructuralmente no es un párrafo nuevo. Otro ejemplo la conversión de PDF a un formato de procesado de texto editable, lo que supone una tarea difícil, ya que PDF guarda la información textual como grabada en piedra, con cada carácter en una posición fija y los saltos de línea como cambios en dichas posiciones, mientras un procesador de texto acomoda el texto a medida se necesita. PDF no sabe lo que es un carácter espacio, siendo éste representado como el desplazamiento horizontal mayor de lo habitual entre dos letras. Esto provoca serios problemas a la hora de convertir de uno a otro formato.