Linguaxe de marcas

Na Galipedia, a Wikipedia en galego.

Chámase linguaxe de marcas ou linguaxe de marcado ao xeito de codificar texto incorporando etiquetas ou marcas que conteñen información adicional acerca da estrutura do texto ou a súa presentación. A linguaxe de marcas máis estendida é a HTML, fundamento do World Wide Web.

Historia e características[editar | editar a fonte]

As linguaxes de marcado acostuman a confundirse con linguaxes de programación. Porén, non son o mesmo, xa que a linguaxe de marcado non ten funcións aritméticas ou variables, como si posúen as linguaxes de programación. Historicamente, o marcado usábase e úsase na industria editorial e da comunicación, así como entre autores, editores e impresores.

Un exemplo de como funciona a linguaxe de marcado pode observarse no ditado de viva voz dun documento a unha persoa que o transcribe a máquina:

"Poña estilo de carta, poña comiñas, poña maiúsculas, Prezado Xoán, poña dous puntos, á parte, sangría, poña primeira letra maiúscula, escríboche esta carta, poña negrillas, de xeito moi urxente, peche negrilla, xa que non me enviaches... etc".

As linguaxes de marcas chámanse así pola práctica tradicional de marcar os manuscritos con instrucións de impresión nas marxes. Na época da imprenta, esta tarefa correspondeulle aos marcadores, que indicaban o tipo de letra, o estilo e o tamaño, así como a corrección de erros, para que outras persoas compuxesen a tipografía. Isto conduciu á creación dun grupo de marcas estandarizadas. Coa introdución das computadoras, trasladouse un concepto similar ao mundo da informática.

A xeneralización das linguaxes de marcas[editar | editar a fonte]

A iniciativa que sentaría as bases das actuais linguaxes, partiría da empresa IBM, que buscaba novas solucións para manter grandes cantidades de documentos. A idea básica era que a presentación debe separarse do contido. O marcado, polo tanto, céntrase en definir a estrutura do texto e non a súa presentación visual. Tras un longo proceso, en 1986 a Organización Internacional para a Estandarización publicaría o Standard Generalized Markup Languaje con rango de Estándar Internacional co código ISO 8879.

O SGML especifica a sintaxe para a inclusión de marcas nos textos, así como a sintaxe do documento que especifica que etiquetas están permitidas e onde. Isto permitía que un autor empregase calquera marca que quixese, escollendo nomes para as etiquetas que tivesen sentido tanto polo tema do documento como polo idioma. Así, o SGML é, estritamente falando, unha metalinguaxe, da que se derivan varias linguaxes especializadas. Desde finais dos 80 apareceron novas linguaxes baseadas en SGML.

O SGML tivo unha grande aceptación e hoxe en día emprégase en campos nos que se require documentación a grande escala. A pesar diso, resultou farragoso e difícil de aprender, como consecuencia da ambición dos obxectivos previstos. A súa gran potencia era á vez unha vantaxe e unha desvantaxe. Porén, foi un punto clave no desenvolvemento das linguaxes de marcas actuais, xa que a gran maioría derivan desta.

A popularización: o HTML[editar | editar a fonte]

En 1991, parecía que os editores WYSIWYG, que almacenan os documentos en formatos binarios, abranguerían case a totalidade do procesamento de textos, relegando o SGML a usos profesionais ou industriais moi específicos. Así e todo, a situación cambiou drasticamente cando Sir Tim Berners-Lee, que aprendera SGML no CERN, utilizou a sintaxe SGML para crear o HTML.

Esta linguaxe era similar a calquera otra creada a partir do SGML, con todo resultou extraordinariamente sinxela. A flexibilidade e escalabilidade do marcado HTML foi un dos principais factores, xunto co emprego de URLs e a distribución libre de navegadores, do éxito da World Wide Web.

O HTML é hoxe en día o tipo de documento máis empregado no mundo. A súa simplicidade era tal que calquera persoa podía escribir documentos neste formato, sen apenas necesidade de coñecementos de informática. Esta foi unha das razóns do seu éxito, pero tamén conduciu a un certo caos. O crecemento exponencial da web nos anos 90 produciu documentos en cantidades inxentes pero mal estruturados, problema agravado aínda máis pola falta de respecto polos estándares, por parte de deseñadores web e fabricantes de software.

A madurez: o XML[editar | editar a fonte]

A resposta aos problemas xurdidos en torno ao HTML veu da man do XML (eXtensible Markup Language). O XML é unha metalinguaxe que permite crear etiquetas adaptadas ás necesidades (de aí o de "extensible"). O estándar define como poden ser esas etiquetas e que se pode facer con elas. É, amais, especialmente estrito en canto ao que está permitido e ao que non, todo documento debe cumprir dúas condicións: ser válido e estar ben formado. O XML foi desenvolvido polo World Wide Web Consortium, o seu obxectivo principal era simplificar o SGML para adaptalo a un campo moi preciso: documentos na Internet.

A nova linguaxe estendeuse con rapidez, xa que todo documento XML é á súa vez SGML. Os programas e documentos creados para e con SGML podían converterse case automaticamente á nova linguaxe. O XML simplificou radicalmente a complexidade do SGML, facilitando a aprendizaxe e a implementación do novo estándar. O acerto fundamental desta linguaxe é que logra un equilibrio entre simplicidade e flexibilidade.

O XML foi ideado en principio para contornos semi-estruturados, como textos e publicacións. Un dos exemplos máis claros é o XHTML, a redefinición do HTML en clave XML, coas vantaxes que iso supón. Malia todo, axiña se observou que as súas virtudes podían ser útiles en campos ben distintos. As linguaxes baseadas en XML teñen aplicacións incontables, como na transacción de datos entre servidores, intercambio de información financeira, fórmulas e reaccións químicas, e un longo etcétera.

A web semántica[editar | editar a fonte]

As linguaxes de marcado son a ferramenta fundamental no deseño da web semántica, aquela que non só permite acceder á información, senón que ademais define o seu significado, de xeito que sexa máis doado o seu procesamento automático e se poida reutilizar para distintas aplicacións. Isto conséguese engadindo datos adicionais aos documentos, utilizando dúas linguaxes expresamente creadas: o RDF (Resource descriptión framework ou Plataforma de descrición de recursos) e OWL (Web Ontology Language ou Linguaxe de ontoloxías para a web), ambas as dúas baseadas en XML.

Texto plano[editar | editar a fonte]

Unha das principais vantaxes deste tipo de codificación é que pode ser interpretada directamente, dado que son arquivos de texto plano. Isto é unha vantaxe evidente respecto aos sistemas de arquivos binarios, que requiren sempre dun programa intermediario para traballar con eles. Un documento escrito con linguaxes de marcado pode ser editado por un usuario cun sinxelo editor de textos, sen prexuízo de que se poidan empregar programas máis sofisticados que faciliten o traballo.

Ao tratarse soamente de texto, os documentos son independientes da plataforma, sistema operativo ou Programa informático co que foron creados.

Compactidade[editar | editar a fonte]

As instrucións de marcado, tamén chamadas etiquetas, mestúranse co propio contido nun único arquivo ou fluxo de datos.

Flexibilidade[editar | editar a fonte]

Aínda que orixinalmente as linguaxes de marcas se idearan para documentos de texto, comezáronse a utilizar en áreas como gráficos vectoriais, servizos web, sindicación web ou interfaces de usuario. Estas novas aplicacións aproveitan a simplicidade e potencia da linguaxe XML. Isto permitiu que se poidan combinar varias linguaxes de marcas diferentes nun único arquivo.