Carácter (tipo de dato)

En terminología informática y de telecomunicaciones, un carácter es una unidad de información que corresponde aproximadamente con un grafema o con una unidad o símbolo parecido, como los de un alfabeto o silabario de la forma escrita de un lenguaje natural.

Un ejemplo de carácter es una letra, un número o un signo de puntuación. El concepto también abarca a los caracteres de control, que no se corresponden con símbolos del lenguaje natural sino con otros fragmentos de información usados para procesar textos, tales como el retorno de carro y el tabulador, así como instrucciones para impresoras y otros dispositivos que muestran dichos textos (como el avance de página).

Codificación de caracteres

Artículo principal: Codificación de caracteres

Los ordenadores y los equipos de comunicaciones representan caracteres mediante el uso de una codificación que asigna un valor a cada carácter (típicamente, un valor entero representado por una secuencia de bits) que puede ser almacenado o transmitido por una red. La codificación más común ha sido hasta hace poco ASCII, si bien actualmente se está haciendo más popular el Unicode. Un ejemplo de codificación no digital sería el código Morse, que en lugar de usar bits representa los caracteres mediante una serie de impulsos eléctricos de longitud variable (puntos y rayas).

Terminología

Históricamente, el término «carácter» ha sido usado ampliamente por los profesionales de la industria para referirse a un «carácter codificado» (expuesto a menudo sólo mediante la API de un lenguaje de programación). De igual forma, el término conjunto de caracteres (character set) ha sido usado generalmente para aludir a un repertorio específico de «caracteres abstractos» que habían sido codificados mediante secuencias de bits específicas. Con la llegada de Unicode y los esquemas de codificación independientes de los bits, una terminología más precisa está viéndose cada vez más favorecida.

En algunos contextos es importante hacer la distinción de que un carácter es una unidad de información y por tanto no implica ninguna manifestación visual particular. Por ejemplo, la letra hebrea álef (א) es usada a menudo por los matemáticos para denotar ciertos tipos de infinito, pero también se usa en textos hebreos corrientes. En Unicode, ambos usos tienen caracteres diferentes a los que corresponden dos códigos diferentes, aunque puedan ser representados exactamente igual. En cambio, el logograma chino para agua (水) puede tener una apariencia ligeramente diferente en textos chinos y japoneses, lo que puede verse reflejado en los tipos de letra locales, pero representan a pesar de ello la misma información, por lo que se consideran un único carácter y como tal aparecen en Unicode.

El término «glifo» se usa para describir una apariencia física particular de un carácter. Muchas fuentes de ordenador consisten en glifos indexados según el código Unicode del carácter al que cada uno de ellos representa.

La definición de «carácter» o «carácter abstracto» es, según el estándar Unicode y el ISO/IEC 10646, «un miembro de un conjunto de elementos usado para la organización, control o representación de datos». La definición de Unicode añade una serie de notas explicativas animando al lector a distinguir entre caracteres, grafemas y glifos, entre otras cosas. El estándar también distingue entre estos caracteres abstractos y los «caracteres codificados» que ya han sido emparejados con códigos numéricos para facilitar su representación en sistemas informáticos.

Véase también

Enlaces externos

ISO/IEC TR 15285:1998, resumen del modelo de caracteres ISO/IEC, centrado en las definiciones terminológicas y la diferencia entre caracteres y glifos (inglés)