Diferencia entre revisiones de «ISO/IEC 10646»

← Ir a diferencia anterior Ir a siguiente diferencia →

Contenido eliminado Contenido añadido

En renglón

Revisión del 09:08 5 jun 2007

El estándar internacional ISO/IEC 10646 define el Conjunto de Caracteres Universal (Universal Character Set - UCS) como un sistema codificación de caracteres en varios octetos. Contiene cerca de cien mil caracteres abstractos, cada uno de ellos identificado de forma precisa por un número entero denominado punto de código (code point). Se creo en el año 1993 por ello a veces también aparece como: ISO/IEC 10646-1:1993

En este conjunto se encuentran los diversos caracteres (letras, números, símbolos, ideogramas, logogramas, etc.) procedentes de muchos lenguajes, scripts, y las diversas tradiciones de puntuación de todo los idiomas del mundo, representadas en los códigos únicos UCS. Es de pensar que la inclusión de nuevos caracteres es constante, haciendo que el conjunto esté permanentemente en estado de actualización.

Desde el año 1991, el Unicode Consortium ha venido trabajando con el organismo ISO con el objeto de desarrollar el The Unicode Standard ("Unicode") y el ISO/IEC 10646 conjuntamente. El repertorio, el nombre de los caracteres, los puntos de código de la versión 2.0 de Unicode hacen un ajuste perfecto con las siete primeras publicaciones de la ISO/IEC 10646-1:1993. Tras la publicación de Unicode 3.0 en febrero de 2000, se fueron introduciendo nuevos caracteres en el UCS vía el ISO/IEC 10646-1:2000.

El conjunto UCS tiene cerca de 1.1 millones de código punto, pero sólo los primeros 65,536 (la Asociación de caracteres unicode, o BMP) han entrado en uso antes del año 2000. Esta situación comenzó a cambiar cuando República Popular China (RPC) solicitó en el año 2000 que los sitemas computerizados vendidos en su territorio tuvieran que soportar el GB18030, esta situación hizo que los sistemas que se tenían que vender en el RPC tuvieran que ir más allá del BMP. El conjunto tal y como está deinido hoy en día ha dejado de forma deliberada algunos huecos con el objeto de poder incorporar en un futuro otros caracteres que no entren en conflicto con los actuales.

Formas de codificar el "Conjunto Universal de Caracteres"

El ISO 10646 define diversos formas de codificación" de caracteres para el conjunto universal de caracteres (Universal Character Set). La más simple es la denominada, UCS-2 que emplea un valor de código simple (definido como uno o más números representando un código punto) entre 0 y 65,535 para cada caracter, y permite exáctamente dos bytes (una palabra de 16-bit) para representar el valor. El UCS-2 permite por lo tanto una representación binaria de cada punto de código en el sistema BMP, haciendo que haya una correspondencia biunívoca entre el valor y el código punto que representa al caracter. El UCS-2 no puede representar puntos código fuera del conjunto BMP.

La primera enmienda a la edición original del UCS se definió como UTF-16, y era una extensión del UCS-2, para representar códigos punto fuera del BMP. En la actualidad existen una zona especial de códigos punto denominada S (Special) en el BMP que permanece sin asignar a caracteres. El UCS-2 no permite emplear valores de código para estos puntos de código, pero UTF-16 permite el empleo de los mismos en pares. Cada par consiste en un "elemento-RC" (una tupla de dos octetos que forman un R-octeto y un C-octeto de una secuencia total de cuatro octetos que se asocia a una celda en el espacio de códigos asignados a caracteres). El estándar Unicode ha adoptado también el UTF-16, pero en la terminología de Unicode, la mitad-alta de la zona de elementos se denomina "sustituciones altas" y la mitad inferior de la tabl se denomina "sustituciones bajas".

Otra codificación es la UCS-4 que emplea un caracter único entre 0 y (teoricamente) en hexadecimal hasta 7FFFFFFF para ser asignado a cada caracter (sin embargo el UCS para a 10FFFF y la ISO/IEC 10646 tiene comprometida asignaciones futuras de caracteres en este rango). El UCS-4 permite representaciones de cada valor mediante el empleo exacto de cuatro bytes (una palabra de 32-bits). El UCS-4 permite una representación binaria de cada código punto en el sistema UCS, incluyendo aquellos que están fuera del BMP. Como en el sistema de codifiación de UCS-2, cada caracter codificado posee una longitud fija en bytes.

El fin de hacer este código es

El intercambio de información, caracteres y símbolos (codificados para la transmisión de datos en entre ordenadores) y para aumentar el número de letras no incluidas en el código ASCII.

Proviene del código ISO/IEC JTC1/SC2

En la actualidad se considera como un estándar internacional.

Campo de aplicación y alcance

El Juego Universal de Caracteres en código de múltiples octetos (UCS) es aplicable a la representación, transmisión, intercambio, tratamiento, almacenamiento, introducción y presentación de prácticamente todos los lenguajes del mundo en forma escrita. La parte básica de la norma, de 1993, especifica la arquitectura general de esta codificación de cuatro octetos (32 bits) compendio de numerosos juegos de caracteres de ámbito nacional e internacional. Define los términos utilizados en su redacción, así como la estructura general de UCS. Especifica asimismo en qué consiste el Plano Multilenguaje Básico (BMP), una reducción del código a 2 octetos (16 bits) y especifica el conjunto de símbolos gráficos de que se compone y sus representaciones codificadas. Explica cuáles son las representaciones codificadas de las funciones de control, y la gestión de futuras adiciones a este juego de caracteres.

Estructura/Partes de la norma

--ISO/IEC 10646-1:1993 AMD 1 Amendment 1 a la ISO/IEC 10646-1:1993-- Formato de transformación para 16 Planos del Grupo 00 (UTF-16)

UTF-16 es una representación codificada que permite representar los más de un millón de caracteres gráficos de UCS en un modo compatible con el forma de dos octetos de BMP.

DAM 5, 6, 7 y 8 a la ISO/IEC 10646-1:1993 -- Adiciones de menor importancia

AMD 2 Amendment 2 a la ISO/IEC 10646-1:1993 -- Formato de transformación 8 de UCS (UTF-8)

Describe un formato adicional de transformación, UTF-8. En UTF-8 todos los caracteres de UCS poseen un código adecuado para sus uso en comunicaciones y otros entornos en los que determinados valores del código tiene una definición fija, de acuerdo con ISO 4873.

Technical Corrigendum 1 a la ISO/IEC 10646-1:1993

Contiene información adicional sobre algunos de los caracteres especificados en las cláusulas 25 y 26 de esta parte de la ISO/IEC 10646. Esta información pretende aclarar alguno de los aspectos del carácter como su denominación, utilización o símbolo gráfico asociado.

Conexión con otras normas

Los primeros 127 caracteres del Plano Multilenguaje Básico (BMP) utilizado para el código de intercambio de 16-bit se corresponden con ISO 646, la versión internacional de ASCII. Los caracteres que constituyen la segunda mitad de la primera fila son los utilizados por ISO 8859-1, el juego Latin-1.

Otras normas relacionadas

ISO/IEC DIS 14755 -- Métodos de introducción de caracteres del repertorio ISO/IEC 10646 con un teclado u otros dispositivos de entrada.

Utilización y acceso

Se prevé que se convierta muy pronto en el código básico de representación de la información de todos los sistemas de 16y 32 bits.

La información en

Unicode

@@ Línea 1: / Línea 1: @@
-{{wikificar}}
+{{enobras}}
-El [[Normalización|esténdar]] internacional '''[[International Organization for Standardization|ISO]]/[[International Electrotechnical Commission|IEC]] 10646''' define el '''Conjunto de Caracteres Universal''' ('''Universal Character Set''' - UCS) como un sistema [[codificación de caracteres]] en varios [[octeto]]s. Contiene cerca de cien mil [[Carácter (informática)|caracter]]es abstractos, cada uno de ellos identificado de forma precisa por un número [[entero]] denominado '''code point'''. Se creo en el año 1993 por ello a veces también aparece como: ISO/IEC 10646-1:1993
+El [[Normalización|estándar]] internacional '''[[International Organization for Standardization|ISO]]/[[International Electrotechnical Commission|IEC]] 10646''' define el '''Conjunto de Caracteres Universal''' ('''Universal Character Set''' - UCS) como un sistema [[codificación de caracteres]] en varios [[octeto]]s. Contiene cerca de cien mil [[Carácter (informática)|caracter]]es abstractos, cada uno de ellos identificado de forma precisa por un número [[entero]] denominado '''punto de código''' ('''code point'''). Se creo en el año 1993 por ello a veces también aparece como: ISO/IEC 10646-1:1993
+En este conjunto se encuentran los diversos caracteres (letras, números, símbolos, ideogramas, logogramas, etc.) procedentes de muchos [[lenguaje]]s, [[Escritura|scripts]], y las diversas tradiciones de puntuación de todo los idiomas del mundo, representadas en los códigos únicos UCS. Es de pensar que la inclusión de nuevos caracteres es constante, haciendo que el conjunto esté permanentemente en estado de actualización.
+Desde el año [[1991]], el [[Unicode Consortium]] ha venido trabajando con el organismo ISO con el objeto de desarrollar el ''[[Unicode|The Unicode Standard]]'' ("Unicode") y el ISO/IEC 10646 conjuntamente. El repertorio, el nombre de los caracteres, los puntos de código de la versión 2.0 de Unicode hacen un ajuste perfecto con las siete primeras publicaciones de la ISO/IEC 10646-1:1993. Tras la publicación de Unicode 3.0 en febrero de [[2000]], se fueron introduciendo nuevos caracteres en el UCS vía el ISO/IEC 10646-1:2000.
+El conjunto UCS tiene cerca de  1.1 millones de código punto, pero sólo los primeros 65,536 (la '''[[Asociación de caracteres unicode]]''', o BMP) han entrado en uso antes del año [[2000]].  Esta situación comenzó a cambiar cuando [[República Popular China]] (RPC) solicitó en el año 2000 que los sitemas computerizados vendidos en su territorio tuvieran que soportar el [[GB18030]], esta situación hizo que los sistemas que se tenían que vender en el RPC tuvieran que ir más allá del BMP. El conjunto tal y como está deinido hoy en día ha dejado de forma deliberada algunos huecos con el objeto de poder incorporar en un futuro otros caracteres que no entren en conflicto con los actuales.
+== Formas de codificar el "Conjunto Universal de Caracteres" ==
+El ISO 10646 define diversos ''formas de codificación" de caracteres para el conjunto universal de caracteres (''Universal Character Set''). La más simple es la denominada, '''UCS-2''' que emplea un ''valor de código'' simple (definido como uno o más números representando un código punto) entre 0 y 65,535 para cada caracter, y permite exáctamente dos [[byte]]s (una palabra de 16-[[bit]]) para representar el valor. El UCS-2 permite por lo tanto una representación binaria de cada punto de código en el sistema BMP, haciendo que haya una correspondencia biunívoca entre el valor y el código punto que representa al caracter. El UCS-2 no puede representar puntos código fuera del conjunto BMP.
+La primera enmienda a la edición original del UCS se definió como '''[[UTF-16]]''', y era una extensión del UCS-2, para representar códigos punto fuera del BMP. En la actualidad existen una zona especial de códigos punto denominada '''S''' (Special) en el BMP que permanece sin asignar a caracteres. El UCS-2 no permite emplear valores de código para estos puntos de código, pero UTF-16 permite el empleo de los mismos en pares. Cada par consiste en un "elemento-RC" (una [[tupla]] de dos octetos que forman un R-octeto y un C-octeto de una secuencia total de cuatro octetos que se asocia a una celda en el espacio de códigos asignados a caracteres). El estándar Unicode ha adoptado también el UTF-16, pero en la terminología de Unicode, la mitad-alta de la zona de elementos se denomina "sustituciones altas" y la mitad inferior de la tabl se denomina "sustituciones bajas".
+Otra codificación es la '''[[UCS-4]]''' que emplea un caracter único entre 0 y (teoricamente) en hexadecimal hasta 7FFFFFFF para ser asignado a cada caracter (sin embargo el UCS para a 10FFFF y la ISO/IEC 10646 tiene comprometida asignaciones futuras de caracteres en este rango). El UCS-4 permite representaciones de cada valor mediante el empleo exacto de cuatro bytes (una palabra de 32-bits). El UCS-4 permite una representación binaria de cada código punto en el sistema UCS, incluyendo aquellos que están fuera del BMP. Como en el sistema de codifiación de UCS-2, cada caracter codificado posee una longitud fija en bytes.
 ==El fin de hacer este código es==
@@ Línea 40: / Línea 54: @@
 [[Unicode]]
+[[category:unicode]]
-{{enobras}}
-El estándar internacional ISO/IEC 10646 define el Conjunto de Caracteres Universal (UCS) como codificación del carácter. Contiene casi cientos mil caracteres abstractos, cada uno identificado por un nombre inequívoco y un número del número entero llamado su punto de código.
-Los caracteres (letras, números, símbolos, ideograms, logograms, etc.) de las muchas idiomas, escrituras, y tradiciones del mundo se representan en el UCS con los puntos de código únicos. El inclusiveness del UCS está mejorando continuamente como los caracteres de previamente unrepresented escribiendo sistemas se agregan.
-Desde 1991, el consorcio de Unicode ha trabajado con la ISO para desarrollar el estándar de Unicode (“Unicode”) e ISO/IEC 10646 en tándem. El repertorio, los nombres del carácter, y los puntos de código de la versión 2.0 de Unicode emparejan exactamente los de ISO/IEC 10646-1: 1993 con sus primeras siete enmiendas publicadas. Después de la publicación de Unicode 3.0 de febrero de 2000, correspondiendo los nuevos y actualizados caracteres incorporaron el UCS vía ISO/IEC 10646-1: 2000.
-El UCS tiene sobre 1.1 millones de puntos de código, pero solamente el primeros 65.536 (el plano multilingüe básico, o BMP) habían entrado en uso común antes de 2000. Esta situación comenzó a cambiar cuando la República Popular de China (PRC) asignada en 2000 que por mandato los sistemas informáticos vendidos en su territorio deben apoyar GB18030, que requirió que los sistemas informáticos previstos para la venta en el PRC deban moverse más allá del BMP.
-El sistema deliberadamente deja muchos puntos de código no asignados a los caracteres, incluso en el BMP. Hace esto para tener en cuenta la extensión futura o para reducir al mínimo conflictos con otras formas de codificación.
-[[category:unicode]]
 [[cs:ISO 10646]]