Specials (bloque Unicode)

Specials
Rango	U+FFF0..U+FFFF (16 puntos de código)
Plano	BMP
Script	Common
Asignados	5 puntos de código
Sin usar	9 puntos de código reservados 2 no caracteres
Historial de versiones de Unicode
1.0.0	1 (+1)
2.1	2 (+1)
3.0	5 (+3)
Notas:
	[editar datos en Wikidata]

Specials es un bloque Unicode corto asignado al final del plano multilingüe básico, en U+FFF0 - FFFF. De estos 16 puntos de código, se han asignado cinco desde Unicode 3.0:

U+FFF9 INTERLINEAR ANNOTATION ANCHOR, marca el inicio del texto anotado.
U+FFFA INTERLINEAR ANNOTATION SEPARATOR, marca el inicio de los caracteres de anotación
U+FFFB INTERLINEAR ANNOTATION TERMINATOR, marca el final del bloque de anotaciones
U+FFFC OBJECT REPLACEMENT CHARACTER, marcador de posición en el texto para otro objeto no especificado, por ejemplo, en un documento compuesto.
U+FFFD � REPLACEMENT CHARACTER, utilizado para reemplazar un carácter desconocido, no reconocido o irrepresentable
U+FFFE <noncharacter-FFFE> no es un caracter.
U+FFFF <noncharacter-FFFF> no es un caracter.

U+FFFE y U+FFFF no están definidos como "caracteres sin asignar", pero se garantiza que no serán caracteres Unicode en absoluto. Se pueden utilizar para adivinar el esquema de codificación de un texto, ya que cualquier texto que los contenga no es, por definición, un texto Unicode correctamente codificado. El caracter unicode U+FEFF Byte order mark se puede insertar al principio de un texto Unicode para señalar su carácter final : un programa que lea dicho texto y se encuentre con 0xFFFE sabrá entonces que debe cambiar el orden de los bytes para todos los siguientes caracteres.Su nombre de bloque en Unicode 1.0 era Special.^[3]

Carácter de reemplazo[editar]

El carácter de reemplazo � (representado por un rombo negro con un signo de interrogación blanco o un recuadro vacío) es un símbolo que se encuentra en el estándar Unicode en el punto de código U+FFFD en la tabla Specials. Se utiliza para indicar problemas cuando un sistema no puede convertir un flujo de datos en un símbolo correcto. Por lo general, se ve cuando los datos no son válidos y no coinciden con ningún carácter:

Considere un archivo de texto que contiene la palabra alemana "für" (que significa ‘para’) en la codificación ISO-8859-1 (0x66 0xFC 0x72). Este archivo ahora se abre con un editor de texto que asume que la entrada es UTF-8. El primer y último byte son codificaciones UTF-8 válidas de ASCII, pero el byte medio (0xFC) no es un byte válido en UTF-8. Por lo tanto, un editor de texto podría reemplazar este byte con el símbolo de carácter de reemplazo para producir una cadena válida de puntos de código Unicode. La cadena completa ahora se muestra así: "f�r".

Un editor de texto mal implementado podría guardar el reemplazo en formato UTF-8; los datos del archivo de texto se verán así: 0x66 0xEF 0xBF 0xBD 0x72, que se mostrará en ISO-8859-1 como "fï¿½r" (esto se llama mojibake). Dado que el reemplazo es el mismo para todos los errores, esto hace que sea imposible recuperar el carácter original. Un diseño mejor (pero más difícil de implementar) es preservar los bytes originales, incluido el error, y solo convertirlos al reemplazo cuando se muestra el texto. Esto permitirá que el editor de texto guarde la secuencia de bytes original, sin dejar de mostrar el indicador de error al usuario.

Se ha vuelto cada vez más común para que el software intérprete UTF-8 no válido adivinando que los bytes están en otra codificación basada en bytes, como ISO-8859-1. Esto permite la visualización correcta de UTF-8 válido y no válido pegados juntos. Si una página web usa ISO-8859-1 (o Windows-1252) pero especifica la codificación como UTF-8, la mayoría de los navegadores web solían mostrar todos los caracteres no ASCII como �, pero los navegadores más nuevos traducen los bytes erróneos individualmente a caracteres en Windows-1252, por lo que el carácter de reemplazo se ve con menos frecuencia.

Tabla de caracteres Unicode[editar]

Specials
	0	1	2	3	4	5	6	7	8	9	A	B	C	D	E	F
U+FFFx										IA A	IA S	IA T		�
Notas A partir de la versión 13.0 de Unicode^[4] Las áreas grises indican puntos de código no asignados Las áreas negras indican que no son caracteres (puntos de código que se garantiza que nunca se asignarán como caracteres codificados en el estándar Unicode)

Historia[editar]

Los siguientes documentos relacionados con Unicode registran el propósito y el proceso de definir caracteres específicos en el bloque Specials:

Versión	Puntos de código finales	Cuenta	UTC ID	L2 ID	WG2 ID	Documento
1.0.0	U+FFFD	1				(por determinar)
	U+FFFE..FFFF	2				(por determinar)
				L2/01-295R^[5]		Moore, Lisa (6 de noviembre de 2001), Minutes from the UTC/L2 meeting #88 .
				L2/01-355^[6]	N2369 (html, doc)	Davis, Mark (26 de septiembre de 2001), Request to allow FFFF, FFFE in UTF-8 in the text of ISO/IEC 10646 .
				L2/02-154^[7]	N2403	Umamaheswaran, V. S. (22 de abril de 2002), Draft minutes of WG 2 meeting 41, Hotel Phoenix, Singapore, 2001-10-15/19 .
2.1	U+FFFC	1	UTC/1995-056			Sargent, Murray (6 de diciembre de 1995), Recommendation to encode a WCH_EMBEDDING character .
			UTC/1996-002			Aliprand, Joan; Hart, Edwin; Greenfield, Steve (5 de marzo de 1996), UTC #67 Minutes .
					N1365	Sargent, Murray (18 de marzo de 1996), Proposal Summary – Object Replacement Character .
					N1353	Umamaheswaran, V. S.; Ksar, Mike (25 de junio de 1996), Draft minutes of WG2 Copenhagen Meeting # 30 .
				L2/97-288	N1603	Umamaheswaran, V. S. (24 de octubre de 1997), Unconfirmed Meeting Minutes, WG 2 Meeting # 33, Heraklion, Crete, Greece, 20 June – 4 July 1997 .
				L2/98-004R	N1681	Text of ISO 10646 – AMD 18 for PDAM registration and FPDAM ballot, 22 de diciembre de 1997 .
				L2/98-070		Aliprand, Joan; Winkler, Arnold, Minutes of the joint UTC and L2 meeting from the meeting in Cupertino, February 25-27, 1998 .
				L2/98-318	N1894	Revised text of 10646-1/FPDAM 18, AMENDMENT 18: Symbols and Others, 22 de octubre de 1998 .
3.0	U+FFF9..FFFB	3		L2/97-255R		Aliprand, Joan (3 de diciembre de 1997), Approved Minutes – UTC #73 & L2 #170 joint meeting, Palo Alto, CA – August 4-5, 1997 .
				L2/98-055		Freytag, Asmus (22 de febrero de 1998), Support for Implementing Inline and Interlinear Annotations .
				L2/98-070		Aliprand, Joan; Winkler, Arnold, Minutes of the joint UTC and L2 meeting from the meeting in Cupertino, February 25-27, 1998 .
				L2/98-099	N1727	Freytag, Asmus (18 de marzo de 1998), Support for Implementing Interlinear Annotations as used in East Asian Typography .
				L2/98-158		Aliprand, Joan; Winkler, Arnold (26 de mayo de 1998), Draft Minutes – UTC #76 & NCITS Subgroup L2 #173 joint meeting, Tredyffrin, Pennsylvania, April 20-22, 1998 .
				L2/98-286	N1703	Umamaheswaran, V. S.; Ksar, Mike (2 de julio de 1998), Unconfirmed Meeting Minutes, WG 2 Meeting #34, Redmond, WA, USA; 1998-03-16--20 .
				L2/98-270		Hiura, Hideki; Kobayashi, Tatsuo (29 de julio de 1998), Suggestion to the inline and interlinear annotation proposal .
				L2/98-281R (pdf, html)		Aliprand, Joan (31 de julio de 1998), Unconfirmed Minutes – UTC #77 & NCITS Subgroup L2 # 174 JOINT MEETING, Redmond, WA -- July 29-31, 1998 .
				L2/98-363	N1861	Sato, T. K. (1 de septiembre de 1998), Ruby markers .
				L2/98-372	N1884R2 (pdf, doc)	Whistler, Ken (22 de septiembre de 1998), Additional Characters for the UCS .
				L2/98-416	N1882.zip	Support for Implementing Interlinear Annotations, 23 de septiembre de 1998 .
				L2/98-329	N1920	Combined PDAM registration and consideration ballot on WD for ISO/IEC 10646-1/Amd. 30, AMENDMENT 30: Additional Latin and other characters, 28 de octubre de 1998 .
				L2/98-421R		Suignard, Michel; Hiura, Hideki (4 de diciembre de 1998), Notes concerning the PDAM 30 interlinear annotation characters .
				L2/99-010	N1903 (pdf, html, doc)	Umamaheswaran, V. S. (30 de diciembre de 1998), Minutes of WG 2 meeting 35, London, U.K.; 1998-09-21--25 .
				L2/98-419 (pdf, doc)		Aliprand, Joan (5 de febrero de 1999), Approved Minutes -- UTC #78 & NCITS Subgroup L2 # 175 Joint Meeting, San Jose, CA -- December 1-4, 1998 .
			UTC/1999-021			Duerst, Martin; Bosak, Jon (8 de junio de 1999), W3C XML CG statement on annotation characters .
				L2/99-176R		Moore, Lisa (4 de noviembre de 1999), Minutes from the joint UTC/L2 meeting in Seattle, June 8-10, 1999 .
				L2/01-301		Whistler, Ken (1 de agosto de 2001), Analysis of Character Deprecation in the Unicode Standard .

Véase también[editar]

Caracteres de control unicode

Referencias[editar]

↑ «Unicode character database». The Unicode Standard. Consultado el 9 de julio de 2016.
↑ «Enumerated Versions of The Unicode Standard». The Unicode Standard. Consultado el 9 de julio de 2016.
↑ «3.8: Block-by-Block Charts». The Unicode Standard. version 1.0. Unicode Consortium.
↑ «Specials». Specials - Range: FFF0–FFFF (Unicode, Inc.).
↑ «UTC 88/ L2 185 Approved Minutes». www.unicode.org. Consultado el 8 de octubre de 2020.
↑ «ISO». www.unicode.org. Consultado el 8 de octubre de 2020.
↑ Draft minutes of WG 2 meeting 41, Hotel Phoenix, Singapore. ISO.

Datos: Q2494081
Multimedia: Unicode FFF0-FFFF Specials / Q2494081

[1] «Unicode character database». The Unicode Standard. Consultado el 9 de julio de 2016.

[2] «Enumerated Versions of The Unicode Standard». The Unicode Standard. Consultado el 9 de julio de 2016.

[3] «3.8: Block-by-Block Charts». The Unicode Standard. version 1.0. Unicode Consortium.

[4] «Specials». Specials - Range: FFF0–FFFF (Unicode, Inc.).

[5] «UTC 88/ L2 185 Approved Minutes». www.unicode.org. Consultado el 8 de octubre de 2020.

[6] «ISO». www.unicode.org. Consultado el 8 de octubre de 2020.

[7] Draft minutes of WG 2 meeting 41, Hotel Phoenix, Singapore. ISO.

[1]

[2]

[3]

[4]

[5]

[6]

[7]