Discusión:Unicode
UNICODE no especifica ningún formato de codificación, como se cita en el texto.
BMP es Basic Multilingual Plane y contiene todos los caracteres basicos para cubrir las lenguas en uso actual, (unicode tambien codifica alfabetos de interes historico, literario etc.), y en el articulo se hace referencia al formato BMP que no tiene nada que ver!!!
Contenido |
[editar] Codificación
Retiro el texto siguiente; al contrario de lo que pone en él y de los comentarios anteriores (que no están firmados) el estándar unicode propone las normas de codificación utf-8, utf-16 y utf-32:
..., pero no especifica cómo debe codificarse en un sistema informático, por lo que es posible establecer codificaciones de uno, dos o más bytes, convirtiendo a Unicode en un estandar extensible.
acreditaré este hecho en futuras ediciones del artículo con las referencias correspondientes.
Salu2 --Marco Antonio Regueira (discusión) 22:13 22 may 2009 (UTC)
[editar] Composición de símbolos
Retiro el texto siguiente porque Unicode no trata en ningún caso de cómo se dibujan los caracteres. El texto retirado parece erudito y lo dejo aquí con la esperanza de que sea útil en otro lugar.
Saludos. --Marco Antonio Regueira (discusión) 00:50 25 may 2009 (UTC)
-
- Combinar símbolos, como en el complejo método de moldeo de caracteres requerido para dibujar propiamente texto arábico y en muchos otros alfabetos, depende normalmente de tecnologías, como OpenType (de Adobe y Microsoft), Graphite (de Sil International) y AAT (de Apple), en los cuales un diseñador de fuentes incluye instrucciones en la fuente, explicándole al software como imprimir diferentes secuencias de caracteres corrrectamente. Las fuentes de tamaño fijo algunas veces emplean otro método: especificando el símbolo combinado a la izquierda de su propio espacio; este método, sin embargo, funciona solamente para algunos caracteres, y estos no se apilan adecuadamente.
-
- Incluso en la actualidad la mayoría del software aún no puede manejar confiablemente muchas características no aceptadas por los viejos formatos de fuentes, así que combinar caracteres frecuentemente no funciona de forma correcta. En teoría ḗ (caracter prediseñado con una "e" con macrón y acentuada, en un punto de código único) y ḗ (una "e" seguida de de la combinación de un macrón y un acento agudo arriba de la letra, especificada como dos puntos de código consecutivos) tienen una apariencia idéntica, ambas dando una "e" con macrón y tildada, pero en la práctica, sus apariencias pueden variar enormemente dependiendo del uso que le dé el software. También los puntos inferiores, que son necesarios en el alfabeto Indú romanizado, a menudo son desplegados incorrectamente. Por ejemplo:
- ṃ - ṇ - ḷ
- Incluso en la actualidad la mayoría del software aún no puede manejar confiablemente muchas características no aceptadas por los viejos formatos de fuentes, así que combinar caracteres frecuentemente no funciona de forma correcta. En teoría ḗ (caracter prediseñado con una "e" con macrón y acentuada, en un punto de código único) y ḗ (una "e" seguida de de la combinación de un macrón y un acento agudo arriba de la letra, especificada como dos puntos de código consecutivos) tienen una apariencia idéntica, ambas dando una "e" con macrón y tildada, pero en la práctica, sus apariencias pueden variar enormemente dependiendo del uso que le dé el software. También los puntos inferiores, que son necesarios en el alfabeto Indú romanizado, a menudo son desplegados incorrectamente. Por ejemplo:
-
- Por supuesto, tales problemas no muestran una debilidad del Unicode en sí, sino revelan los errores y debilidades en la tecnología aplicada al dibujado (rendering) y a las fuentes. Cabe por último mencionar también la existencia de símbolos preestablecidos para muchos de estos caracteres, por ejemplo: ṃ - ṇ - ḷ.
[editar] Nota
Según Unicode
The difference between identifying a character and rendering it on screen or paper is crucial to understanding the Unicode Standard’s role in text processing. [...] The Unicode Standard does not define glyph images. That is, the standard defines how characters are interpreted, not how glyphs are rendered. Ultimately, the software or hardware rendering engine of a computer is responsible for the appearance of the characters on the screen. The Unicode Standard does not specify the precise shape, size, or orientation of on-screen characters.
[editar] Más texto retirado
Sección WEB
Esta sección incorpora información sobre utf-8 sin citarlo directamente y de forma poco clara. Retiro dichas referencias y revisaré lo que queda.--Marco Antonio Regueira (discusión) 01:10 25 may 2009 (UTC)
Sección Correo electrónico
El contenido de esta sección no trataba sobre UNICODE, trataba sobre las cabeceras MIME en mensajes de correo electrónico.--Marco Antonio Regueira (discusión) 01:33 25 may 2009 (UTC)
[editar] Alfabetos soportados
Para mejorar la presentación reduzco la lista siguiente de alfabetos, que no es completa, a una muestra y una referencia a la lista completa. --Marco Antonio Regueira (discusión) 10:19 25 may 2009 (UTC)
- Árabe
- Armenio
- Bengalí
- Birmano
- Braille
- Sílabas aborígenes canadienses
- Cheroqui
- Copto
- Cirílico
- Devanāgarī
- Esperanto
- Etíope
- Georgiano
- Griego
- Guyaratí
- Gurmukhi
- Hangul (Coreano)
- Han (Kanji, Hanja y Hanzi)
- Japonés (Kanji, Hiragana y Katakana)
- Hebreo
- Jemer (Camboyano)
- Kannada (Canarés)
- Laosiano
- Latino
- Malabar
- Mongol
- Oriya
- Siríaco
- Tailandés (Thai)
- Tamil
- Tibetano
- Yi
- Zhuyin (Bopomofo)
[editar] Retirado texto (UTF-2000, tron, han antiguo)
Retiro el siguiente texto de la sección de discusión, motivado por falta de actualidad y referencias.
1. Símbolos antiguos de kanji. Unicode está en este momento incorporando las antiguas marcas de oráculo por fines académicos. La simbología han está altamente incorporada, incluyendo símbolos históricos.
2. UTF-2000. Este estándar alternativo a unicode nunca ha pasado de proyecto. Véase aquí.
3. TRON/BTRON/ITRON/... Es casi imposible encontrar información fideligna sobre estado de este proyecto, en particular sobre el grado de adopción. La documentación parece o antigua o en japonés. Y ninguna fechada. En 2001 en los foros de unicode se hablaba de ello pero sin concreción. 1 2. Si alguien encuentra algo, agradeceré que me lo comunique o que directamente lo incorpore al artículo, si es relevante. --Marco Antonio Regueira (discusión) 23:29 26 may 2009 (UTC)
Texto retirado:
Unicode es duramente criticado{{Cita requerida}} por no permitir el uso de los símbolos alternos y antiguos del kanji, lo cual, se dice, complica el procesamiento del japonés antiguo y de nombres japoneses poco usuales. Estas críticas persisten aunque Unicode sigue completamente las recomendaciones de maestros del lenguaje japonés y del gobierno japonés. Incluso ha habido numerosos intentos de crear un Unicode alternativo. Entre los muchos propuestos se encuentra el TRON (aunque no es ampliamente adoptado en Japón, algunos, en especial aquellos que necesitan manejar texto escrito en japonés antiguo, favorecen este estándar); y el UTF-2000]. Aunque es verdad que muchos símbolos antiguos no fueron incluidos en las primeras versiones del Unicode estándar, Unicode 4.0 contiene más de 90,000 caracteres Han, muchísimos más que cualquier otro diccionario o estándar, y que el proceso de agregar caracteres de la temprana escritura de China, Corea y Japón continua.
[editar] Complot contra las culturas asiáticas
Retiro el siguiente texto. El mismo párrafo da la respuesta a la crítica. Como todos los países implicados integran el IRG, sería necesario conocer la representatividad de las críticas antes de incluir el comentario. Véase nota sobre BTRON. --Marco Antonio Regueira (discusión) 22:54 27 may 2009 (UTC)
Texto retirado:
Otras personas han denigrado el Unicode al afirmar que es un complot{{Cita requerida}} contra las culturas asiáticas perpetrado por los occidentales sin ningún conocimiento de como son usados los caracteres en chino, coreano o japonés, a pesar de que un buen número de expertos de los tres continentes en el Grupo Ideográfico del Poniente (IRG por sus siglas en inglés). El IRG avisa al consorcio del Unicode y al ISO y a la Unificación Han de las nuevas adiciones al repertorio y de la identificación de símbolos en los tres lenguajes sobre cuales de ellos se pueden tratar como variaciones de estilo del mismo carácter histórico. La unificación Han se ha convertido en uno de los aspectos más controvertidos de Unicode.
Sin embargo, no todo son rechazos, pues algunos gobiernos, como el gobierno de India, han mostrado enorme interés en el proyecto, siendo miembro con derecho a voto en el consorcio de Unicode.
[editar] Más texto retirado
Retiro el siguiente texto, no he dado con ninguna cita adecuada. --Marco Antonio Regueira (discusión) 23:23 31 may 2009 (UTC)
No obstante, esta simplicidad se complica con las concesiones hechas por los diseñadores de Unicode,
con la esperanza de animar una mayor "adopción" de Unicode{{Cita requerida}}.
y este, bastante oscuro, que parece referirse a la forma en que se codifican caracteres en html
=== Web === Estos caracteres se manifiestan directamente como bytes de acuerdo a la documentación de cada codificacón, si ésta es compatible con Unicode, o bien el usuario puede escribirlos directamente como referencias numéricas de caracteres basado en el punto código de Unicode de cada carácter, siempre y cuando la codificación de cada documento permita utilizar los dígitos necesarios para escribir las referencias (todos los códigos aprobados para uso en el internet lo permiten). Por ejemplo, las referencias:Δ,Й,ק,م,๗,あ,叶,葉, y냻( o el mismo valor numérico expresado en hexadecimal con &x como el prefijo) se muestran en el navegador como Δ, Й, ק, م, ๗, あ, 叶, 葉 y 냻.
[editar] Secciones anuladas
- Origen y desarrollo
He redistribuido parte del texto de esta sección agregándolo a otras secciones. Espero reducir el tamaño del artículo eliminando redundancias.
- Unicode en uso
En este momento solo quedaba referencia a que unos sistemas operativos utilizan utf-8 y otros utf-16 pero que la mayoría usan unicode. Dejaré una referencia sobre el tema, pero reduzco un poco el tamaño del artículo. La información original, que pego a continuación, puede ser interesante para agregar a los articulos sobre UTF-8 y 16. --Marco Antonio Regueira (discusión) 13:10 2 jul 2009 (UTC)
== Unicode en uso == === Sistemas operativos === Unicode se ha convertido en el esquema dominante para el procesamiento y en ocasiones para el almacenamiento de texto (aunque mucho del texto aún es almacenado en codificaciones heredadas). Los adaptadores iniciales utilizaban UCS-2 y después cambiaron a UTF-16 (debido a que esta era la única manera de agregar compatibilidad para caracteres que no eran bmp). El mejor ejemplo conocido de este sistema es Windows NT (y obviamente sus descendientes Windows 2000 y Windows XP). Aunque también los códigos de bytes de los ambientes Java y .NET lo utilizan. Por otro lado UTF-8 (desarrollado para Plan 9) se ha convertido en la codificación principal de la mayoría de los sistemas operativos similares o basados en Unix (aunque otros también son usados por algunas bibliotecas) debido a que es relativamente fácil hacer el reemplazo por caracteres de los juegos de caracteres extendidos ASCII.
- Discusión sobre ideogramas han/japonés
Retiro el siguiente texto, más que una discusión real, parece hablar de algunas confusiones que el mismo texto rebate. Con citas apropiadas, podría ser adecuado reincorporar al menos una parte. --Marco Antonio Regueira (discusión) 18:13 11 jul 2009 (UTC)
=== Discusiones ===
Algunas personas, principalmente en Japón, se opone al Unicode en general {{Cita requerida}}, quejándose
de las limitaciones técnicas y problemas políticos involucrados. Las personas que trabajan en el proyecto
ven esas críticas como malentendidos del estándar Unicode y del proceso por el cual ha evolucionado{{Cita requerida}}.
El error más común, desde este punto de vista, tiene que ver con la confusión entre caracteres abstractos
y sus formas visuales altamente variables.
Por otro lado mientras que la población china puede leer fácilmente la mayoría de los símbolos utilizados
por los japoneses o los coreanos, los japoneses muy a menudo reconocen sólo una variante en particular
{{Cita requerida}} (lo cual es un dato curioso, pues el japonés y el coreano son
considerados como lenguas aisladas) {{Cita requerida}}.
El incluir el Lenguaje Thai también ha sido criticado por su orden ilógico de caracteres {{Cita requerida}}.
Esta complicación es debido a que el Unicode ha heredado el Estándar Industrial Thai 620,
el cual funcionaba de la misma manera. Este problema de orden complica el proceso de comparación de Unicode.
[editar] Cierro tanda de ediciones
Finalizo esta tanda de ediciones.
Un saludo a todos.--Marco Antonio Regueira (discusión) 19:08 14 jul 2009 (UTC)
[editar] Desactualizado
Se hace referencia a que el codigo UTF 5.2 saldrá en Otoño de 2009, sin embargo ya estamos enn Verano/Invnierno de 2011 y no se a agregado información al respecto de lo sucedido ni de lo que sucede, se pide revisar y actualizar. — El comentario anterior sin firmar es obra de 190.20.25.178 (disc. · contr. · bloq.).