Usuario:FAR/Ensayo sobre las categorías

El sistema de categorías de Wikipedia adolece de una serie de defectos que se han venido comentando durante años. Recientemente, me he visto envuelto en una gran cantidad de debates al respecto,^[1]^[2]^[3]^[4] donde creo que se han vertido muchas ideas interesantes sobre el tema. Durante esos debates, me he inclinado a teorizar sobre como se podrían cambiar algunos detalles en la implementación mediante el uso de otras maneras de plantillas, bots, lua, wikidata y categorías ocultas. Esta página sirve como memoria para organizar las ideas que han surgido de esos debates.

Contexto[editar]

Mi visión de como se ha llegado a esta situación aparece descrita en una de los debates que referencio:

Mi profesor de programación decía: "Lo difícil es hacer la estructura de datos que define el programa. Programarlo después es lo fácil". Cuando hicieron el software pensaron en Wikipedia como en una biblioteca de papel y adoptaron un enfoque del mismo tipo que la Clasificación Decimal Universal). Tenemos una población de artículos, que dividimos en "estantes" o grupos manejables: Ciencias, Ciencias Sociales, Humanidades... A su vez, según la cantidad de cosas que tenemos en cada uno, lo vamos subdividiendo más. De la misma manera que la gente adopta subdivisiones más finas según se va llenando la categoría, nosotros hemos ido repitiendo ese proceso iterativo. Es la razón última de la política de categorías actual: las categorías conforme se va subiendo en la escala son categorías de categorías, no recipientes de artículos. El software te permite dibujar árboles de categorías, que es como se pensó que funcionaría primordialmente.

Lo que se ha deslizado muchas veces es la idea de una base de datos. Tienes artículos con campos Tipo: X, País:Y... Y quieres que el software te devuelva lo que cumple una determinada condición, como en una base de datos. Menos amigable para el lector que no quiere que se le devuelva una lista de cientos/miles de resultados. Pero permite resolver la vida a gente que busca otro tipo de información (¿qué X está a menos de tanta distancia de mí? ¿cuantos libros se escribieron sobre el tema Y por gente que cumplían Z y W?), muchas veces más "automatizable".

Como no estaba pensado para eso, se ha parcheado. En en: les encantan las listas (hasta extremos ridículos) aunque en sí, una lista no debería ser un artículo enciclopédico. Aquí, como somos muy puristas en cuanto al concepto de enciclopédico, se rechazaron esos artículos y solo se acabó cediendo dándoles un espacio de nombres aparte (anexo), para que quedara explícita la diferencia.

Otro tipo de parche era programar. En Tools, un servidor que la fundación pone para gente que programa herramientas, está esta herramienta que hace cosas más complejas. La encontré buscando información cuando tuve la duda que planteas (hablando de enciclopeidad quise saber cuántos artículos de futbolistas teníamos, pero la maraña de categorías era muy compleja). Aunque a mí me colapsaba con tantos artículos, es posible que se debiera a un cambio de servidores que tenían en marcha. En esa línea se acabó dotando de una funcionalidad en ese camino (creo que menos configurable) al propio buscador de wikipeda (más información), aunque ha sido descrito como poco user-friendly.

Diagnóstico de la situación actual[editar]

Creo que, tras las discusiones de las referencias y algunas más, se puede mencionar los siguientes problemas del sistema de categorías actual:

Genera una cantidad malsana de trabajo de mantenimiento. Esto implica muchos corolarios derivados:
1. Es posible vandalizar con relativa facilidad el sistema, dado su mayor complejidad.
2. En mi opinión personal, es uno de los apartados donde más problemático puede ser hacer cumplir las políticas de referencias.
3. Es complejo hacer cumplir de forma general una estructura común para temas similares, dado el gran trabajo de revisión continua que se requiere y la complejidad de herramientas para comprobar cuando se han añadido artículos a una categoría.
4. Consume una cantidad de horas-hombre desproporcionada para realizar esta supervisión.
5. Mover, subdividir o eliminar categorías es tedioso para un usuario y frecuentemente necesitará el uso de bots.
6. Es especialmente complicado que los usuarios novatos que usan herramientas de ayuda para crear artículos acierten con las categorías que deberían poner. La idea intuitiva es más general (Categoría:ríos, Categoría:Monumentos de Santander, no categoría:Ríos de la región de Biobío, Categoría:bienes de interés cultural de la provincia de Cantabria)
7. Dificulta el reaprovechamiento del trabajo de clasificación realizado en otras wikipedias.
Puede dificultar el acceso del lector a la información en vez de ayudar a ello. Algunos casos que se han dado son:
1. Un artículo que esté incluido en A a través de la subcategoría B no sale directamente en la lista de A. Se ha de pedir ex profeso A+B, lo que requiere una consciencia del funcionamiento del sistema de categorías superior a la de la mayoría de lectores. Un esfuerzo para categorizar puede acabar ocultando la información.
2. Una categoría con muchos artículos debe ser subdividida por limitaciones del software. Sin embargo, y para evitar redundancias, eso implica que se hace complejo para un lector ocasional obtener, por ejemplo, cosas como la cantidad de biografías de futbolistas que tenemos.
Es propenso al error. Una misma categoría puede estar dividida por países y por siglos, debiendo un artículo ser categorizado de forma simultánea en dos árboles en paralelo que cuelgan de una misma categoría madre. Con las limitaciones que supone el trabajo voluntario que basa Wikipedia, hace fácil que ambos árboles terminen no cuadrando.
No permite su lectura automática. Por ello:
1. No se pueden procesar datos numéricos (¿quieres saber cuantos escritores de Francia habían nacido antes de 1789? Pues probablemente debas ir haciendo clic una a una en las subcategorías de siglos anteriores y en cada artículo del siglo XVIII).
2. Se dificulta el reaprovechamiento del trabajo por terceras partes que necesiten tener la información semánticamente categorizada.

Propuestas[editar]

Usar un modelo atómico de información en vez de la escritura compleja que se usa ahora. Ello no debería cambiar como lo ve el usuario, sino como se escribe de manera interna. Categorías como Físicos de Francia del siglo XX o Escritores de Colombia del siglo XIX tienen una complejidad innecesaria y dificultan el mantenimiento. La información básica para categorizar debería ser del tipo: ocupación-valor, fecha de nacimiento-valor, lugar de nacimiento-valor. Las intersecciones deberían ser realizados a partir de ello, mediante lua o mediante bots, para así garantizar que el artículo está siempre todos los árboles sobre los que hay información.

Usar Wikidata de forma más intensiva en Wikipedia. El objetivo es:
- Poder complementar con información que no está disponible en nuestra wikipedia pero si en otras. Al mismo tiempo, permitir que nuestro trabajo sea aprovechado por otros.
- Dificultar errores al aumentar el número de ojos sobre fechas, lugares, categorías y permitir con el sistema parámetro-valor-fuente un sistema de trazabilidad para la información. La inclusión de un artículo en una categoría debería también poder justificarse a partir de fuentes externas.

Hoja de ruta[editar]

Aplicar estas ideas puede ser un trabajo para el largo plazo. De forma esquematica y para el caso ejemplo de biografías, el proceso puede ser planteado así:

Fase 0: preparación. Una gran parte del trabajo de clasificación ya está hecho mediante las infoboxes. Sin embargo, sería recomendable que algún bot se encargara de confirmar que los datos de la infobox cuadran con las categorías existentes para ir completando y corrigiendo la información. También se debería comprobar que los datos de las infoboxes tienen el formato apropiado. Convendría empezar a usar wikidata para obtener información que falte en las infoboxes.

Fase 1: Se puede mover a Plantilla:Ficha de persona la responsabilidad de categorizar por año de nacimiento y muerte, así como una serie de información relevante (religión, sexo, cargos...). Lua permite realizar bucles que generen a su vez información más complicada (como obtener el siglo a partir de las fechas de nacimiento y muerte u obtener la nacionalidad a partir de esto). Se puede dar prioridad para que categorice en Categoría:Físicos de Francia del siglo XX si existe. De no existir, que pruebe en Físicos de Francia, Físicos del siglo XX y Franceses del siglo XX. De no existir, se puede repetir un nivel más arriba.

Fase 2: Repensar las categorías existentes en muchos casos. La posibilidad de crear con menor coste nuevas intersecciones aumentaría al bastar cambiar el módulo lua, lo que debería permitir crear, eliminar y mover categorías más fáciles para gestionar mejor el contenido.

Fase 3: comprobar las limitaciones del software en cuanto a máximo de artículos en una categoría. Aunque no se usen habitualmente para el lector, se puede plantear crear categorías superpobladas (Categoría:Futbolistas, categoría:ríos) como categorías ocultas. Para un lector clásico sería igual, pero permitiría dar respuesta gente que se interesa por ese tipo de datos.

Notas[editar]

[1] ttps://es.wikipedia.org/wiki/Wikipedia:Caf%C3%A9/Archivo/2013/Mayo#Duda_sobre_procedimientos

[canales-2] ttps://es.wikipedia.org/wiki/Usuario_discusi%C3%B3n:FAR/Archivo/2013-1#Borrado_de_la_Categor.C3.ADa:Canales_en_el_art.C3.ADculo_del_Canal_G.C3.B6ta

[sexo-3] ttp://blog.wikimedia.org/2013/05/01/of-wikipedia-categories-and-sexism/

[4] Usuario:FAR/Ensayo sobre las categorías/IRC

[1]

[2]

[3]

[4]