Classora

De Wikipedia, la enciclopedia libre
Saltar a: navegación, búsqueda

Classora es una base de conocimiento para Internet orientada al análisis de datos, es decir, un repositorio digital que almacena información estructurada y permite representarla en múltiples formatos: analíticamente, gráficamente, geográficamente (mediante mapas), así como realizar análisis OLAP. La información de Classora procede de fuentes públicas[1] y es cargada a través de robots automáticos y procesos ETL. La base de conocimiento dispone de un API comercial[2] para enriquecimiento semántico, y de una web abierta[3] en la que es posible consultar de forma libre parte de la información recopilada. Esta web permite además la interacción de usuarios para completar datos y agregar opiniones.

Internamente, Classora está organizada en unidades de conocimiento e informes. Una unidad de conocimiento es cualquier elemento cotidiano sobre el que se puede almacenar información en forma de ficha (una persona, una empresa, un país... etc). Un informe es un conjunto de unidades de conocimiento: un ranking de empresas, una clasificación deportiva, una encuesta sobre personas, una consulta de un usuario... etc. Precisamente, entre las principales capacidades técnicas de Classora destaca que permite cruzar informes y unidades de conocimiento procedentes de distintas fuentes de datos, generando así un importante valor añadido para todos los canales en los que se publica dicha información: medios digitales, TV interactiva... etc.

Definiciones básicas[editar]

Unidad de conocimiento[editar]

Las unidades de conocimiento de Classora (también conocidas como entradas) son fichas de datos que tienen cierta equivalencia semántica con los artículos de Wikipedia: almacenan información sobre cualquier elemento del mundo, ya sea una película, un país, una empresa o un animal. No obstante, a diferencia de Wikipedia, Classora guarda información estructurada y enriquecida con una capa de metadatos, por lo que es capaz de interpretar automáticamente el significado de cada unidad de conocimiento.

Informe de datos[editar]

Un informe de datos es un conjunto de unidades de conocimiento. Por definición no permite unidades de conocimiento repetidas. Esta definición incluye cualquier lista, encuesta, ranking y en general, cualquier consulta que involucre a más de una unidad de conocimiento. Classora destaca en el tratamiento de informes por sus capacidades de visualización, mostrando los datos en tablas, gráficas y mapas.

Tipos de informes:

  • Clasificaciones deportivas: resultados de competiciones deportivas avalados por la institución competente.
  • Rankings y listas: todo tipo de listas curiosas, tengan o no un orden implícito.
  • Encuestas: listas sin orden inicial que se ordenan con las votaciones de los usuarios.
  • Consultas a la base de conocimiento: preguntas formuladas por los usuarios utilizando CQL.
  • Redes de conexiones: calculadas automáticamente a partir de la taxonomía y los informes de cada unidad de conocimiento.

Taxonomía organizativa[editar]

Una taxonomía organizativa (también conocida como tipo de entrada) es una ficha que aglutina los atributos comunes de un conjunto de unidades de conocimiento. Por ejemplo, la taxonomía organizativa de «Piloto de Fórmula 1» tiene atributos como fecha de debut, escudería... etc. La taxonomía organizativa «Equipo de fútbol» tiene atributos como ciudad, estadio... etc.

En Classora, las taxonomías están organizadas como una jerarquía, de manera que una taxonomía hereda los atributos de su taxonomía padre. Por ejemplo, «Piloto de Fórmula 1» es una taxonomía hija de «Deportista», que a su vez es hija de la taxonomía «Persona», y ésta a su vez es hijo de la taxonomía «Ser vivo».

El tipo de entrada más simple que existe es Objeto Classora. Todas las taxonomías son hijas suyas y heredan sus atributos. De hecho, el único atributo que tiene Objeto Classora es nombre (ya que todas las unidades de conocimiento del sistema deben tener, al menos, un nombre).

Arquitectura de Classora[editar]

Módulo de extracción de datos[editar]

El módulo de extracción de datos consiste en un conjunto de robots coordinados por un software que los planifica y gestiona posibles incidencias. La mayor parte de la información disponible en Classora se carga automáticamente a través de estos robots, que se conectan a las principales fuentes públicas online para recabar datos de todo tipo. Existen tres categorías de robots:

  • Robots de extracción: encargados de la carga masiva de informes a partir de fuentes públicas oficiales (FIFA, CIA, FMI, Eurostat...). Sirven tanto para cargas absolutas como incrementales.
  • Exploradores de datos: encargados de buscar y actualizar datos concretos de una unidad de conocimiento a partir de una fuente determinada: Wikipedia, JMDB, Banco Mundial... etc.
  • Agregadores de contenidos: no se conectan a fuentes externas, sino que utilizan datos internos de Classora para generar nueva información (histórica, agregada... etc.).

Módulo participativo[editar]

En la web abierta de Classora los usuarios de Internet pueden participar aportando sus conocimientos de una forma similar a la Wikipedia. Hay diferentes formas de participar: incorporando o corrigiendo datos en la base de conocimiento, votando en las encuestas (rankings participativos) y creando nuevas unidades de conocimiento e informes.

Módulo de conectividad[editar]

La base de conocimiento está diseñada para ser embebida en sistemas multiplataforma y multicanal, permitiendo ser integrada en dispositivos móviles, tablets, TV interactiva... etc. Dicha integración se puede llevar a cabo mediante plugins específicos (para navegadores u otros dispositivos) o mediante un API REST que sirve contenidos en formato XML o JSON. El API está dividido en tres bloques de operaciones. En primer lugar, hay un bloque de herramientas de utilidad general (que comprenden desde componentes autosuggest sobre jerarquías geográficas hasta operaciones para obtener la lista de personajes que cumplen años el día de hoy, mediante la utilización del lenguaje CQL). En segundo lugar, hay un bloque de operaciones para la generación de widgets (gráficos, mapas, rankings) utilizando información de la base de conocimiento. Por último, hay un bloque de operaciones destinadas a la publicación de contenidos de fuentes libres.[4]

Estadísticas del proyecto[editar]

En abril de 2012 se habían incorporado más de 2.000.000 de unidades de conocimiento, 15.000 informes, cerca de 10.000 mapas y varios millones de análisis comparativos potenciales. Según la página de métricas web Alexa, Classora se encuentra posicionada en el 100.557 del ranking global y 2.880 en el ranking de tráfico en España.[5] De media los usuarios pasan 9 minutos y medio.

Enlaces externos[editar]

Referencias[editar]

  1. Entrevista en la revista tecnológica R [1]
  2. API de Classora en el weblog oficial
  3. Web abierta de Classora Knowledge Base [2]
  4. Post sobre el API en el blog oficial de Classora [3]
  5. Métricas de Alexa para Classora[4]