Usuario:Oddworldng/Enlace de registro

Enlace de registro o Record Linkage (RL) es la tarea de buscar registros en un conjunto de datos que se refieren a la misma entidad en diferentes fuentes de datos (por ejemplo, archivos de datos, libros, sitios web y bases de datos). El enlace de registro es necesario cuando se unen conjuntos de datos basados en entidades que pueden compartir o no un identificador común (por ejemplo, clave de base de datos, URI, documento nacional de identidad), que puede deberse a diferencias en la forma del registro, ubicación de almacenamiento o estilo de curador o preferencia. Un conjunto de datos que se haya sometido a una reconciliación orientada a RL se puede denominar como cross-linked. El enlace de registros se denomina enlace de datos en muchas ocasiones, pero es el mismo proceso.

Historia[editar]

La idea inicial de Record Linkage se remonta a Halbert L. Dunn en su artículo de 1946 titulado "Record Linkage" publicado en el American Journal of Public Health. Howard Borden Newcombe colocó los fundamentos probabilísticos de la moderna teoría de ligamiento de registros en un artículo de 1959 en Science, que luego fueron formalizados en 1969 por Ivan Fellegi y Alan Sunter, quienes demostraron que la regla de decisión probabilística que describieron era óptima cuando los atributos de comparación eran condicionalmente independientes. Su trabajo pionero "A Theory for Record Linkage" sigue siendo la base matemática para muchas aplicaciones de enlace de registros, incluso hoy en día.

Desde finales de la década de 1990, se han desarrollado diversas técnicas de aprendizaje automático que, en condiciones favorables, pueden utilizarse para estimar las probabilidades condicionales requeridas por la teoría de Fellegi-Sunter (FS). Varios investigadores han informado que la suposición de independencia condicional del algoritmo FS a menudo se viola en la práctica; sin embargo, los esfuerzos publicados para modelar explícitamente las dependencias condicionales entre los atributos de comparación no han producido una mejora en la calidad de enlace de registros. Por otro lado, los algoritmos de aprendizaje automático o de redes neuronales que no se basan en estas suposiciones a menudo proporcionan una precisión mucho mayor, cuando hay suficientes datos de entrenamiento etiquetados disponibles.

Record Linkage se puede realizar completamente sin la ayuda de una computadora, pero las razones principales por las que a menudo se usan las computadoras para Record Linkage son para reducir o eliminar la revisión manual y para hacer que los resultados sean reproducibles más fácilmente. La coincidencia de computadoras tiene la ventaja de permitir la supervisión central del procesamiento, un mejor control de calidad, velocidad, consistencia y una mejor reproducibilidad de los resultados.

Convenciones de nombres[editar]

"Record Linkage" es el término utilizado por estadísticos, epidemiólogos e historiadores, entre otros, para describir el proceso de unir registros de una fuente de datos con otra que describe la misma entidad. Las aplicaciones de correo comercial y base de datos se refieren a él como "proceso de fusión / purga" o "lavado de lista". Los científicos de la computación a menudo se refieren a él como "data matching" o como "object indentity problem". Otros nombres utilizados para describir el mismo concepto incluyen: "correferencia / entidad / identidad / nombre / resolución de registro", "desambiguación / vinculación de entidades", "detección duplicada", "deduplicación", "coincidencia de registros", "reconciliación (de referencia)" , "identificación de objeto", "integración de datos / información" y "fusión". Esta profusión de terminología ha dado lugar a pocas referencias cruzadas entre estas comunidades de investigación.

Si bien comparten nombres similares, la record linkage y linked data son dos enfoques separados para el procesamiento y la estructuración de datos. Aunque ambos implican la identificación de entidades coincidentes en diferentes conjuntos de datos, el enlace de registros equivale de forma estándar "entidades" con individuos humanos; por el contrario, Linked Data se basa en la posibilidad de interconexión de cualquier recurso web a través de conjuntos de datos, utilizando un concepto de identificador correspondientemente más amplio, a saber, un URI.

Métodos[editar]

Preprocesamiento de datos[editar]

El enlace de registro es muy sensible a la calidad de los datos vinculados, por lo que todos los conjuntos de datos considerados (en particular sus campos de identificador de clave) deberían someterse idealmente a una evaluación de calidad de datos antes de realizar el enlace de registros. Muchos identificadores clave para la misma entidad se pueden presentar de forma bastante diferente entre (e incluso dentro de) conjuntos de datos, lo que puede complicar en gran medida el enlace de registros a menos que se entienda por adelantado. Por ejemplo, los identificadores clave para un hombre llamado William J. Smith podrían aparecer en tres conjuntos de datos diferentes de la siguiente manera:

Conjunto de datos	Nombre	Fecha de nacimiento	Ciudad de residencia
Conjunto de datos 1	William J. Smith	1/2/73	Berkeley, California
Conjunto de datos 2	Smith, W. J.	1973.1.2	Berkeley, CA
Conjunto de datos 3	Bill Smith	Jan 2, 1973	Berkeley, Calif.

En este ejemplo, los diferentes estilos de formato llevan a registros que se ven diferentes pero, de hecho, todos se refieren a la misma entidad con los mismos valores de identificador lógico. La mayoría, si no todas, las estrategias de vinculación de registros resultarán en enlaces más precisos si estos valores fueron primero normalizados o estandarizados en un formato consistente (por ejemplo, todos los nombres son "Apellido, Nombre de pila" y todas las fechas son "AAAA/MM/DD"). La estandarización se puede lograr a través de transformaciones de datos simples basadas en reglas o procedimientos más complejos como la tokenización basada en léxico y modelos probabilísticos ocultos de Markov. Varios de los paquetes enumerados en la sección Implementaciones de software proporcionan algunas de estas características para simplificar el proceso de estandarización de datos.

Resolución de entidad[editar]

Resolución de entidad es un proceso de inteligencia operacional , típicamente powered por un motor de resolución de la entidad o middleware, por el cual las organizaciones pueden conectar disparate fuentes de dato en orden a partidos de entidad posibles comprensivos y relaciones no obvias a través de dato múltiple silos. Analiza todo de la información que relaciona a @individual y/o entidades de fuentes múltiples de datos, y entonces aplica likelihood y la probabilidad que puntúa para determinar qué identidades son un partido y qué, si cualquiera, relaciones no obvias existen entre aquellas identidades.

Motores de resolución de la entidad son típicamente utilizados a uncover riesgo, fraude, y conflictos de interés, pero es también herramientas útiles para utilizar dentro integración de dato del cliente (CDI) y administración de dato maestro (MDM) requisitos. Los usos típicos para motores de resolución de la entidad incluyen exploración terrorista, detección de fraude del seguro, conformidad de Acto de Patriota de EE.UU., anillo de delito minorista organizado detección y exploración de solicitante.

Por ejemplo: A través de dato diferente silos @– registros de empleado, dato de vendedor, listas de reloj, etc. @– una organización puede tener varias variaciones de una entidad nombraron ABC, el cual puede o no puede ser el mismo @individual. Estas entradas pueden, de hecho, aparece tan ABC1, ABC2, o ABC3 dentro de aquellas fuentes de dato. Por comparar semejanzas entre atributos subyacentes como dirección, fecha de nacimiento, o número de seguridad social, el usuario puede eliminar algunos partidos posibles y confirmar otros tan partidos muy probables.

Motores de resolución de la entidad entonces aplican reglas, basados en lógica de sentido común, para identificar relaciones escondidas a través del dato. En el ejemplo encima, quizás ABC1 y ABC2 no es el mismo @individual, sino dos personas distintas quiénes comparten atributos comunes como dirección o número de teléfono.

Emparejamiento de datos[editar]

Si bien las soluciones de resolución de entidades incluyen tecnología de emparejamiento de datos, muchas ofertas de emparejamiento de datos no se ajustan a la definición de resolución de entidad. Aquí hay cuatro factores que distinguen la resolución de la entidad del emparejamiento de datos, según John Talburt, director del Centro de Investigación Avanzada de UALR en Resolución de Entidades y Calidad de la Información:

Funciona con registros estructurados y no estructurados, e implica el proceso de extraer referencias cuando las fuentes no están estructuradas o semiestructuradas.
Utiliza reglas de negocio elaboradas y modelos conceptuales para tratar información perdida, conflictiva y corrupta
Utiliza información de vinculación (asociada) no coincidente y afirmada, además de la coincidencia directa
Descubre redes no obvias y redes de asociación (es decir, quién está asociado con quién)

A diferencia de los productos de calidad de datos, los motores de resolución de identidad más potentes también incluyen un motor de reglas y un proceso de flujo de trabajo, que aplican la inteligencia empresarial a las identidades resueltas y sus relaciones. Estas tecnologías avanzadas toman decisiones automatizadas e impactan en los procesos comerciales en tiempo real, lo que limita la necesidad de intervención humana.

Enlace de registro determinista[editar]

El tipo más simple de enlace de registros, llamado determinista o enlace de registro basado en reglas, genera enlaces basados en el número de identificadores individuales que coinciden entre los conjuntos de datos disponibles. Se dice que dos registros coinciden mediante un procedimiento determinista de vinculación de registros si todos o algunos identificadores (por encima de un determinado umbral) son idénticos. El enlace de registro determinista es una buena opción cuando las entidades en los conjuntos de datos se identifican mediante un identificador común o cuando hay varios identificadores representativos (por ejemplo, nombre, fecha de nacimiento y sexo al identificar a una persona) cuya calidad de datos es relativamente alto.

Como ejemplo, considere dos conjuntos de datos estandarizados, Conjunto A y Conjunto B, que contienen diferentes fragmentos de información sobre pacientes en un sistema hospitalario. Los dos conjuntos de datos identifican a los pacientes que usan una variedad de identificadores: número de seguridad social (SSN), nombre, fecha de nacimiento (DOB), sexo y código postal (ZIP). Los registros en dos conjuntos de datos (identificados por la columna "#") se muestran a continuación:

Conjunto de datos	#	SSN	Nombre	DOB	Sexo	ZIP
Conjunto A	1	000956723	Smith, William	1973/01/02	Masculino	94701
	2	000956723	Smith, William	1973/01/02	Masculino	94703
	3	000005555	Jones, Robert	1942/08/14	Masculino	94701
	4	123001234	Sue, Mary	1972/11/19	Femenino	94109
Conjunto B	1	000005555	Jones, Bob	1942/08/14
Conjunto B	2		Smith, Bill	1973/01/02	Masculino	94701

La estrategia de enlace de registros determinista más simple sería elegir un único identificador que se suponga que identifica de forma única, por ejemplo SSN, y declarar que los registros que comparten el mismo valor identifican a la misma persona mientras que los registros que no comparten el mismo valor identifican a personas diferentes. En este ejemplo, el enlace determinista basada en el SSN crearía entidades basadas en A1 y A2; A3 y B1; y A4. Mientras A1, A2 y B2 parecen representar la misma entidad, B2 no se incluiría en la coincidencia porque le falta un valor para SSN.

Manejar excepciones como los identificadores faltantes implica la creación de reglas adicionales de enlace de registros. Una de esas reglas en el caso de SSN faltante podría ser comparar el nombre, fecha de nacimiento, sexo y código postal con otros registros con la esperanza de encontrar una coincidencia. En el ejemplo anterior, esta regla aún no coincidiría con A1 / A2 con B2 porque los nombres son aún ligeramente diferentes: la estandarización puso los nombres en el formato apropiado (Apellido, Nombre de pila) pero no pudo distinguir "Bill" como un apodo para " Guillermo". Ejecutar nombres a través de un algoritmo fonético como Soundex, NYSIIS o metaphone puede ayudar a resolver este tipo de problemas (aunque aún puede tropezar con cambios de apellido como resultado de un matrimonio o un divorcio), pero B2 se correspondería solo con A1 ya que el código postal en A2 es diferente. Por lo tanto, habría que crear otra regla para determinar si las diferencias en los identificadores particulares son aceptables (como el código postal) y cuáles no (como la fecha de nacimiento).

Como demuestra este ejemplo, incluso una pequeña disminución en la calidad de los datos o un pequeño aumento en la complejidad de los datos puede dar como resultado un gran aumento en el número de reglas necesarias para vincular los registros de manera adecuada. Eventualmente, estas reglas de enlaces serán demasiado numerosas e interrelacionadas para desarrollarse sin la ayuda de herramientas de software especializadas. Además, las reglas de enlaces suelen ser específicas de la naturaleza de los conjuntos de datos que están diseñados para vincular entre sí. Un estudio logró vincular el Archivo principal de defunción del Seguro Social con dos registros hospitalarios del medio oeste de los Estados Unidos utilizando SSN, nombre codificado NYSIIS, mes de nacimiento y sexo, pero estas reglas pueden no funcionar tan bien con los conjuntos de datos de otras regiones geográficas regiones o con datos recolectados en poblaciones más jóvenes. Por lo tanto, las pruebas de mantenimiento continuo de estas reglas son necesarias para garantizar que continúen funcionando de la manera esperada a medida que ingresan nuevos datos en el sistema y deben vincularse. Los datos nuevos que muestran características diferentes a las inicialmente esperadas podrían requerir una reconstrucción completa del conjunto de reglas de vinculación de registros, lo que podría ser una tarea costosa y que requiere mucho tiempo.

Enlace de registro probabilístico[editar]

El enlace de registro probabilístico, a veces llamada enlace difuso (también fusión probabilística o fusión difusa en el contexto de fusión de bases de datos), toma un enfoque diferente al problema de enlace de registros al tener en cuenta un rango más amplio de identificadores potenciales, calculando pesos para cada identificador en su capacidad estimada de identificar correctamente una coincidencia o no concordancia, y usar estos pesos para calcular la probabilidad de que dos registros dados se refieran a la misma entidad. Los pares de registros con probabilidades superiores a un determinado umbral se consideran coincidencias, mientras que los pares con probabilidades inferiores a otro umbral se consideran no coincidentes; los pares que se encuentran entre estos dos umbrales se consideran "posibles coincidencias" y se pueden tratar en consecuencia (p. ej., revisados, vinculados o no vinculados por un ser humano, según los requisitos). Mientras que el enlace de registros determinista requiere una serie de reglas potencialmente complejas para ser programadas con anticipación, los métodos de enlace de registros probabilísticos pueden ser "entrenados" para funcionar bien con mucha menos intervención humana.

Muchos algoritmos probabilísticos de enlace de registros asignan pesos de coincidencia / no coincidencia a los identificadores por medio de dos probabilidades llamadas u y m. La probabilidad u es la probabilidad de que un identificador en dos registros que no coincidan se convierta en puramente casual. Por ejemplo, la probabilidad de u para el mes de nacimiento (donde hay doce valores que están distribuidos de manera aproximadamente uniforme) es 1/12 ≈ 0.083; los identificadores con valores que no están uniformemente distribuidos tendrán diferentes probabilidades para diferentes valores (posiblemente incluyendo valores perdidos). La probabilidad m es la probabilidad de que un identificador en pares coincidentes acepte (o sea suficientemente similar, como cadenas con una distancia alta de Jaro-Winkler o una distancia baja de Levenshtein). Este valor sería 1.0 en el caso de datos perfectos, pero dado que esto rara vez (si es que alguna vez) es cierto, puede ser estimado. Esta estimación puede realizarse en base al conocimiento previo de los conjuntos de datos, identificando manualmente un gran número de pares coincidentes y no coincidentes para "entrenar" el algoritmo de vinculación de registros probabilísticos, o ejecutando iterativamente el algoritmo para obtener estimaciones más cercanas de la m probabilidad. Si se estimase un valor de 0,95 para la probabilidad m, entonces los pesos coincidentes / no coincidentes para el identificador del mes de nacimiento serían:

Resultado	Proporción de enlaces	Proporción de no-enlaces	Frecuencia	Peso
Partido	m = 0.95	u ≈ 0.083	m/u ≈ 11.4	ln(m/u)/ln(2) ≈ 3.51
No-partido	1−m = 0.05	1-u ≈ 0.917	(1-m)/(1-u) ≈ 0.0545	ln((1-m)/(1-u))/ln(2) ≈ -4.20

Los mismos cálculos serían hechos para todos otros identificadores debajo consideración para encontrar su partido/no-pesos de partido. Entonces, cada identificador de uno graba sería comparado con el identificador correspondiente de otro récord de computar el peso total del par: el peso de partido está añadido al corriendo total siempre que un par de identificadores está de acuerdo, mientras el no-peso de partido está añadido (i.e. el corriendo disminuciones totales) siempre que el par de identificadores discrepa. El peso total resultante es entonces comparado a los umbrales antedichos para determinar si el par tendría que ser enlazado, no-enlazado, o puesto aparte para consideración especial (p. ej. validación manual).^[1]

Determinando dónde para poner el partido/no-umbrales de partido es un acto de equilibrar entre obtener una sensibilidad aceptable (o recordar, la proporción de verdaderamente emparejando registros que está enlazado por el algoritmo) y valor predictivo positivo (o precisión, la proporción de registros enlazó por el algoritmo que verdaderamente hacer partido). Varios manual y automatizó los métodos son disponibles de pronosticar los umbrales mejores, y algunos paquetes de software de conexión récord han construido-en herramientas para ayudar el usuario encuentra los valores más aceptables. Porque esto puede ser un muy computacionalmente tarea exigente, particularmente para conjuntos de dato grande, una técnica sabida como bloqueador es a menudo utilizado para mejorar eficacia. Intentos bloqueadores para restringir comparaciones a justo aquellos registros para cuál o más particularmente discriminando los identificadores están de acuerdo, el cual tiene el efecto de creciente el valor predictivo positivo (precisión) a expensas de sensibilidad (recuerda). Por ejemplo, bloqueando basado en un fonéticamente coded apellido y código de CREMALLERA reducirían el número total de las comparaciones requeridas y mejoraría las posibilidades que enlazó los registros serían correctos (desde entonces dos identificadores ya están de acuerdo), pero potencialmente perdería los registros que refieren a la misma persona cuyo apellido o código de CREMALLERA era diferentes (debido a matrimonio o relocation, para caso). Bloqueando basado encima mes de nacimiento, un identificador más estable que sería esperado para cambiar sólo en el caso de error de datos, proporcionaría un beneficio más modesto en valor predictivo positivo y pérdida en sensibilidad, pero crearía sólo doce grupos distintos qué, para extremadamente conjuntos de dato grande, no puede proporcionar mucha mejora neta en velocidad de computación. Así, sistemas de conexión récord robustos a menudo utilizan pases bloqueadores múltiples para agrupar dato en varias maneras para venir arriba con grupos de registros que tendría que ser comparado a cada cual otro.

Aprendizaje de máquina[editar]

En años recientes, una variedad de la máquina que aprende las técnicas han sido utilizadas en conexión récord. Ha sido reconocido que un algoritmo clásico para conexión récord probabilista es equivalente al Naive Bayes algoritmo en el campo de aprendizaje de máquina, y adolece la misma suposición de la independencia de sus características (una suposición que es típicamente no cierto).^[2]^[3]^[4] La exactitud más alta a menudo puede ser conseguida por utilizar varias otra máquina que aprende técnicas, incluyendo un solos-capa perceptron.

Modelo matemático[editar]

En una aplicación con dos archivos, A y B, denotar las filas (registros) por $\alpha (a)$ en el fichero A y $\beta (b)$ en el fichero B. Asignar $K$ características de cada registro. El conjunto de registros que representan entidades idénticas se define por:

$M=\left\{(a,b);a=b;a\in A;b\in B\right\}$

y el complemento del conjunto $M$ , a saber, el conjunto $U$ representando diferentes entidades se define como:

$U=\{(a,b);a\neq b;a\in A,b\in B\}$ .

Un vector, $\gamma$ se define, que contiene los acuerdos codificados y desacuerdos sobre cada característica:

$\gamma \left[\alpha (a),\beta (b)\right]=\{\gamma ^{1}\left[\alpha (a),\beta (b)\right],...,\gamma ^{K}\left[\alpha (a),\beta (b)\right]\}$

donde $K$ es un subíndice de las características (sexo, edad, estado civil, etc.) en los archivos. Las probabilidades condicionales de observar un vector específico $\gamma$ dado $(a,b)\in M$ , $(a,b)\in U$ son definidos como:

$m(\gamma )=P\left\{\gamma \left[\alpha (a),\beta (b)\right]|(a,b)\in M\right\}=\sum _{(a,b)\in M}P\left\{\gamma \left[\alpha (a),\beta (b)\right]\right\}\cdot P\left[(a,b)|M\right]$

y

$u(\gamma )=P\left\{\gamma \left[\alpha (a),\beta (b)\right]|(a,b)\in U\right\}=\sum _{(a,b)\in U}P\left\{\gamma \left[\alpha (a),\beta (b)\right]\right\}\cdot P\left[(a,b)|U\right],$ respectivamente.

Aplicaciones[editar]

Administración de dato maestro[editar]

La mayoría de administración de dato Maestra (MDM) los productos utilizan un proceso de conexión récord para identificar registros de las fuentes diferentes que representan el mismo reales-entidad mundial. Esta conexión suele crear un "dorado maestro récord" conteniendo el dato limpiado, reconciliado sobre la entidad. Las técnicas utilizaron en MDM es igual en cuanto a conexión récord generalmente. MDM expande esto emparejando no sólo para crear un "registro maestro dorado" pero para inferir relaciones también. (I.e. una persona tiene un apellido/similar mismo y dirección/similar misma, esto podría implicar comparten una relación de casa).

Dato warehousing e inteligencia empresarial[editar]

La conexión récord juega una función clave en datos warehousing e inteligencia empresarial. Almacenes de dato sirven para combinar dato de muchos sistemas de fuente operacionales diferentes a uno modelo de dato lógico, los cuales entonces pueden ser posteriormente alimentados a un sistema de inteligencia empresarial para informar y analytics. Cada sistema de fuente operacional puede tener su método propio de identificar las mismas entidades utilizaron en el modelo de dato lógico, conexión tan récord entre las fuentes diferentes deviene necesaria de asegurar que la información sobre una entidad particular en un sistema de fuente puede ser seamlessly comparado con información sobre la misma entidad de otro sistema de fuente. Estandarización de dato y la conexión récord subsiguiente a menudo ocurren en el "transformar" porción del extracto, transforma, carga (ETL) proceso.

Búsqueda histórica[editar]

La conexión récord es importante a búsqueda de historia social desde entonces la mayoría de conjuntos de dato, como registros de censo y los registros parroquiales estuvieron grabados mucho tiempo antes de la invención de números de identificación Nacional. Cuándo las fuentes viejas son digitized, enlazando de conjuntos de datos es un prerequisite para estudio longitudinal. Este proceso es a menudo más allá complicado por carencia de ortografía estándar de nombres, nombres familiares que cambio según sitio de morar, cambiando de fronteras administrativas, y problemas de comprobar el dato contra otras fuentes. La conexión récord era entre los temas más prominentes en la Historia y computando campo en el @1980s, pero desde entonces ha sido @subject a menos atención en búsqueda.^{[cita requerida]}

Búsqueda y práctica médicas[editar]

La conexión récord es una herramienta importante en crear el dato requerido para examinar la salud del público y del sistema de cuidado de la salud él. Pueda soler mejorar holdings de dato, colección de dato, valoración de calidad, y la diseminación de información. Fuentes de dato pueden ser examinadas para eliminar registros duplicados, para identificar que informa debajo y casos desaparecidos (p. ej., cuentas de población del censo), para crear persona-estadística de salud orientada, y para generar registros de enfermedad y sistemas de vigilancia de la salud. Algunos registros de cáncer enlazan varias fuentes de dato (p. ej., admisiones de hospital, patología e informes clínicos, e inscripciones de muerte) para generar sus registros. La conexión récord es también utilizada para crear indicadores de salud. Por ejemplo, fetal y mortalidad de niño es un indicador general del desarrollo socioeconómico de un país, salud pública, y maternal y servicios de niño. Si registros de muerte del niño están emparejados a registros de nacimiento, es posible de utilizar variables de nacimiento, como peso de nacimiento y gestational edad, junto con dato de mortalidad, como causa de muerte, en analizar el dato. Las conexiones pueden ayudar en estudios de seguimiento de cohorts u otros grupos para determinar factores como estado vital, estado residencial, o resultados de salud. Localizando es a menudo necesitado para seguimiento de industrial cohorts, pruebas clínicas, y encuestas longitudinales para obtener la causa de muerte y/o cáncer. Un ejemplo de un exitoso y sistema de conexión récord que está mucho tiempo dejando para población-la búsqueda médica basada es el Rochester Proyecto de Epidemiología basado en Rochester, Minnesota.^[5]

Crítica de existir implementaciones de software[editar]

Costes de proyecto: costes típicamente en los centenares de miles de dólares
Tiempo: carencia de bastante tiempo para tratar dato de escala grande software limpiador
Seguridad: preocupaciones encima compartiendo información, dando un acceso de aplicación a través de sistemas, y efectos encima sistemas de legado
Scalability: Debido a la ausencia de identificadores únicos en registros, la conexión récord es computacionalmente cara y difícil a escala.
Exactitud: Cambiando dato empresarial y capturando de todas las reglas para enlazar es un ejercicio duro y extenso

Véase también[editar]

Optimización de capacidad
Contenido-almacenamiento direccionable
Dato deduplication
El delta que codifica
La entidad que enlaza
Entidad-atributo-modelo de valor
Resolución de identidad
Dato enlazado
Reconocimiento de entidad nombrada
Dato abierto
Schema Emparejando
Almacenamiento de caso solo
Desambiguación de Nombre del autor

Notas y referencias[editar]

↑ «Probabilistic record linkage and a method to calculate the positive predictive value». International Journal of Epidemiology 31 (6): 1246-1252. December 2002. PMID 12540730. doi:10.1093/ije/31.6.1246.
↑ Quass, Dallan, and Starkey, Paul. “Record Linkage for Genealogical Databases,” ACM SIGKDD ’03 Workshop on Data Cleaning, Record Linkage, and Object Consolidation, August 24–27, 2003, Washington, D.C.
↑ Langley, Pat, Wayne Iba, and Kevin Thompson. “An Analysis of Bayesian Classifiers,” In Proceedings of the 10th National Conference on Artificial Intelligence, (AAAI-92), AAAI Press/MIT Press, Cambridge, MA, pp. 223-228, 1992.
↑ Michie, D., D. Spiegelhalter, and C. Taylor. Machine Learning, Neural and Statistical Classification, Ellis Horwood, Hertfordshire, England. Book 19, 1994.
↑ «Data Resource Profile: The Rochester Epidemiology Project (REP) medical records-linkage system». Int J Epidemiol 41 (6): 1614-24. 2012. PMID 23159830. doi:10.1093/ije/dys195.

Enlaces externos[editar]

Proyecto de Conexión del dato en Penn Estado, EE.UU.
Stanford Marco de Resolución de la entidad
Dedoop - Deduplication Con Hadoop
BlockingFramework Un marco para bloqueador-Resolución de Entidad basada

[[Categoría:Gestión de datos]]

[prl-1] «Probabilistic record linkage and a method to calculate the positive predictive value». International Journal of Epidemiology 31 (6): 1246-1252. December 2002. PMID 12540730. doi:10.1093/ije/31.6.1246.

[2] Quass, Dallan, and Starkey, Paul. “Record Linkage for Genealogical Databases,” ACM SIGKDD ’03 Workshop on Data Cleaning, Record Linkage, and Object Consolidation, August 24–27, 2003, Washington, D.C.

[3] Langley, Pat, Wayne Iba, and Kevin Thompson. “An Analysis of Bayesian Classifiers,” In Proceedings of the 10th National Conference on Artificial Intelligence, (AAAI-92), AAAI Press/MIT Press, Cambridge, MA, pp. 223-228, 1992.

[4] Michie, D., D. Spiegelhalter, and C. Taylor. Machine Learning, Neural and Statistical Classification, Ellis Horwood, Hertfordshire, England. Book 19, 1994.

[data_resource_profile-5] «Data Resource Profile: The Rochester Epidemiology Project (REP) medical records-linkage system». Int J Epidemiol 41 (6): 1614-24. 2012. PMID 23159830. doi:10.1093/ije/dys195.

[1]

[2]

[3]

[4]

[5]