DACyTAr - Datos Primarios en Acceso Abierto de la Ciencia y la Tecnología Argentina
A novel distance that reduces information loss in continuous characters with few observations
Registro completo
- Título
- A novel distance that reduces information loss in continuous characters with few observations
- Autor(es)
- Lo Valvo, Gerardo A.; Lehmann, Oscar E. R.; Balseiro, Diego
- Afiliación(es) del/de los autor(es)
-
Lo Valvo, Gerardo A. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas, Físicas y Naturales; Argentina.
Lo Valvo, Gerardo A. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.
Lehmann, Oscar E. R. Consejo Nacional de Investigaciones Científicas y Técnicas. Museo Argentino de Ciencias Naturales “Bernardino Rivadavia”. Sección Paleontología de Vertebrados; Argentina.
Balseiro, Diego. Universidad Nacional de Córdoba. Facultad de Ciencias Exactas Físicas y Naturales; Argentina.
Balseiro, Diego. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro de Investigaciones en Ciencias de la Tierra; Argentina.
- Resumen
-
The calculation of pairwise distances is a fundamental step in many statistical analyses in biology and paleontology. The most commonly used distances work with a single observation per object and character, but there are scenarios where multiple observations are available per object. In these situations, the information for the character spans an interval, and pairs of objects can have overlapping intervals, which further complicates the distance calculation. Some coefficients can deal with this wealth of information but are either too coarse to provide detailed results or too computationally demanding for even moderately large data sets. Here, we present the Distance Between Intervals (DBI) as a novel semi-metric distance that can accommodate both singular and multiple observations per object by analyzing them as intervals. The DBI ranges from 0 to 1 when there is an overlap between the objects and from 1 to infinity when there is no overlap between them. It is easy to calculate and can be applied to a wide variety of data types. Both simulated and empirical test cases show that the DBI correctly ranks pairs of objects by their level of overlap and non-overlap, while other distances struggle to do it. Therefore the DBI can provide a finer level of definition than other available distances for empirical data sets, while generally agreeing with the broad results they provide. An implementation of DBI is provided for the R programming language.
En biología y paleontología, el cálculo de distancias pareadas es un paso fundamental en muchos análisis estadísticos. Los coeficientes de distancia más comunes utilizan un único valor por objeto y carácter, pero hay escenarios donde hay múltiples observaciones por objeto. En estas situaciones, la información para el carácter abarca un intervalo y los intervalos de un par de objetos pueden superponerse, complicando aún más el cálculo de la distancia. Existen coeficientes que pueden manejar una gran cantidad de información por objeto, pero por la baja resolución de sus resultados son poco detallados o bien tienen un costo computacional demasiado elevado, incluso para conjuntos de datos moderadamente grandes. Aquí presentamos la Distancia Entre Intervalos (DBI por sus siglas en inglés) como una nueva distancia semimétrica que puede trabajar con objetos con una o más observaciones al analizarlos como intervalos. La DBI varía entre 0 y 1 cuando los intervalos de los objetos se superponen y de 1 a infinito cuando no hay superposición entre ellos. El coeficiente es fácil de calcular y se puede aplicar a una amplia variedad de tipos de datos. Simulaciones computacionales y bases de datos empíricas muestran que DBI es mejor para reconocer las diferencias entre objetos según su variabilidad. Por lo tanto, la DBI puede proporcionar un mayor nivel de definición que otras distancias disponibles en sus resultados, mientras que está de acuerdo con la tendencia general de los resultados que brindan. Se proporciona una implementación de DBI para el lenguaje de programación R.
- Año de publicación
- Idioma
-
inglés
- Formato (Tipo MIME)
-
application/x-rar-compressed
application/octet-stream
text/plain
- Clasificación temática de acuerdo a la FORD
- Ciencias de la tierra y ciencias ambientales relacionadas
- Materia
- Distance coefficient; Distance matrix; Continuous characters; Intervals; Overlap; Coeficiente de distancia; Matriz de distancia; Caracteres continuos; Intervalos; Superposición;
- Condiciones de uso
- Disponible en acceso abierto
- Repositorio digital
- Repositorio Digital Universitario (UNC) - Universidad Nacional de Córdoba
Citación
Lo Valvo, Gerardo A. Lehmann, Oscar E. R. Balseiro, Diego (): A novel distance that reduces information loss in continuous characters with few observations. Universidad Nacional de Córdoba, http://hdl.handle.net/11086/546977.