DACyTAr - Datos Primarios en Acceso Abierto de la Ciencia y la Tecnología Argentina

Datasets used in the benchmarking exercise by SOMOC and iRAPCA

Compartir en
redes sociales


Registro completo

Título
Datasets used in the benchmarking exercise by SOMOC and iRAPCA
Autor(es)
Afiliación(es) del/de los autor(es)
Alberca, Lucas Nicolás. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Ciencas Exactas. Laboratorio de Investigación y Desarrollo de Bioactivos; Argentina
Bellera, Carolina Leticia. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Ciencas Exactas. Laboratorio de Investigación y Desarrollo de Bioactivos; Argentina
Prada Gori, Denis Nihuel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Ciencas Exactas. Laboratorio de Investigación y Desarrollo de Bioactivos; Argentina
Llanos, Manuel. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Ciencas Exactas. Laboratorio de Investigación y Desarrollo de Bioactivos; Argentina
Talevi, Alan. Consejo Nacional de Investigaciones Científicas y Técnicas. Centro Científico Tecnológico Conicet - La Plata; Argentina. Universidad Nacional de La Plata. Facultad de Ciencas Exactas. Laboratorio de Investigación y Desarrollo de Bioactivos; Argentina
Resumen
Two open-source in-house methodologies for clustering of small molecules are presented: iterative Random subspace Principal Component Analysis clustering (iRaPCA), an iterative approach based on feature bagging, dimensionality reduction, and K-means optimization; and Silhouette Optimized Molecular Clustering (SOMoC), which combines molecular fingerprints with the Uniform Manifold Approximation and Projection (UMAP) and Gaussian Mixture Model algorithm (GMM). In a benchmarking exercise, the performance of both clustering methods has been examined across 29 datasets containing between 100 and 5000 small molecules, comparing these results with those given by two other well-known clustering methods, Ward and Butina. iRaPCA and SOMoC consistently showed the best performance across these 29 datasets, both in terms of within-cluster and between-cluster distances.
Año de publicación
Idioma
inglés
Formato (Tipo MIME)
application/zip
Clasificación temática de acuerdo a la FORD
Ciencias químicas
Condiciones de uso
Disponible en acceso abierto bajo licencia Creative Commons https://creativecommons.org/licenses/by-nc-sa/2.5/ar/
Repositorio digital
CONICET Digital (CONICET) - Consejo Nacional de Investigaciones Científicas y Técnicas
Identificador de proyecto
Ministerio de Ciencia, Tecnología e Innovación Productiva. Agencia Nacional de Promoción Científica y Tecnológica. Fondo para la Investigación Científica y Tecnológica/PICT-CATI-2021-00073

Citación

Alberca, Lucas Nicolás Bellera, Carolina Leticia Prada Gori, Denis Nihuel Llanos, Manuel Talevi, Alan (): Datasets used in the benchmarking exercise by SOMOC and iRAPCA. Consejo Nacional de Investigaciones Científicas y Técnicas, http://hdl.handle.net/11336/243803.

Exportar cita