<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>0250-5460</journal-id>
<journal-title><![CDATA[Revista Boliviana de Química]]></journal-title>
<abbrev-journal-title><![CDATA[Rev. Bol. Quim]]></abbrev-journal-title>
<issn>0250-5460</issn>
<publisher>
<publisher-name><![CDATA[Universidad Mayor de San Andrés]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S0250-54602015000500002</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[Analysis of subspace clustering of molecules using chameleoclust, an evolutionary algorith]]></article-title>
<article-title xml:lang="en"><![CDATA[Análisis de 'subspace clustering' de moléculas utilizando Chameleoclust, un algoritmo evolutivo]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Peignier]]></surname>
<given-names><![CDATA[Sergio]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Castañeta M]]></surname>
<given-names><![CDATA[Heriberto]]></given-names>
</name>
<xref ref-type="aff" rid="A02"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Université de Lyon Institut National des Sciences Appliquées de Lyon INSA-Lyon ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
<country>France</country>
</aff>
<aff id="A02">
<institution><![CDATA[,UMSA Instituto de Investigaciones Químicas IIQ ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>30</day>
<month>12</month>
<year>2015</year>
</pub-date>
<pub-date pub-type="epub">
<day>30</day>
<month>12</month>
<year>2015</year>
</pub-date>
<volume>32</volume>
<numero>5</numero>
<fpage>110</fpage>
<lpage>120</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.bo/scielo.php?script=sci_arttext&amp;pid=S0250-54602015000500002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.bo/scielo.php?script=sci_abstract&amp;pid=S0250-54602015000500002&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.bo/scielo.php?script=sci_pdf&amp;pid=S0250-54602015000500002&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="en"><p><![CDATA['Subspace clustering' has been successfully applied to different datasets, especially those characterized by a high dimensionality. However most of the traditional state-of-the-art 'subspace clustering' algorithms have usually many parameters that are hard to tune. Recently, it has been proposed a new evolutionary 'subspace clustering' that takes advantage of its evolvable genome structure to adapt to different datasets without any complicated parameters tuning. In this paper we apply this new technique to study 36 chemical molecules characterized by a large number of molecular descriptors in order to determine clusters with distinctive characteristics likely to be adsorbed on activated carbon BPL.]]></p></abstract>
<abstract abstract-type="short" xml:lang="es"><p><![CDATA[La técnica de minería de datos conocida como 'subspace clustering' ha sido aplicada exitosamente a diversos tipos de datos, especialmente a datos caracterizados por un gran número de dimensiones. Sin embargo muchos de los algoritmos de 'subspace clustering' clásicos poseen un gran número de parámetros y son difíciles de calibrar. Recientemente, fue propuesto un algoritmo evolutivo de 'subspace clustering', capaz de adaptar su genoma para lidiar con distintos datos sin necesidad de calibrar los parámetros. En este artículo aplicamos esta nueva técnica al estudio de 36 moléculas químicas caracterizadas por un gran número de descriptores moleculares con el fin de determinar clusters de moléculas con características peculiares, susceptibles a ser adsorbidos sobre carbón activado BPL]]></p></abstract>
<kwd-group>
<kwd lng="en"><![CDATA[Subspace clustering]]></kwd>
<kwd lng="en"><![CDATA[Evolutionary algorithms]]></kwd>
<kwd lng="en"><![CDATA[Chemical compounds]]></kwd>
<kwd lng="en"><![CDATA[Descriptors]]></kwd>
<kwd lng="en"><![CDATA[Adsorption]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align="right"><font size="2" face="Verdana"><b>ART&Iacute;CULOS ORIGINALES</b></font></p>     <p align="center">&nbsp;</p>     <p align="center"><font size="2"><b><font size="4" face="Verdana">Analysis of  subspace clustering of molecules using chameleoclust, an evolutionary algorith</font></b></font></p>     <p align="center">&nbsp;</p>     <p align="center"><font face="Verdana" size="3"><i><b>An&aacute;lisis de 'subspace clustering' de mol&eacute;culas utilizando Chameleoclust, un algoritmo evolutivo.</b></i></font></p>     <p align="center">&nbsp;</p>     <p align="center">&nbsp;</p>     <p align="center"><font face="Verdana" size="2">Sergio Peignier<sup>1,*</sup>, Heriberto Castañeta M.<sup>2    <br> </sup></font><font face="Verdana" size="2"><sup>1</sup>Institut National de Recherche en Informatique et en Automatique INRIA, LIRIS-CNRS, UMR 5205, F-69621, Institut National des Sciences Appliquées de Lyon INSA-Lyon, Université de Lyon, France</font>    <br>   <font face="Verdana" size="2"><sup>2</sup>Department of Chemistry, Instituto de Investigaciones Químicas IIQ, Universidad Mayor de San Andrés UMSA, P.O. Box 303, Calle Andrés Bello s/n, Ciudad Universitaria Cota Cota, Phone 59122795878, La Paz, Bolivia, </font><font size="2" face="Verdana"><a href="mailto:walimunata@gmail.com">walimunata@gmail.com</a></font>    ]]></body>
<body><![CDATA[<br>   <font face="Verdana" size="2">*Corresponding author:<a href="mailto:sergio.peianier@insa-lyon.fr">sergio.peianier@insa-lyon.fr</a></font></p>     <p align="justify">&nbsp;</p>     <p align="justify">&nbsp;</p> <hr>     <p align="justify"><font face="Verdana" size="2"><b>Abstract</b></font></p>     <p align="justify"><font face="Verdana" size="2">'Subspace clustering' has been successfully applied to different datasets, especially those characterized by a high dimensionality. However most of the traditional state-of-the-art 'subspace clustering' algorithms have usually many parameters that are hard to tune. Recently, it has been proposed a new evolutionary 'subspace clustering' that takes advantage of its evolvable genome structure to adapt to different datasets without any complicated parameters tuning. In this paper we apply this new technique to study 36 chemical molecules characterized by a large number of molecular descriptors in order to determine clusters with distinctive characteristics likely to be adsorbed on activated</font> <font face="Verdana" size="2">carbon BPL.<b> </b></font></p>     <p align="justify"><font face="Verdana" size="2"><b>Keywords: </b><i>Subspace clustering, Evolutionary algorithms, Chemical compounds, Descriptors, Adsorption.</i></font></p> <hr>     <p align="justify"><font face="Verdana" size="2"><b>Resumen</b></font></p>     <p align="justify"><font face="Verdana" size="2">La técnica de minería de datos conocida como 'subspace clustering' ha sido aplicada exitosamente a diversos tipos de datos, especialmente a datos caracterizados por un gran número de dimensiones. Sin embargo muchos de los algoritmos de 'subspace clustering' clásicos poseen un gran número de parámetros y son difíciles de calibrar. Recientemente, fue propuesto un algoritmo evolutivo de 'subspace clustering', capaz de adaptar su genoma para lidiar con distintos datos sin necesidad de calibrar los parámetros. En este artículo aplicamos esta nueva técnica al estudio de 36 moléculas químicas caracterizadas por un gran número de descriptores moleculares con el fin de determinar clusters de moléculas con características peculiares, susceptibles a ser adsorbidos sobre carbón activado BPL.</font></p> <hr>     <p align="justify">&nbsp;</p>     <p align="justify">&nbsp;</p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="Verdana" size="3"><b>INTRODUCCION</b></font></p>     <p align="justify"><font face="Verdana" size="2">La técnica de minería de datos conocida como ‘<sup>‘</sup>subspace clustering<sup>’</sup>’ tiene por objetivo detectar clusters es decir grupos de puntos que comparten características similares y detectar al mismo tiempo el conjunto de descriptores o sub espacio que caracteriza a cada grupo o cluster. Los autores Patrikainen and Meila [1] describen esta técnica como &laquo;similarity examined under different representations&raquo;, es decir &laquo;similitud examinada bajo diferentes representaciones&raquo;. Esta técnica está particularmente adaptada para analizar datos caracterizados por una gran cantidad de descriptores o dimensiones [2], al limitar los impactos del fenómeno llamado &laquo;maldición de la dimensión&raquo;.</font></p>     <p align="justify"><font face="Verdana" size="2">La mayor parte de los algoritmos de &quot;subspace clustering&quot; poseen una gran cantidad de parámetros y son relativamente difíciles de calibrar y de adaptar a cada conjunto de datos para ser analizados. Recientemente, fue presentado un nuevo algoritmo evolutivo de 'subspace clustering' [3]. Este algoritmo, llamado Chameleoclust, posee una estructura genética capaz de evolucionar, con el objetivo de aprovechar un fenómeno llamado &laquo;evolución de la evolución&raquo; [4]. Gracias a este fenómeno, Chameleoclust puede adaptarse a diferentes conjuntos de datos sin tener que calibrar sus diferentes parámetros y aun así es capaz de obtener resultados comparables a los mejores resultados obtenidos por algoritmos clásicos de 'subspace clustering'.</font></p>     <p align="justify"><font face="Verdana" size="2">Una de las maneras más comunes y prácticas de <i>analizar </i>y representar moléculas químicas en informática es mediante el cálculo de descriptores moleculares. Una molécula corresponde a un vector de valores, cada valor estando asociado a un descriptor característico. Esta representación permite entre otras aplicaciones, evaluar la relación entre la estructura y la actividad de dicha molécula (QSAR) [5,6]. Existen diferentes programas de cálculo de descriptores moleculares, la mayor parte de estos programas generan una gran cantidad de descriptores, lo que hace que cada objeto o molécula exista en un espacio con muchas dimensiones, tal es el caso del programa Dragon [7]. La técnica de 'subspace clustering', estando muy bien adaptada al análisis de datos con muchas dimensiones, es una excelente candidata para analizar este tipo de datos.</font></p>     <p align="justify"><font face="Verdana" size="2">El objetivo de este trabajo es mostrar la utilidad de técnicas de 'subspace clustering' y en particular de Chameleoclust, en el análisis de moléculas químicas. El resto del artículo se organiza de la siguiente manera: En la sección siguiente se describe Chameleoclust, el algoritmo de 'subspace clustering' utilizado, así como los datos analizados, el tratamiento de estos y el protocolo experimental seguido. En la sección 3, se describen los resultados obtenidos. Finalmente se concluye el trabajo resumiendo los puntos centrales del mismo.</font></p>     <p align="justify"><font face="Verdana" size="2"><i><b>Metodología</b></i></font></p>     <p align="justify"><font face="Verdana" size="2">La metodología seguida en la parte de cálculos se ha realizado de acuerdo a trabajos previos [9,10]. Todas las estructuras fueron preoptimizadas mediante el campo de fuerza molecular (MM+) seguido de cálculos semiempíricos, Parametric Method-3 (PM3) en el programa Hyperchem 6.03 [8], con un gradiente de cálculo de 0.01 kcal/Å para la optimización geométrica. Asi mismo, se calcularon varios descriptores moleculares de los tipos constitucional, topológico, geométrico, carga, GETAWAY (Geometry, Topology and Atoms-Weighted) y varios otros, utilizando el programa Dragon, generando alrededor de un millar de ellos. A los datos anteriores se añadió los descriptores químico-cuánticos como ser HOMO y LUMO calculada para cada molécula.</font></p>     <p align="justify"><font face="Verdana" size="2"><i><b>Datos utilizados</b></i></font></p>     <p align="justify"><font face="Verdana" size="2">La <a href="#t1">tabla 1</a> muestra los valores del parámetro de Dubinin Radushkevich para el cálculo de volúmenes de adsorción de 36 moléculas.</font></p>     <p align="center"><a name="t1"></a><img src="/img/revistas/rbq/v32n5/a02_figura01.gif" width="711" height="484"></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="Verdana" size="2"><i><b>Descriptores generados</b></i></font></p>     <p align="justify"><font face="Verdana" size="2">Para la generación de descriptores se ha tomado el conjunto de moléculas de entrenamiento suceptibles a ser adsorbidos sobre carbón activado BPL [ 9,10] y calculado los descriptores usando el programa Dragon [7].</font></p>     <p align="justify"><font face="Verdana" size="2"><i><b>Chameleoclust: Un algoritmo evolutivo de 'subspace clustering'</b></i></font></p>     <p align="justify"><font face="Verdana" size="2">Chameleoclust es un algoritmo evolutivo de 'subspace clustering' que incluye muchas características bio-inspiradas, tales como un genoma con longitud, organización de variables, elementos funcionales y no funcionales, así como operadores de mutación que permiten reorganizar el genoma tales como grandes duplicaciones, grandes deleciones y translocaciones. Estas características han sido inspiradas por formalismos de evolución experimental <i>in silico </i>[14, 15]. Gracias a su estructura evolutiva y flexible, Chameleoclust tiene la habilidad de generar un cantidad variable de clusters caracterizados por un número variable de dimensiones.</font></p>     <p align="justify"><font face="Verdana" size="2">El genoma G de un individuo es simplemente una lista [g1,...,gi,...,gn] de tuplas : gi = &lt;fi, ci, di, xi&gt;, el primer elemento de la tupla fi <img src="/img/revistas/rbq/v32n5/a02_figura18.gif" width="13" height="12"> {0, 1} indica si la tupla gi es funcional (fi = 1) o no (fi = 0), los otros elementos de la tupla ci <img src="/img/revistas/rbq/v32n5/a02_figura18.gif" width="13" height="12">{1, . . . , cmax }, di <img src="/img/revistas/rbq/v32n5/a02_figura18.gif" width="13" height="12"> {1,...,D}, xi <img src="/img/revistas/rbq/v32n5/a02_figura18.gif" width="13" height="12"> {j x xmax /1000 | j <img src="/img/revistas/rbq/v32n5/a02_figura18.gif" width="13" height="12"> {-1000, ... , 1000}} sirven para definir el fenotipo del individuo, es decir el modelo de 'subspace clustering' que encarna. El fenotipo de un individuo es un conjunto de puntos alrededor de los cuales se agrupan los datos analizados para formar los clusters, estos puntos son llamados core points. El número máximo de core points es igual a cmax. Un número específico c <img src="/img/revistas/rbq/v32n5/a02_figura18.gif" width="13" height="12">[1, cmax] identifica a cada core point. Cada elemento funcional &lt;1,c,d,x&gt; del genoma contribuye con un valor x a la localización del core point c en la dimensión d. Todas las contribuciones se suman para producir los core points.</font></p>     <p align="justify"><font face="Verdana" size="2">Una vez que los core points han sido producidos, se procede a agrupar los datos por ser analizados alrededor del core point mas adaptado. El algoritmo calcula la función de mismatch o desajuste <img src="/img/revistas/rbq/v32n5/a02_figura24.gif" width="7" height="10">(x,p) entre cada dato <i>x </i>y cada core point p. Esta función se calcula utilizando la medida introducida por Aggarwal et al., [15] llamada Manhattan Segmental Distance. Posteriormente, cada punto es asociado al core point que minimiza esta función. Finalmente se suman las medidas de adaptación entre cada dato y el core point al cual ha sido asociado y el valor opuesto a esta suma define la aptitud <i>(fitness) </i>del individuo o la calidad del modelo de 'subspace clustering'. Cada individuo produce un número de hijos en función de su aptitud. Mayor la aptitud mayor el número de hijos, el número de hijos es definido utilizando el método conocido como ranking exponencial. Cada hijo producido, sufre una serie de mutaciones, el número de mutaciones siendo proporcional a la longitud de su genoma. De esta manera se produce la siguiente generación de individuos. Este proceso se repite durante un determinado número de generaciones, hasta que las mejoras en los modelos producidos dejen de ser significativas.</font></p>     <p align="justify"><font face="Verdana" size="2">Diferente pruebas realizadas utilizando datos reales y sintéticos, gracias al Framework establecido por Muller et al., [16], mostraron que Chameleoclust es capaz de adaptarse a diferentes tipos de datos sin tener que modificar y optimizar sus parámetros, obteniendo resultados comparables con los mejores resultados obtenidos por algoritmos clásicos de 'subspace clustering', cuyos parámetros fueron optimizados para cada tipo de datos. Se invita al lector a referirse el articulo [3] para conocer mayores detalles sobre el funcionamiento del algoritmo.</font></p>     <p align="justify"><font face="Verdana" size="2"><i><b>Unificando los modelos</b></i></font></p>     <p align="justify"><font face="Verdana" size="2">Se realizaron <i>r = 50 </i>análisis independientes de los datos gracias a Chameleoclust, utilizando los parametros estándar y fijando el número máximo de clusters a cmax = 10. En cada uno de los análisis solo se conservó el modelo de 'subspace clustering' generado por el individuo con mayor aptitud. Posteriormente, se utilizaron el conjunto de los <i>r = 50 </i>modelos de clustering para realizar un modelo único.</font></p>     <p align="justify"><font face="Verdana" size="2">Para poder unificar los modelos, se procedió a utilizar el algoritmo de consensus clustering llamado Cluster-based Similarity Partitioning Algorithm. Primeramente, este algoritmo calcula una matriz de similitud para cada uno de los modelos de clustering generado. La matriz de similitud es una matriz binaria <i>NxN </i>donde N es el numero de moléculas químicas analizadas, el valor <i>Nij = 1 </i>si las moléculas i y j están en el mismo cluster y <i>Nij = 0 </i>en el caso contrario. Una vez que han sido calculadas las matrices de similitud para cada uno de los <i>r </i>modelos, se procede a calcular la matriz de similitud global <i>S. </i>Esta matriz se calcula sumando las <i>r </i>matrices de similitud y dividiendo el resultado entre <i>r. </i>El valor <i>Sij </i>de la matriz puede interpretarse como la fracción de modelos de clustering para la cual las moléculas i y j están el mismo cluster. Una vez obtenida esta matriz, se puede extraer de ella un modelo de clustering jerárquico, Para obtener dicho modelo unificado utilizamos el método de Ward utilizando la correlación entre 2 moléculas como distancia. Esta matriz nos permite analizar dos puntos importantes:</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font face="Verdana" size="2">En primer lugar nos permite obtener un modelo más robusto y preciso, ya que éste no fue obtenido debido a un único análisis, sino más bien debido a múltiples análisis independientes relacionados entre sí. Si dos moléculas i y j han sido puestas muchas veces en el mismo cluster a raíz de análisis independientes i.e. Sij elevado, esto significa que es muy probable que dichas moléculas están fuertemente relacionadas entre sí e inversamente, si i y j casi nunca se encuentran en el mismo cluster i.e. Sij bajo, esto significaría que es poco probable que exista una similitud entre dichas moléculas.</font></p>     <p align="justify"><font face="Verdana" size="2">En segundo lugar esta matriz nos permite caracterizar la robustez del algoritmo, si cada uno de los análisis independientes revela modelos muy diferentes entre sí, esto se caracterizaría por un modelo único muy mal estructurado y poco claro, que se caracterizaría por una distribución casi gaussiana de los votos y los valores de las casillas serian muy similares entre sí.</font></p>     <p align="justify">&nbsp;</p>     <p align="justify"><font face="Verdana" size="3"><b>RESULTADOS Y DISCUSION</b></font></p>     <p align="justify"><font face="Verdana" size="2"><i><b>Evolución de lafitness y de las estructuras genómicas y de los modelos generados</b></i></font></p>     <p align="justify"><font face="Verdana" size="2">Como se puede observar en la <a href="#f1">figura 1</a>, el promedio de la mejor aptitud (fitness) para cada uno de los análisis independientes crece, esto muestra que los individuos son capaces de generar modelos de 'subspace clustering' a partir de los datos utilizados, maximizando cada vez más, el grado de adaptación entre los core points producidos y los datos analizados. Las <a href="#f2">figuras 2</a> y <a href="#f3">3</a> nos muestran que, mientras los organismos mejoran los modelos con cada generación, la estructura de los genomas de estos individuos evoluciona de igual manera para adaptarse a los datos. Podemos observar en las <a href="#f2">figuras 2</a> y <a href="#f3">3</a> que los genomas convergen hacia una longitud de unas 250 tuplas y cerca de un 65% de tuplas funcionales. Los cambios en la estructura genómica se traducen también por un cambio en la estructura del modelo de 'subspace clustering' generado. Como podemos observar en las <a href="#f4">figuras 4</a> y <a href="#f5">5</a>, la estructura de los modelos de 'subspace clustering' generados por los individuos varia : la <a href="#f4">figura 4</a> muestra como el número de clusters generados tiende a crecer rápidamente durante las primeras generaciones y luego disminuye ligeramente y llega rápidamente a un punto más o menos estable; la <a href="#f5">figura 5</a> muestra como el número de dimensiones o de descriptores tomados en cuenta por los diferentes cluster, tiende a aumentar en promedio durante las 10000 generaciones, sin embargo este aumento es cada vez más lento. Si bien después de 10000 generaciones, las 3 curvas de las <a href="#f1">figuras 1</a>, <a href="#f2">2</a>, <a href="#f4">4</a> y <a href="#f5">5</a> siguen evolucionando y no han alcanzado un valor estable, la evolución es bastante lenta, las mejoras en términos de aptitud (fitness) y los cambios en términos de estructura genómica y de estructura de modelo de 'subspace clustering' son ligeros.</font></p>     <p align="center"><a name="f1"></a><img src="/img/revistas/rbq/v32n5/a02_figura02.gif" width="243" height="218"><a name="f2"></a><img src="/img/revistas/rbq/v32n5/a02_figura03.gif" width="234" height="218"> <a name="f3"></a><img src="/img/revistas/rbq/v32n5/a02_figura04.gif" width="235" height="216"></p>     <p align="justify"><font face="Verdana" size="2"><i><b>Matriz de similitud y modelo global</b></i></font></p>     <p align="justify"><font face="Verdana" size="2">En la <a href="#f6">figura 6</a> se puede presenciar la matriz de similitud global generada gracias a cada uno de los modelos de 'subspace clustering' generados por los 50 análisis independientes realizados con el algoritmo Chameleoclust. El color de cada casilla de la matriz está relacionado con el valor que figura en la casilla, más elevado el valor, más oscura la casilla. Cada casilla Sij de la matriz corresponde a la fracción de análisis según los cuales las moléculas i y j estaban en un mismo cluster. Por definición esta matriz será simétrica. Como se puede apreciar claramente en la figura, la distribución de los valores de la matriz no parece ser gaussiana y las casillas pueden ser bastante diferentes entre sí. Existen bastantes casillas con valores muy bajos, es decir que las moléculas asociadas a esas casillas casi nunca fueron puestas en un mismo cluster, y existen también casillas con valores muy elevados, es decir que en buena parte de los modelos generados las moléculas en cuestión fueron puestas en un mismo cluster. Esta matriz posee una</font> <font face="Verdana" size="2">estructura bastante clara y está lejos de ser una matriz generada por un proceso meramente aleatorio. Esto demuestra que el algoritmo es robusto y aunque cada análisis produzca diferentes modelos, estos se parecen entre sí y transmiten una información similar.</font></p>     <p align="center"><a name="f4"></a><img src="/img/revistas/rbq/v32n5/a02_figura05.gif" width="364" height="278"> <a name="f5"></a><img src="/img/revistas/rbq/v32n5/a02_figura06.gif" width="360" height="278"></p>     ]]></body>
<body><![CDATA[<p align="center"><img src="/img/revistas/rbq/v32n5/a02_figura07.gif" width="721" height="54"></p>     <p align="justify"><font face="Verdana" size="2">En la parte superior y en el costado izquierdo de la matriz se puede presenciar el modelo jerárquico obtenido gracias a la matriz. La raíz del árbol o dendrograma, considera la existencia de un solo grupo que contiene todas las moléculas, posteriormente el árbol se va subdividiendo en ramas, la longitud de una rama corresponde a la distancia entre el grupo del cual se desprende la rama y el grupo que lo contiene. Si la rama es corta, significa que el nuevo grupo esta muy cerca del grupo más general. En la parte inferior y en el costado derecho de la matriz se encuentra el orden de las moléculas clasificadas.</font></p>     <p align="justify"><font face="Verdana" size="2">Observando la estructura del árbol, se decidió <i>analizar </i>más detalladamente dos niveles de granularidad del modelo: el primer nivel asociado con la presencia de 3 clusters y el segundo con 5 clusters. Se decidió no focalizar a modelos con un mayor número de clusters, ya que, al no existir muchas moléculas, no tendría mucho sentido considerar muchos clusters ya que tendríamos muy pocos puntos por cluster y las observaciones no serían pertinentes.</font></p>     <p align="justify"><font face="Verdana" size="2"><i><b>Clusters y valores de adsorción</b></i></font></p>     <p align="justify"><font face="Verdana" size="2">Dada la característica de los datos, se analizó el tipo de relación existente entre los clusters encontrados y las propiedades fisicoquímicas de las moléculas analizadas, específicamente, en lo que se refiere al parámetro de Dubinin Radushkevich para el cálculo de volúmenes de adsorción de gases y vapores. Las <a href="#f7">figuras 7</a> y 8 representan los valores de dicho parámetro k para cada una de las moléculas agrupadas en clusters. Las <a href="#f9">figuras 9</a> y <a href="#f10">10</a> representan los valores de volumen adsorbido relativo de las diferentes moléculas analizadas agrupadas en clusters. Las <a href="#f7">figuras 7</a> y <a href="#f9">9</a> representan respectivamente, los valores del parámetro k de Dubinin-Radushkevich y los volúmenes relativos adsorbidos para los 3 primeros clusters del modelo global; cada uno de estos clusters contiene las moléculas definidas en la <a href="#t2">tabla 2</a>. Las <a href="#f8">figuras 8</a> y <a href="#f10">10</a> representan respectivamente, los valores del parámetro k de Dubinin-Radushkevich los volúmenes relativos adsorbidos de los primeros 5 clusters del modelo global, estos 5 clusters contienen las moléculas especificadas en la <a href="#t3">tabla 3</a>.</font></p>     <p align="center"><a name="t2"></a><img src="/img/revistas/rbq/v32n5/a02_figura08.gif" width="493" height="137"></p>     <p align="center"><a name="f6"></a><img src="/img/revistas/rbq/v32n5/a02_figura09.gif" width="714" height="713"></p>     <p align="center"><a name="t3"></a><img src="/img/revistas/rbq/v32n5/a02_figura10.gif" width="493" height="182"></p>     <p align="justify"><font face="Verdana" size="2">Como se puede observar en las <a href="#f7">figuras 7</a>, <a href="#f8">8</a>, <a href="#f9">9</a> y <a href="#f10">10</a> los clusters encontrados están fuertemente correlacionados con los volúmenes relativos adsorbidos y los parámetros k de las moléculas que contienen. En las <a href="#f9">figuras 9</a> y <a href="#f7">7</a> podemos ver que el cluster 1 tiene un parametro k más bajo y contiene moléculas con alto volumen relativo</font> <font face="Verdana" size="2">adsorbido, el cluster 2 tiene un parámetro k medio y contiene moléculas con adsorción media y el cluster 0 tiene un parámetro k más elevado y contiene moléculas más variadas y globalmente con un menor volumen relativo adsorbido. De la misma manera, los clusters representados en las <a href="#f8">figuras 8</a> y <a href="#f10">10</a> están caracterizados por niveles diferentes de adsorción, el cluster 2 agrupa la moléculas con k bajo y un volumen relativo de adsorción elevado, el cluster 4 tiene un parámetro k medio-bajo y moléculas con adsorción media-alta, el cluster 0 contiene moléculas con un volumen de adsorción relativo medio-bajo y valores de k medio-altos y el cluster 0 contiene moléculas más variadas pero con parámetros k más elevados y volúmenes de adsorción relativos menos elevados, el cluster 3 es un caso especial y contiene dos moléculas bastante diferentes de las otras: el perfluorociclobutano y el perfluorociclohexano. Para poder calcular el volumen relativo adsorvido V/Vo se procedió a considerar en la ecuación de Dubinin-Radushkevich, una temperatura de 293.15K, una presión relativa P/Po = 0.1 y los parámetros de k especificados en el <a href="#t1">tabla 1</a>.</font></p>     <p align="center"><img src="/img/revistas/rbq/v32n5/a02_figura11.gif" width="369" height="31"></p>     ]]></body>
<body><![CDATA[<p align="center"><a name="f7"></a><img src="/img/revistas/rbq/v32n5/a02_figura12.gif" width="302" height="239"><a name="f8"></a><img src="/img/revistas/rbq/v32n5/a02_figura13.gif" width="313" height="234"></p>     <p align="center"><img src="/img/revistas/rbq/v32n5/a02_figura14.gif" width="693" height="44"></p>     <p align="center"><a name="f9"></a><img src="/img/revistas/rbq/v32n5/a02_figura15.gif" width="315" height="241"><a name="f10"></a><img src="/img/revistas/rbq/v32n5/a02_figura16.gif" width="312" height="240"></p>     <p align="center"><img src="/img/revistas/rbq/v32n5/a02_figura17.gif" width="720" height="39"></p>     <p align="justify"><font face="Verdana" size="2"><i><b>Dimensiones utilizadas</b></i></font></p>     <p align="justify"><font face="Verdana" size="2">La <a href="#f11">figura 11</a> muestra el número de veces que cada dimensión (columnas) es utilizada para describir cada una de las moléculas (líneas), al tener cada cluster en promedio unas 15 dimensiones, parece claro que cada modelo explora diferentes dimensiones y aun así da un resultado similar (robustez de la matriz de similitud), esto significa que la información contenida en los descriptores es bastante redundante. Al ser este espacio bastante redundante gracias a la correlación entre diferentes descriptores, la utilización de una técnica de 'subspace clustering' resulta ser bastante</font> <font face="Verdana" size="2">útil, ya que de esta manera se gana tiempo al considerar solo algunas de estas dimensiones, que contienen la información necesaria y al no tomar en cuenta dimensiones que no son portadoras de mayor información.</font></p>     <p align="center"><a name="f11"></a><img src="/img/revistas/rbq/v32n5/a02_figura19.gif" width="674" height="323"></p>     <p align="center"><a name="f12"></a><img src="/img/revistas/rbq/v32n5/a02_figura20.gif" width="725" height="521"></p>     <p align="justify"><font face="Verdana" size="2">Analizando con mayor precisión las dimensiones que sirvieron para generar los modelos de 'subspace clustering', podemos ver que existen dimensiones que son más utilizadas que otras, lo cual nos muestra que existen algunos descriptores que permiten distinguir más claramente la estructura de los datos. Para poder detectar estas dimensiones</font> <font face="Verdana" size="2">más claramente, procedimos a calcular los <i>logaritmos de razones de momios </i>(LRMs) de cada dimensión. Los LRMs permiten comparar una distribución probabilística obtenida experimentalmente y una distribución teórica. Posteriormente, se extrae los valores de LRMs que reflejan una diferencia grande entre la distribución teórica y la distribución experimental, al no respetar estos valores la distribución teórica escogida y al ser por consiguiente portadores de información.</font></p>     <p align="justify"><font face="Verdana" size="2">Estos valores se calculan estimando en primer lugar la probabilidad de que una dimensión sea tomada en cuenta por un modelo de 'subspace clustering' para clasificar un punto, esto se calcula sumando las veces que un modelo tomó en cuenta una dimensión en particular para clasificar un punto y dividiendo este valor por la suma de todos estos valores. En segundo lugar se debe decidir con que distribución teórica se comparara la distribución experimental, nosotros escogimos una distribución uniforme, ya que según esta distribución todas las dimensiones tendrían la misma probabilidad de ser utilizadas en un modelo de 'subspace clustering'. De esta manera, las dimensiones que sobresalgan, es decir cuya probabilidad de ser utilizada sea muy diferente de la probabilidad uniforme deben ser consideradas con una atención especial. Finalmente se calcula la diferencia de los logaritmos de las dos medidas para obtener el <i>LRM.</i></font></p>     ]]></body>
<body><![CDATA[<p align="center"><a name="f13"></a><img src="/img/revistas/rbq/v32n5/a02_figura21.gif" width="708" height="384"></p>     <p align="justify"><font face="Verdana" size="2">La <a href="#f12">figura 12</a> nos muestra los valores de <i>LRMs </i>para cada una de la dimensiones. Para analizar este gráfico debemos recordar que DRAGON, el programa que calcula los descriptores, acomoda lado a lado a los descriptores que caracterizan aspectos similares, teniendo en cuenta esta información podemos observar que suelen existir zonas en las cuales todos los descriptores tienen valores de <i>LRMs </i>elevados y zonas cuyos valores son globalmente más bajos, este punto es importante, ya que pueden existir descriptores similares que puedan ser utilizados de manera indistinta pero que deban ser tomados en cuenta en el modelo. Para poder observar el fenómeno mencionado aplicamos el método de moving average, con una ventana de longitud 30 dimensiones, los resultados pueden apreciarse en la <a href="#f13">figura 13</a>. En este grafico podemos distinguir 3 regiones con LRMs más elevados (entre las dimensiones 250 y 300, cerca de la dimensión 350 y entre las dimensiones 1000 y 1050) y una región con LRMs particularmente bajos (entre las dimensiones 650 y 800). La <a href="#f14">figura 14</a> nos muestra la distribución de LRMs, podemos ver que la mayor parte de los valores tienen un valor de LRM cercano a 0, lo cual significa que no son muy diferentes de los valores que podrían ser obtenidos por un proceso aleatorio uniforme de selección de dimensiones. Sin embargo podemos ver también que existen más valores de <i>LRMs </i>que son muy bajos que valores de <i>LRMs </i>muy altos, esto significaría que hay más dimensiones que deben ser ignoradas que dimensiones que se tengan que tomar en cuenta a toda costa. La <a href="#t4">tabla 4</a> contiene las dimensiones que poseen valores de <i>LRMs </i>elevados, superiores a 1.5 para ser más específicos.</font></p>     <p align="justify">&nbsp;</p>     <p align="justify"><font face="Verdana" size="3"><b>CONCLUSIONES</b></font></p>     <p align="justify"><font face="Verdana" size="2">En este artículo se ha comprobado la utilidad de una nueva técnica evolutiva de 'subspace clustering', Chameleoclust, para el análisis de moléculas químicas según sus propiedades. Se ha podido verificar que este método es robusto y que los clusters producidos pueden ser de gran ayuda para analizar las propiedades fisicoquímicas de las moléculas en cuestión. Asimismo, se ha podido verificar la correlación encontrada entre los clusters y los valores del parámetro k de Dubinin Radushkevich, así como de los volúmenes de adsorción para las moléculas estudiadas. También se ha verificado el interés de esta técnica para encontrar las dimensiones y los descriptores que caracterizan la estructura de los datos. Un aspecto importante que se debe tomar en cuenta es que no fue necesaria una exploración paramétrica en la calibración del algoritmo de subspace clustering, ya que éste aprovecha la flexibilidad de su genoma para adaptarse a los datos a ser analizados, lo que hace que sea muy versátil y fácil de utilizar.</font></p>     <p align="center"><a name="f14"></a><img src="/img/revistas/rbq/v32n5/a02_figura22.gif" width="722" height="383"></p>     <p align="center"><a name="t4"></a><img src="/img/revistas/rbq/v32n5/a02_figura23.gif" width="410" height="226"></p>     <p align="justify">&nbsp;</p>     <p align="justify"><font face="Verdana" size="3"><b>REFERENCIAS</b></font></p>     <!-- ref --><p align="justify"><font face="Verdana" size="2">1.&nbsp; &nbsp; &nbsp;Patrikainen, A., Meila, M., Comparing 'subspace clustering's. 2006, IEEE Transactions on Knowledge and Data Engineering, pp. 902-916.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686120&pid=S0250-5460201500050000200001&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">2.&nbsp; &nbsp; &nbsp;Kriegel, H.P., Kroger, P., Zimek, A. 2009. <i>ACM Transactions on Knowledge Discovery from Data, 3(1), </i>1,1-1, 58.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686121&pid=S0250-5460201500050000200002&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">3.&nbsp; &nbsp; &nbsp;Peignier, S., Rigotti, C., Beslon, G. 'subspace clustering' using evolvable genome structure, 2015. In: Proc. of the ACM Genetic and Evolutionary Computation Conference (GECCO 2015). pp. 1-8</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686122&pid=S0250-5460201500050000200003&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">4.&nbsp; &nbsp; &nbsp;Hindré, T., Knibbe, C., Beslon, G., Schneider, D. 2012. <i>Nature Reviews Microbiology.</i></font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686123&pid=S0250-5460201500050000200004&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">5.&nbsp; &nbsp; &nbsp;Kubinyi, H. 1997, <i>Drug Discovery Today, 2, </i>457.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686124&pid=S0250-5460201500050000200005&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">6.&nbsp; &nbsp; &nbsp;Carbó-Dorca, R., Amat, L., Besalú, E., Gironés, X., Robert, D. 2000, <i>Journal of Molecular Structure: THEOCHEM, 504, </i>181.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686125&pid=S0250-5460201500050000200006&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">7.&nbsp; &nbsp; &nbsp;Dragon, Talete srl. <A href=http://www.disat.unimib.it/chm target="_blank">http://www.disat.unimib.it/chm</A>.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686126&pid=S0250-5460201500050000200007&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">8.&nbsp; &nbsp; &nbsp;Hyperchem, HyperCube. <A href=http://www.hyper.com target="_blank">http://www.hyper.com</A>.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686127&pid=S0250-5460201500050000200008&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">9.&nbsp; &nbsp; &nbsp;Castañeta, H., Duchowicz, P., Castro, E., Vicente, J.L., Fernández, M. 2007, <i>Rev. Bol. Quim., 24, </i>45.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686128&pid=S0250-5460201500050000200009&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">10.&nbsp; &nbsp; Duchowicz, P., Castañeta, H., Castro, E., Fernández, M., Vicente, J.L. 2006, <i>Atmospheric Environment, 40, </i>2929.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686129&pid=S0250-5460201500050000200010&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">11.&nbsp; &nbsp;Wood G.O. 2001, <i>Carbon, 39, </i>343.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686130&pid=S0250-5460201500050000200011&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">12.&nbsp; &nbsp; Ye X., Qi N., Ding Y., Levan M.D. 2003, <i>Carbon 41, </i>681.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686131&pid=S0250-5460201500050000200012&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">13.&nbsp; &nbsp;Bickford, E.S., Clemons, J., Escallón, M.M., Goins, K., Lu, Z., Miyawaki, J., Pan, W., Rangel-Méndez, R., Senger, B., Zhang, Y., Radovic, L.R. 2004, <i>Carbon 42, </i>1867.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686132&pid=S0250-5460201500050000200013&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">14.&nbsp; &nbsp; Knibbe, C., Coulon, A., Mazet, O., Fayard, J.M., Beslon, G. 2007, <i>MolecularBiology and Evolution, 24, </i>2344.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686133&pid=S0250-5460201500050000200014&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">15.&nbsp; &nbsp; Crombach, A., Hogeweg, P. 2007, <i>Molecular Biology and Evolution, 24, </i>1130.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686134&pid=S0250-5460201500050000200015&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">16.&nbsp; &nbsp; Aggarwal, C.C., Wolf, J.L., Yu, P.S., Procopiuc, C., Park, J.S. 1999, Fast algorithms for projected clustering. In Proc. of the 1999 ACM SIGMOD Int. Conf. on Management of Data, pages 61-72.</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686135&pid=S0250-5460201500050000200016&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><!-- ref --><p align="justify"><font face="Verdana" size="2">17.&nbsp; &nbsp; Muller, E., Gunnemann, S., Assent, I., and Seidl, T. 2009, Evaluating clustering in subspace projections of high dimensional data. In Proc. 35th Int. Conf. on Very Large Data Bases (VLDB 2009), volume 2, pages 1270-1281 .</font>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;[&#160;<a href="javascript:void(0);" onclick="javascript: window.open('/scielo.php?script=sci_nlinks&ref=686136&pid=S0250-5460201500050000200017&lng=','','width=640,height=500,resizable=yes,scrollbars=1,menubar=yes,');">Links</a>&#160;]<!-- end-ref --><p align="justify">&nbsp;</p>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Patrikainen]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Meila]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Comparing 'subspace clustering's]]></source>
<year>2006</year>
<page-range>902-916</page-range><publisher-name><![CDATA[IEEE Transactions on Knowledge and Data Engineering]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kriegel]]></surname>
<given-names><![CDATA[H.P]]></given-names>
</name>
<name>
<surname><![CDATA[Kroger]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Zimek]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
</person-group>
<source><![CDATA[ACM Transactions on Knowledge Discovery from Data]]></source>
<year></year>
<page-range>1,1-1, 58</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Peignier]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Rigotti]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Beslon]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA['subspace clustering' using evolvable genome structure]]></article-title>
<source><![CDATA[Proc. of the ACM Genetic and Evolutionary Computation Conference (GECCO 2015)]]></source>
<year></year>
<page-range>1-8</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hindré]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
<name>
<surname><![CDATA[Knibbe]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Beslon]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
<name>
<surname><![CDATA[Schneider]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Nature Reviews Microbiology]]></source>
<year>2012</year>
</nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kubinyi]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
</person-group>
<source><![CDATA[Drug Discovery Today]]></source>
<year></year>
<page-range>457</page-range></nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Carbó-Dorca]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Amat]]></surname>
<given-names><![CDATA[L]]></given-names>
</name>
<name>
<surname><![CDATA[Besalú]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Gironés]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[Robert]]></surname>
<given-names><![CDATA[D]]></given-names>
</name>
</person-group>
<source><![CDATA[Journal of Molecular Structure]]></source>
<year></year>
<numero>504</numero>
<issue>504</issue>
<page-range>181</page-range></nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Dragon]]></surname>
</name>
</person-group>
<source><![CDATA[Talete srl]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="">
<collab>Hyperchem</collab>
<source><![CDATA[HyperCube]]></source>
<year></year>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Castañeta]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Duchowicz]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Castro]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Vicente]]></surname>
<given-names><![CDATA[J.L]]></given-names>
</name>
<name>
<surname><![CDATA[Fernández]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
</person-group>
<source><![CDATA[Rev. Bol. Quim]]></source>
<year></year>
<numero>24</numero>
<issue>24</issue>
<page-range>45</page-range></nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Duchowicz]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
<name>
<surname><![CDATA[Castañeta]]></surname>
<given-names><![CDATA[H]]></given-names>
</name>
<name>
<surname><![CDATA[Castro]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Fernández]]></surname>
<given-names><![CDATA[M]]></given-names>
</name>
<name>
<surname><![CDATA[Vicente]]></surname>
<given-names><![CDATA[J.L]]></given-names>
</name>
</person-group>
<source><![CDATA[Atmospheric Environment]]></source>
<year></year>
<numero>40</numero>
<issue>40</issue>
<page-range>2929</page-range></nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wood]]></surname>
<given-names><![CDATA[G.O]]></given-names>
</name>
</person-group>
<source><![CDATA[Carbon]]></source>
<year></year>
<page-range>39</page-range><page-range>343</page-range></nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ye]]></surname>
<given-names><![CDATA[X]]></given-names>
</name>
<name>
<surname><![CDATA[Qi]]></surname>
<given-names><![CDATA[N]]></given-names>
</name>
<name>
<surname><![CDATA[Ding]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Levan]]></surname>
<given-names><![CDATA[M.D]]></given-names>
</name>
</person-group>
<source><![CDATA[Carbon]]></source>
<year></year>
<numero>41</numero>
<issue>41</issue>
<page-range>681</page-range></nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Bickford]]></surname>
<given-names><![CDATA[E.S]]></given-names>
</name>
<name>
<surname><![CDATA[Clemons]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Escallón]]></surname>
<given-names><![CDATA[M.M]]></given-names>
</name>
<name>
<surname><![CDATA[Goins]]></surname>
<given-names><![CDATA[K]]></given-names>
</name>
<name>
<surname><![CDATA[Lu]]></surname>
<given-names><![CDATA[Z]]></given-names>
</name>
<name>
<surname><![CDATA[Miyawaki]]></surname>
<given-names><![CDATA[J]]></given-names>
</name>
<name>
<surname><![CDATA[Pan]]></surname>
<given-names><![CDATA[W]]></given-names>
</name>
<name>
<surname><![CDATA[Rangel-Méndez]]></surname>
<given-names><![CDATA[R]]></given-names>
</name>
<name>
<surname><![CDATA[Senger]]></surname>
<given-names><![CDATA[B]]></given-names>
</name>
<name>
<surname><![CDATA[Zhang]]></surname>
<given-names><![CDATA[Y]]></given-names>
</name>
<name>
<surname><![CDATA[Radovic]]></surname>
<given-names><![CDATA[L.R]]></given-names>
</name>
</person-group>
<source><![CDATA[Carbon]]></source>
<year></year>
<numero>42</numero>
<issue>42</issue>
<page-range>1867</page-range></nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Knibbe]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Coulon]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Mazet]]></surname>
<given-names><![CDATA[O]]></given-names>
</name>
<name>
<surname><![CDATA[Fayard]]></surname>
<given-names><![CDATA[J.M]]></given-names>
</name>
<name>
<surname><![CDATA[Beslon]]></surname>
<given-names><![CDATA[G]]></given-names>
</name>
</person-group>
<source><![CDATA[MolecularBiology and Evolution]]></source>
<year></year>
<numero>24</numero>
<issue>24</issue>
<page-range>2344</page-range></nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Crombach]]></surname>
<given-names><![CDATA[A]]></given-names>
</name>
<name>
<surname><![CDATA[Hogeweg]]></surname>
<given-names><![CDATA[P]]></given-names>
</name>
</person-group>
<source><![CDATA[Molecular Biology and Evolution]]></source>
<year></year>
<numero>24</numero>
<issue>24</issue>
<page-range>1130</page-range></nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Aggarwal]]></surname>
<given-names><![CDATA[C.C]]></given-names>
</name>
<name>
<surname><![CDATA[Wolf]]></surname>
<given-names><![CDATA[J.L]]></given-names>
</name>
<name>
<surname><![CDATA[Yu]]></surname>
<given-names><![CDATA[P.S]]></given-names>
</name>
<name>
<surname><![CDATA[Procopiuc]]></surname>
<given-names><![CDATA[C]]></given-names>
</name>
<name>
<surname><![CDATA[Park]]></surname>
<given-names><![CDATA[J.S]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Fast algorithms for projected clustering]]></article-title>
<source><![CDATA[Proc. of the 1999 ACM SIGMOD Int. Conf. on Management of Data]]></source>
<year></year>
<page-range>61-72</page-range></nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Muller]]></surname>
<given-names><![CDATA[E]]></given-names>
</name>
<name>
<surname><![CDATA[Gunnemann]]></surname>
<given-names><![CDATA[S]]></given-names>
</name>
<name>
<surname><![CDATA[Assent]]></surname>
<given-names><![CDATA[I]]></given-names>
</name>
<name>
<surname><![CDATA[Seidl]]></surname>
<given-names><![CDATA[T]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Evaluating clustering in subspace projections of high dimensional data]]></article-title>
<source><![CDATA[Proc. 35th Int. Conf. on Very Large Data Bases (VLDB 2009)]]></source>
<year></year>
<page-range>1270-1281</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
