<?xml version="1.0" encoding="ISO-8859-1"?><article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance">
<front>
<journal-meta>
<journal-id>2518-4431</journal-id>
<journal-title><![CDATA[Investigación & Desarrollo]]></journal-title>
<abbrev-journal-title><![CDATA[Inv. y Des.]]></abbrev-journal-title>
<issn>2518-4431</issn>
<publisher>
<publisher-name><![CDATA[UNIVERSIDAD PRIVADA BOLIVIANA]]></publisher-name>
</publisher>
</journal-meta>
<article-meta>
<article-id>S2518-44312020000200003</article-id>
<title-group>
<article-title xml:lang="es"><![CDATA[TÉCNICAS ROBUSTAS Y NO ROBUSTAS PARA IDENTIFICAR OUTLIERS EN EL ANÁLISIS DE REGRESIÓN]]></article-title>
<article-title xml:lang="en"><![CDATA[ROBUST AND NONROBUST TECHNIQUES FOR IDENTIFYING OUTLIERS IN REGRESION ANALYSIS]]></article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Ugarte Ontiveros]]></surname>
<given-names><![CDATA[Darwin]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
<contrib contrib-type="author">
<name>
<surname><![CDATA[Aparicio de Guzman]]></surname>
<given-names><![CDATA[Ruth Marcela]]></given-names>
</name>
<xref ref-type="aff" rid="A01"/>
</contrib>
</contrib-group>
<aff id="A01">
<institution><![CDATA[,Universidad Privada Boliviana Centro de Investigaciones Económicas y Empresariales ]]></institution>
<addr-line><![CDATA[ ]]></addr-line>
</aff>
<pub-date pub-type="pub">
<day>00</day>
<month>00</month>
<year>2020</year>
</pub-date>
<pub-date pub-type="epub">
<day>00</day>
<month>00</month>
<year>2020</year>
</pub-date>
<volume>20</volume>
<numero>2</numero>
<fpage>41</fpage>
<lpage>56</lpage>
<copyright-statement/>
<copyright-year/>
<self-uri xlink:href="http://www.scielo.org.bo/scielo.php?script=sci_arttext&amp;pid=S2518-44312020000200003&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.bo/scielo.php?script=sci_abstract&amp;pid=S2518-44312020000200003&amp;lng=en&amp;nrm=iso"></self-uri><self-uri xlink:href="http://www.scielo.org.bo/scielo.php?script=sci_pdf&amp;pid=S2518-44312020000200003&amp;lng=en&amp;nrm=iso"></self-uri><abstract abstract-type="short" xml:lang="es"><p><![CDATA[Verificar si los resultados de un modelo de regresión reflejan el patrón de los datos, o si los mismos se deben a unas cuantas observaciones atípicas (outliers) es un paso importante en el proceso de investigación empírica. Para este propósito resulta aún común apoyarse en procedimientos (estándares) que no son eficaces para este propósito, al sufrir del denominado &#8220;masking effect&#8221;, algunos de ellos sugeridos incluso en los libros tradicionales de econometría. El presente trabajo pretende alertar a la comunidad académica sobre el peligro de implementar estas técnicas estándares, mostrando el pésimo desempeño de las mismas. Asimismo, se sugiere aplicar otras técnicas más idóneas sugeridas en la literatura sobre &#8220;estadística robusta&#8221; para identificar outliers en el análisis multivariado. Para facilitar la aplicación de las mismas, el trabajo pone a disposición de la comunidad académica un programa en Stata del tipo do-file para identificar y categorizar outliers basado en el trabajo de [1]. Simulaciones de Monte Carlo dan evidencia de la aplicabilidad de la misma.]]></p></abstract>
<abstract abstract-type="short" xml:lang="en"><p><![CDATA[Checking whether the results of a regression model describe properly the data, or whether they are influenced by few outliers is an important step in the empirical research process. For this purpose, it is still common to rely on procedures which are not effective, as they suffer from the so-called &#8220;masking effect&#8221;, some of them even suggested in traditional econometrics books. This work aims to warn about the danger of implementing these standard techniques, as they have poor performance. Likewise, we suggest applying more suitable techniques suggested in the literature on "robust statistics" to identify outliers in multivariate analysis. To facilitate their application, we present a Stata program (do-file type) to identify and categorize outliers based on the work of [1]. Monte Carlo simulations provide evidence of its applicability.]]></p></abstract>
<kwd-group>
<kwd lng="es"><![CDATA[Outliers]]></kwd>
<kwd lng="es"><![CDATA[Estadística Robusta]]></kwd>
<kwd lng="es"><![CDATA[Análisis de Regresión]]></kwd>
<kwd lng="es"><![CDATA[Stata]]></kwd>
<kwd lng="en"><![CDATA[Outliers]]></kwd>
<kwd lng="en"><![CDATA[Robust Regression]]></kwd>
<kwd lng="en"><![CDATA[Regression Analysis]]></kwd>
<kwd lng="en"><![CDATA[Stata]]></kwd>
</kwd-group>
</article-meta>
</front><body><![CDATA[ <p align=left><font color="#800000" size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>DOI:</b> 10.23881/idupbo.020.2-3e</font></p>     <p align=right><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>ART&Iacute;CULOS - ECONOM&Iacute;A, EMPRESA Y SOCIEDAD</b></font></p>     <p align=right>&nbsp;</p>     <p align=center><font size="4" face="Verdana, Arial, Helvetica, sans-serif"><b>T&Eacute;CNICAS   ROBUSTAS Y NO ROBUSTAS PARA IDENTIFICAR OUTLIERS EN EL AN&Aacute;LISIS DE REGRESI&Oacute;N</b></font></p>     <p align=center>&nbsp;</p>     <p align=center><b><font size="3" face="Verdana, Arial, Helvetica, sans-serif">ROBUST   AND NONROBUST TECHNIQUES FOR IDENTIFYING OUTLIERS IN REGRESION ANALYSIS</font></b></p>     <p align=center>&nbsp;</p>     <p align=center>&nbsp;</p>     <p align=center><b><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Darwin Ugarte Ontiveros y Ruth Marcela   Aparicio de Guzman<sup>1</sup></font></b></p>     <p align=center><b><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><i></i></font></b><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><i>Centro de Investigaciones Econ&oacute;micas y   Empresariales</i></font>    ]]></body>
<body><![CDATA[<br>   <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><sup>1</sup><i>Universidad   Privada Boliviana</i></font>    <br>   <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a href="mailto:darwinugarte@upb.edu">darwinugarte@upb.edu</a></font></p>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">(Recibido el 28 de noviembre 2019, aceptado para   publicaci&oacute;n el 02 de octubre 2020) </font></p>     <p align="center">&nbsp;</p>     <p align="center">&nbsp;</p> <hr align="center" noshade>     <p align="left"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>RESUMEN</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Verificar si los resultados de un modelo de   regresi&oacute;n reflejan el patr&oacute;n de los datos, o si los mismos se deben a unas   cuantas observaciones at&iacute;picas (outliers) es un paso importante en el proceso   de investigaci&oacute;n emp&iacute;rica. Para este prop&oacute;sito resulta a&uacute;n com&uacute;n apoyarse en   procedimientos (est&aacute;ndares) que no son eficaces para este prop&oacute;sito, al sufrir   del denominado &ldquo;masking effect&rdquo;, algunos de ellos sugeridos incluso en los   libros tradicionales de econometr&iacute;a. El presente trabajo pretende alertar a la   comunidad acad&eacute;mica sobre el peligro de implementar estas t&eacute;cnicas est&aacute;ndares, mostrando   el p&eacute;simo desempe&ntilde;o de las mismas. Asimismo, se sugiere aplicar otras t&eacute;cnicas   m&aacute;s id&oacute;neas sugeridas en la literatura sobre &ldquo;estad&iacute;stica robusta&rdquo; para   identificar outliers en el an&aacute;lisis multivariado. Para facilitar la aplicaci&oacute;n   de las mismas, el trabajo pone a disposici&oacute;n de la comunidad acad&eacute;mica un   programa en Stata del tipo do-file para identificar y categorizar outliers basado   en el trabajo de [1]. Simulaciones de   Monte Carlo dan evidencia de la aplicabilidad de la misma.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Palabras   Clave:</b> Outliers, Estad&iacute;stica Robusta, An&aacute;lisis de Regresi&oacute;n, Stata.</font></p> <hr align="JUSTIFY" noshade> <font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>ABSTRACT</b></font>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Checking whether the results of a   regression model describe properly the data, or whether they are influenced by   few outliers is an important step in the empirical research process. For this   purpose, it is still common to rely on procedures which are not effective, as   they suffer from the so-called &ldquo;masking effect&rdquo;, some of them even suggested in   traditional econometrics books. This work aims to warn about the danger of   implementing these standard techniques, as they have poor performance.   Likewise, we suggest applying more suitable techniques suggested in the   literature on &quot;robust statistics&quot; to identify outliers in   multivariate analysis. To facilitate their application, we present a Stata   program (do-file type) to identify and categorize outliers based on the work of [1]. Monte Carlo simulations provide   evidence of its applicability. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>Keywords:</b> Outliers, Robust Regression, Regression Analysis, Stata.</font></p> <hr align="JUSTIFY" noshade>     ]]></body>
<body><![CDATA[<p align="justify">&nbsp;</p>     <p align="justify">&nbsp;</p>     <p align="justify"><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>I.   INTRODUCCI&Oacute;N</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El principal objetivo de la econometr&iacute;a es   confrontar la teor&iacute;a econ&oacute;mica con la realidad. Para ello los economistas   estiman modelos estad&iacute;sticos de regresi&oacute;n con el af&aacute;n de cuantificar el nivel   de relaci&oacute;n entre las variables. El objetivo de este an&aacute;lisis es identificar   c&oacute;mo una variable dependiente (<i>Y<sub>nx1</sub></i>) se encuentra relacionada   con un conjunto (<i>p</i>) de variables explicativas (<i>X<sub>nx</sub></i><sub>p</sub>),   estimando el siguiente modelo <i>Y</i>=<i>X&beta;+&epsilon;</i> donde <i>&epsilon;<sub>nx1</sub></i> es el vector que contiene el t&eacute;rmino de error y <i>&beta;<sub>px1</sub></i> es el   vector que contiene los par&aacute;metros de inter&eacute;s a ser estimados.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Uno de los problemas del an&aacute;lisis de regresi&oacute;n es su   excesiva vulnerabilidad a observaciones con valores extremos diferentes a la   mayor&iacute;a de los datos, los llamados outliers. En la pr&aacute;ctica unos pocos outliers   f&aacute;cilmente pueden distorsionar las estimaciones de una regresi&oacute;n, obteni&eacute;ndose   par&aacute;metros que no reflejen la verdadera relaci&oacute;n entre las variables. Una   ilustraci&oacute;n de este fen&oacute;meno se visualiza en la <a href="#f1">Figura 1</a>, para el caso de un   regresor: siendo la relaci&oacute;n entre las variables negativa, unos cuantos   outliers pueden distorsionar la estimaci&oacute;n y puede concluirse err&oacute;neamente que   la relaci&oacute;n es positiva.</font></p>     <p align="center"><a name="f1"></a><img src="/img/revistas/riyd/v20n2/a03_figura_01.gif" width="381" height="304"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Esta fragilidad   en la estimaci&oacute;n de <i>&beta;</i> es independiente del m&eacute;todo de estimaci&oacute;n que se utilice:   (i) si se minimiza la suma del cuadrado de los residuos (<i>r<sub>nx1</sub></i>),   M&iacute;nimos Cuadrados Ordinarios (<i>MCO</i>), es decir, <img src="/img/revistas/riyd/v20n2/a03_ecuacion_00_1.gif" width="114" height="26" align="absmiddle">, donde, <img src="/img/revistas/riyd/v20n2/a03_ecuacion_00_2.gif" width="68" height="16" align="absmiddle">, entonces una sola observaci&oacute;n   outlier producir&aacute; un residuo al cuadrado con valor extremo que   sobredimensionar&aacute; la medida de error agregado a minimizarse; (ii) De igual   manera, si se estimar&iacute;a por M&aacute;xima Verosimilitud (<i>MV</i>), al buscar los   par&aacute;metros que con mayor probabilidad han sido generados por los datos, en   presencia de outliers, va a maximizarse una funci&oacute;n de probabilidad conjunta   distorsionada y adem&aacute;s con una distribuci&oacute;n no-Normal; se debe recordar que la   funci&oacute;n de probabilidad conjunta es la suma, en logaritmos, de las   probabilidades de realizaci&oacute;n de cada residuo; (iii) por otro lado, el M&eacute;todo   de Momentos (<i>MGM</i>) al estimar los par&aacute;metros que cumplan con las   condiciones de momentos de la muestra, en presencia de outliers, va a minimizar   funciones objetivo basadas en momentos muestrales distorsionados por los   outliers.</font></p>     <p align=justify><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Identificar   outliers en el an&aacute;lisis multivariado no es f&aacute;cil, el an&aacute;lisis en m&aacute;s de dos   dimensiones plantea desaf&iacute;os que no ocurren con datos univariados. Los puntos   que se considerar&iacute;an valores at&iacute;picos en un espacio bivariado podr&iacute;an no ser   at&iacute;picos en ninguno de los dos subconjuntos univariados. Los puntos que podr&iacute;an   considerarse como valores at&iacute;picos en un espacio bivariado pueden no ser   at&iacute;picos en el espacio multivariado (un outlier en dos dimensiones puede ser   absorbido por un tercer regresor). De igual manera, los valores extremos en   todas las dimensiones no necesariamente sesgan la regresi&oacute;n (los puntos de   apalancamiento buenos o good leverage points).</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para evitar   estos problemas en la estimaci&oacute;n de las relaciones, en textos de econometr&iacute;a es   com&uacute;n encontrar sugerencias para identificar el nivel de influencia de cada   observaci&oacute;n en el an&aacute;lisis de regresi&oacute;n, utilizando herramientas como <i>la     diagonal de la matriz de predicciones (el apalancamiento o leverage), los     residuos estudentizados, las distancias de Cook,</i> etc. As&iacute;, las   observaciones podr&iacute;an ser categorizadas como outliers o no de acuerdo con   criterios establecidos por estas medidas. Sin embargo, existe una rama de la literatura   en estad&iacute;stica, denominada &ldquo;estad&iacute;stica robusta&rdquo; que cuestiona la aplicabilidad   de estas t&eacute;cnicas para identificar outliers debido a que sufren del problema   denominado <i>masking effect</i>. Siguiendo a [1], y a [2], este fen&oacute;meno resalta el hecho de que   la medida para identificar outliers se encuentra distorsionada por la   existencia de estos outliers, y por tanto o no podr&aacute; identificar cabalmente a   los mismos. Asimismo, esta literatura propone una serie de m&eacute;todos denominados   &ldquo;robustos&rdquo; que no sufren de estos problemas</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para comprender   la magnitud de la deficiencia en la literatura econ&oacute;mica en lo que al   tratamiento de valores extremos se refiere, n&oacute;tese que [3], [4] sugiere un test   para identificar outliers multivariados basado en lo que denominaremos   &ldquo;t&eacute;cnicas no robustas&rdquo;. El reporte de Google Scholar sugiere que este test ha   sido aplicado en 1596 trabajos emp&iacute;ricos hasta la fecha (seg&uacute;n reporte de   citaci&oacute;n). Asimismo, consid&eacute;rese que en la literatura de trabajos emp&iacute;ricos en   econom&iacute;a, resulta com&uacute;n la ausencia de alg&uacute;n tipo de diagn&oacute;stico sobre la robustez   de sus resultados a valores extremos en la muestra.&nbsp;&nbsp; </font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El presente   trabajo tiene como objeto: (i) Realizar una revisi&oacute;n te&oacute;rica de las   caracter&iacute;sticas de los m&eacute;todos tradicionales y los m&eacute;todos robustos para   evaluar cuan eficientes o deficientes son en la tarea de identificaci&oacute;n de   valores at&iacute;picos en la muestra. (ii) Demostrar, mediante simulaciones que las   medidas tradicionales para identificar outliers no son &uacute;tiles al sufrir del   denominado &ldquo;masking effect&rdquo;, es decir son t&eacute;cnicas no robustas. (iii) Proponer   unos c&oacute;digos en Stata (do-file) para identificar y categorizar outliers   eficazmente basado en m&eacute;todos sugeridos en la literatura de estad&iacute;stica   robusta. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El   documento se encuentra estructurado de la siguiente manera: en la siguiente   secci&oacute;n se describen los m&eacute;todos tradicionales sugeridos, as&iacute; como otros   m&eacute;todos m&aacute;s robustos y se realiza un an&aacute;lisis de las caracter&iacute;sticas de cada   uno para evaluar su eficacia para la detecci&oacute;n de outliers. La tercera secci&oacute;n   propone unos c&oacute;digos en Stata para identificar y categorizar los outliers de   acuerdo con el esquema sugerido por [1]. La cuarta secci&oacute;n presenta evidencia   basada en simulaciones de Monte Carlo sobre el desempe&ntilde;o de todas las t&eacute;cnicas   mencionadas. En la quinta secci&oacute;n se concluye.</font></p>     <p align="justify">&nbsp;</p>     <p align="justify"><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>2. M&Eacute;TODOS   ROBUSTOS Y NO ROBUSTOS PARA IDENTIFICAR OUTLIERS</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Siguiendo   a [5], los outliers, o   valores extremos se clasifican en &quot;valores extremos verticales&rdquo;,   &quot;valores extremos de influencia buenos&rdquo; (good leverage points) y   &quot;valores extremos de influencia malos&quot; (bad leverage points).</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como   se observa en la <a href="#f2">Figura 2</a>, si se toma en cuenta observaciones en dos   dimensiones (<i>X</i>,<i>Y</i>), los valores   extremos verticales son aquellos donde los valores de <i>Y</i> est&aacute;n lejos de   la mayor parte de los datos en la dimensi&oacute;n-<i>Y</i>, es decir, son valores   at&iacute;picos en la variable dependiente, pero, los valores de X tienen el mismo   comportamiento de las observaciones de la muestra en la dimensi&oacute;n-<i>X</i>.   Este tipo de observaciones afectan el valor del intercepto.</font></p>     <p align="center"><a name="f2"></a><img src="/img/revistas/riyd/v20n2/a03_figura_02.gif" width="432" height="353"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los puntos de influencia buenos (good leverage points) son   observaciones cuyos valores de X est&aacute;n lejos de la mayor parte de los datos en   la dimensi&oacute;n-<i>X</i>, se trata de valores at&iacute;picos en los regresores, pero que   se encuentran cercanos a la l&iacute;nea de regresi&oacute;n. Estas observaciones no afectan   a los estimadores, pero pueden afectar a la inferencia e inducir al f&aacute;cil rechazo   de la hip&oacute;tesis nula de no significancia del coeficiente estimado [9].</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los puntos de influencia malos   comprenden observaciones que tienen dos caracter&iacute;sticas: los valores de <i>X</i> se encuentran lejos de la mayor parte de los datos en la dimensi&oacute;n-<i>X</i> y   las observaciones se encuentran lejos de la l&iacute;nea de regresi&oacute;n. Estos puntos de   influencia malos afectan tanto al intercepto como a la pendiente.</font></p>     <p align=justify><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Identificar   outliers en el an&aacute;lisis multivariado no es f&aacute;cil, el an&aacute;lisis en m&aacute;s de dos   dimensiones plantea desaf&iacute;os que no ocurren con datos univariados. Los puntos   que se considerar&iacute;an valores at&iacute;picos en un espacio bivariado pueden no ser   at&iacute;picos en ninguno de los dos subconjuntos univariados. Los puntos que podr&iacute;an   considerarse como valores at&iacute;picos en un espacio bivariado pueden no ser   at&iacute;picos en el espacio multivariado (un outlier en dos dimensiones puede ser   absorbido por un tercer regresor). Los valores extremos en todas las   dimensiones no necesariamente sesgan la regresi&oacute;n, este tipo de outliers, como dijimos, son los puntos de apalancamiento buenos (good leverage points).</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Por ello, al   emprenderse un an&aacute;lisis multivariado, es necesario apoyarse en t&eacute;cnicas   espec&iacute;ficas enfocadas a identificar valores extremos de manera multivariada. En   la <a href="#t1">Tabla 1</a> se presenta un resumen de las t&eacute;cnicas que se sugieren para este   prop&oacute;sito en los principales textos de econometr&iacute;a.</font></p>     <p align="center"><a name="t1"></a><img src="/img/revistas/riyd/v20n2/a03_tabla_01.gif" width="699" height="650"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como se demostrar&aacute; en la siguiente secci&oacute;n, y acorde   con la literatura en estad&iacute;stica robusta, estas t&eacute;cnicas pueden caracterizarse   por poseer bajo punto de quiebre (low breakdown point)<a href="#_ftn1" name="_ftnref1" title=""><sup>[1]</sup></a>, es   decir son t&eacute;cnicas no resistentes a los outliers, t&eacute;cnicas no robustas [6].</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El motivo de la &ldquo;no robustez&rdquo; de estas t&eacute;cnicas es   que sufren del denominado &ldquo;<i>masking effect</i>&rdquo; [1]. Estos fen&oacute;menos resaltan el hecho de   que la medida para identificar outliers se encuentra distorsionada por la   existencia de estos outliers, y por tanto o no podr&aacute; identificar cabalmente a   los mismos (masking effect) o terminar&aacute; identificando como outliers   observaciones que en realidad no lo son (swamping effect).</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para comprender la magnitud de la deficiencia en la   literatura econ&oacute;mica en lo que al tratamiento de valores extremos se refiere,   n&oacute;tese que [3], [4] sugieren un   test para identificar outliers multivariados basado en lo que denominaremos   &ldquo;t&eacute;cnicas no robustas&rdquo;. El reporte de Google Scholar sugiere que este test ha   sido aplicado en 1596 trabajos emp&iacute;ricos hasta la fecha (seg&uacute;n reporte de   citaci&oacute;n). Asimismo, consid&eacute;rese que en la literatura de trabajos emp&iacute;ricos en   econom&iacute;a, resulta com&uacute;n la ausencia de alg&uacute;n tipo de diagn&oacute;stico sobre la   robustez de sus resultados a valores extremos en la muestra.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>2.1 Medidas de robustez</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Son dos las medidas que se utilizan en estad&iacute;stica   para caracterizar su &ldquo;resistencia a los outliers&rdquo;</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">(i) La Funci&oacute;n de Influencia (FI)</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Siguiendo a ([19]), consiste esencialmente en la   primera derivada de un estad&iacute;stico (un estimador) considerado como funcional de   algunas distribuciones de probabilidad, que permite utilizar aproximaciones de   Taylor, para analizar el comportamiento local del estimador ante ligeros   cambios en la distribuci&oacute;n de los datos (contaminaci&oacute;n). En otras palabras, la   FI proporciona una aproximaci&oacute;n lineal del estimador en distribuciones   contaminadas y as&iacute; nos dice c&oacute;mo una proporci&oacute;n infinitesimal de contaminaci&oacute;n   afecta la estimaci&oacute;n en muestras grandes.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El inter&eacute;s se   encuentra en conocer si la FI es acotado o suave. Cuando no tiene l&iacute;mites, el   efecto de un valor at&iacute;pico en el estimador puede ser arbitrariamente grande.   Esto implica que el estimador no es robusto a valores at&iacute;picos. Cuando la IF es   suave, un peque&ntilde;o cambio en un punto de datos tiene solo un peque&ntilde;o efecto   sobre el estimador. </font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Dado que la FI refleja el sesgo asint&oacute;tico causado   por los valores at&iacute;picos en los datos, se pueden derivar varias medidas de &eacute;l,   ver [20] como la sensibilidad al error   bruto (que mide la robustez local) o la varianza asint&oacute;tica (que mide la   eficiencia local o la &quot;bondad&quot; en el modelo ideal). Sin embargo, como   se indica en [21], no todos los estimadores poseen   una funci&oacute;n de influencia.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">(ii) Punto de ruptura (breakdown point, bp)</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Otra medida de robustez utilizada es el punto de   ruptura. Siguiendo a [22], el <i>bp</i> da la fracci&oacute;n m&aacute;s   peque&ntilde;a de contaminaci&oacute;n (valores at&iacute;picos o datos agrupados en el extremo de   una cola) tolerada antes de que el estad&iacute;stico &quot;se rompa&quot; y se vuelva   totalmente poco confiable. El punto de ruptura <i>bp</i> es, por tanto, una   medida de solidez global (de fiabilidad).</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Al ser esta medida de mayor uso, veamos en detalle   su definici&oacute;n. Sea cualquier muestra de <i>n</i> puntos de datos,</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_01.gif" width="740" height="44"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Y sea <i>T</i> un estimador de la regresi&oacute;n de   manera que,</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_02.gif" width="737" height="37"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Ahora considere todas las posibles muestras   corruptas <i>Z</i>* que se obtienen reemplazando cualquier m de los puntos de   datos originales por valores arbitrarios (valores at&iacute;picos incorrectos). Sea el   sesgo m&aacute;ximo que puede causar dicha contaminaci&oacute;n:</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_03.gif" width="740" height="42"></p>     <p align=justify><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Si el sesgo (<i>m</i>; <i>T</i>; <i>Z</i>) es   infinito, esto significa que m valores at&iacute;picos pueden tener un gran efecto   arbitrario en T, entonces el estimador se &ldquo;rompe&rdquo;. Por lo tanto, el punto de   ruptura de la muestra finita del estimador T en la muestra Z se define como:</font></p>     ]]></body>
<body><![CDATA[<p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_04.gif" width="738" height="49"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[23] introdujo el punto de ruptura   como un concepto asint&oacute;tico, y [22] dieron la correspondiente noci&oacute;n   de muestra finita. El <i>bp</i> es a menudo la primera y m&aacute;s importante medida   robusta que se debe analizar antes de entrar en detalles sobre las propiedades   de robustez local. Para la media aritm&eacute;tica su BP es 0, para la mediana &eacute;ste es   1/2, lo que significa que un poco menos de la mitad de los datos pueden moverse   al infinito y la mediana todav&iacute;a permanecer&aacute; no afectada. La desviaci&oacute;n   est&aacute;ndar y la desviaci&oacute;n media tienen un BP igual a 0. Y la desviaci&oacute;n mediana   (absoluta) o &quot;DMA&quot;, ver [19], que es la mediana de las   diferencias absolutas de los datos respecto a su mediana, tiene una BP igual a   1/2.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Siguiendo a [21], el punto de ruptura asint&oacute;tico   m&aacute;ximo posible de una estimaci&oacute;n de regresi&oacute;n equivariante es 1/2, y el punto   de ruptura muestral finito m&aacute;ximo posible es [<i>n</i> &minus; <i>p</i> + 1] / 2n.   Para m&iacute;nimos cuadrados, una observaci&oacute;n inusual es suficiente para influir en   las estimaciones de los coeficientes. Por tanto, su punto de ruptura viene dado   por:</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_05.gif" width="740" height="44"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A medida que n aumenta, 1/<i>n</i> tiende a 0, lo   que significa que el punto de ruptura de MCO es 0%.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>2.2 T&eacute;cnicas no robustas para identificar   outliers</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La no robustez de las siguientes t&eacute;cnicas para el   an&aacute;lisis de regresi&oacute;n se explica en tanto las mismas se apoyan en medidas basadas   en MCO, como sus valores predichos o residuos. Y como se explic&oacute; anteriormente   MCO tiene un punto de ruptura de 0%.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>(i) La   diagonal de la matriz de predicciones (apalancamiento o leverage)</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se utiliza para   detectar observaciones que tienen un gran impacto en los valores predichos por   el modelo (<img src="/img/revistas/riyd/v20n2/a03_ecuacion_05_1.gif" width="10" height="14" align="absmiddle">). En el marco   del modelo <i>Y </i>= <i>X&beta;</i>+&epsilon;:</font></p>     <p align="center"><img src="/img/revistas/riyd/v20n2/a03_ecuacion_06.gif" width="741" height="65"></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En esta   metodolog&iacute;a se utilizan los elementos de la diagonal de la matriz sombrero.&nbsp;   Cada valor predicho es una combinaci&oacute;n lineal de los valores observados de <i>Y<sub>i</sub></i>.   Si <i>h<sub>ii</sub></i> (el i-&eacute;simo elemento diagonal de la matriz <i>H</i>)   es grande, entonces la observaci&oacute;n <i>i</i>-&eacute;sima es influyente sobre <img src="/img/revistas/riyd/v20n2/a03_ecuacion_05_1.gif" width="10" height="14" align="absmiddle"><sub><i>i</i></sub>. Una expresi&oacute;n que demuestra los   factores que determinan esta influencia est&aacute; dada por: <img src="/img/revistas/riyd/v20n2/a03_ecuacion_06_1.gif" width="156" height="17" align="absmiddle">, donde <img src="/img/revistas/riyd/v20n2/a03_ecuacion_06_2.gif" width="72" height="15" align="absmiddle">. N&oacute;tese que <i>h<sub>ii</sub></i> es una funci&oacute;n s&oacute;lo de los valores <i>X<sub>i</sub></i>, tambi&eacute;n que es una   medida proporcional a la distancia entre los valores <i>X</i> de la <i>i</i>-esima   observaci&oacute;n y su media sobre todas las <i>n</i> observaciones. De esta manera,   puede interpretarse que un valor elevado de <i>h<sub>ii</sub></i> implicar&aacute;   que la observaci&oacute;n <i>i</i>-&eacute;sima est&aacute; distante del centro de las   observaciones. El punto cr&iacute;tico a partir del cual se considerar&aacute; a una   observaci&oacute;n como influyente es <img src="/img/revistas/riyd/v20n2/a03_ecuacion_06_3.gif" width=64 height=14 align="absmiddle">, es   decir mayor a dos veces la media de <i>h<sub>ii</sub></i> (<img src="/img/revistas/riyd/v20n2/a03_ecuacion_06_4.gif" width=178 height=14 align="absmiddle">). Una discusi&oacute;n detallada sobre   el papel de matriz de predicci&oacute;n <i>H</i> en la identificaci&oacute;n de observaciones   influentes (leverage points) se puede encontrar en [24].</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Es importante   destacar que la no robustez de este enfoque reside en el hecho que la medida h<sub>ii </sub>sufre del &ldquo;masking effect&rdquo; porque depende de <i>x<sub>i</sub></i>, las   desviaciones respecto al promedio (<img src="/img/revistas/riyd/v20n2/a03_ecuacion_06_5.gif" width=14 height=12 align="absmiddle">), esta   &uacute;ltima, se conoce que es altamente vulnerable a los valores extremos. As&iacute; la   distribuci&oacute;n de <i>x<sub>i</sub></i>&nbsp; puede considerarse como distorsionada en   presencia de outliers y no necesariamente detectar&aacute; los outliers.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>(ii)   Residuos estudentizados</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En el an&aacute;lisis   de regresi&oacute;n una observaci&oacute;n con residuo diferente al resto de la muestra puede   implicar valores at&iacute;picos de la misma. Los residuos estudentizados consisten en   la divisi&oacute;n de cada residuo i-&eacute;simo dividido por la desviaci&oacute;n est&aacute;ndar de   todos los residuos exceptuando el i-&eacute;simo. </font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_07.gif" width="741" height="45"></p>     <p align=justify><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El motivo de   este cambio en el denominador se debe a que <img src="/img/revistas/riyd/v20n2/a03_ecuacion_07_1.gif" width=118 height=18 align="absmiddle">. As&iacute;, a mayores valores de h<sub>ii </sub>menor ser&aacute; la varianza del residuo r<sub>i</sub>. Los residuos   estudentizados cuantifican qu&eacute; tan grandes son los residuos en unidades de   desviaciones est&aacute;ndar. Observaciones con <img src="/img/revistas/riyd/v20n2/a03_ecuacion_07_2.gif" width=40 height=18 align="absmiddle">&nbsp;mayor   a 2 en valor absoluto se considerar&aacute;n valores at&iacute;picos en la dimensi&oacute;n-<i>Y</i>.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Este enfoque es   no robusto debido a que los residuos estimados en el numerador, <img src="/img/revistas/riyd/v20n2/a03_ecuacion_07_3.gif" width=68 height=17 align="absmiddle">, son estimaciones basadas en   coeficientes &beta; que y&aacute; se encuentran distorsionados por la presencia de   outliers. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>(iii)   Distancias de Cook</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Es una medida   que combina la informaci&oacute;n de los anteriores dos criterios, apalancamiento y   residuos. El concepto de influencia se sustenta en el efecto que conlleva la   eliminaci&oacute;n de la observaci&oacute;n bajo consideraci&oacute;n sobre las conclusiones del   an&aacute;lisis. Existen diferentes maneras equivalentes de reflejar esta idea:</font></p>     <p align="center"><img src="/img/revistas/riyd/v20n2/a03_ecuacion_08.gif" width="740" height="50"></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Esta es la   expresi&oacute;n inicialmente planteada por [25], de &eacute;sta se desprende que la   distancia de Cook mide el cambio agregado en los coeficientes estimados cuando   cada observaci&oacute;n es alejada de la estimaci&oacute;n. Valores altos de <i>D<sub>i</sub></i> indicar&aacute;n que los puntos asociados tienen una gran influencia en la estimaci&oacute;n   de <i>&beta;</i>.<a href="#_ftn2" name="_ftnref2" title=""><sup>[2]</sup></a> Equivalentemente, estas distancias pueden expresarse como: </font></p>     <p align="center"><img src="/img/revistas/riyd/v20n2/a03_ecuacion_09.gif" width="742" height="56"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De esta manera, D<sub>i</sub> ser&aacute; mayor si los residuos   estudentizados son grandes, es decir si existen valores at&iacute;picos en la   dimensi&oacute;n-<i>Y</i>, o si el nivel de apalancamiento o influencia de las   observaciones son grandes, recu&eacute;rdese que h<sub>ii</sub> depende &uacute;nicamente de   los valores en la dimensi&oacute;n-<i>X</i>. Valores de D<sub>i</sub> mayores a <i>p/n</i> se consideran como influyentes.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Al ser esta medida una combinaci&oacute;n de los dos indicadores anteriores   hereda la no-robustez de estas por las razones anteriormente mencionadas. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>2.2 T&eacute;cnicas   robustas para identificar outliers</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En virtud de que   los m&eacute;todos tradicionales no pueden detectar los outliers porque son afectados   por las observaciones que ellos deben justamente identificar como outliers, la   literatura en estad&iacute;stica propone otro tipo de estimadores para detectar   valores at&iacute;picos multivariados en la muestra que no sufren del masking effect.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Identificar   outliers multivariados no es f&aacute;cil. Los outliers univariados, o valores   extremos en una variable, son f&aacute;cilmente identificables a trav&eacute;s de un simple   histograma. Los outliers bivariados tambi&eacute;n pueden ser identificados   visualmente. Sin embargo, para el caso de m&aacute;s de dos variables, puede suceder   que una observaci&oacute;n no sea outlier en dos dimensiones pero si en tres o cuatro,   lo que ya no es identificable visualmente. Un estimador com&uacute;n para detectar   valores extremos multivariados es la Distancia de Mahalanobis (DM), DM<sub>i</sub>=<img src="/img/revistas/riyd/v20n2/a03_ecuacion_09_1.gif" width="135" height="19" align="absmiddle">, donde &mu; es el llamado vector de   ubicaci&oacute;n o centralidad (location vector) que no es m&aacute;s que el vector de medias   de las variables, &Sigma;<sup>&minus;1</sup> es la matriz de covarianzas y X<sub>i</sub> es   la fila i de la matriz de observaciones X. Las DM miden la distancia de las   observaciones respecto al centro de los datos (&mu;) considerando la forma de los   mismos (&Sigma;); as&iacute; las observaciones con valores de DM extremos pueden ser   considerados outliers multivariados (n&oacute;tese que las DM tienen una distribuci&oacute;n &chi;<sup>2</sup><sub>#variables:     p</sub>). El problema con esta medida, denominado &quot;masking effect&quot;,   es que &mu; y &Sigma; a su vez pueden ser distorsionados por los outliers, haciendo de   MD una medida no representativa de la mayor&iacute;a de los datos. Por ello, en la   literatura sobre Estad&iacute;stica Robusta muchos estimadores robustos de &mu; y &Sigma; han   sido propuestos. Los tres m&aacute;s importantes son el Determinante de Covarianza   M&iacute;nima (Minimum Covariance Determinant, MCD), el estimador S de ubicaci&oacute;n y   dispersi&oacute;n multivariada (S-estimator of location and scatter), y el enfoque de   Stahel-Donoho (SD). En   general estos tres estimadores tienen la propiedad de equivarianza af&iacute;n, es   decir, que se comportan adecuadamente ante transformaciones afines en los   datos; tambi&eacute;n tienen un punto de quiebre del 50%, es decir que son altamente   resilientes a observaciones extremas. Para mayores detalles sobre sus   algoritmos v&eacute;ase [2].</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>(i) El   Determinante de Covarianza M&iacute;nima (MCD)</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Consid&eacute;rese   los datos multivariados <i>X<sub>n</sub> </i>= {<i>x<sub>1</sub></i>, . . . , <i>x<sub>n</sub></i>}   con <i>n</i> observaciones <i>x<sub>i</sub></i> = (<i>x<sub>i1</sub></i>,&hellip;,<i>x<sub>ip</sub></i>)<i><sup>T</sup></i> donde <i>i</i>=1,...,<i>n</i> en <i>p</i> dimensiones. El m&eacute;todo <i>MCD</i> busca las h observaciones (de la muestra n) cuya matriz de varianza covarianza (&Sigma;)   tenga el menor determinante posible (det(&Sigma;)). N&oacute;tese que el determinante de (&Sigma;)   es una medida unidimensional de la variabilidad multivariada en una muestra.   Esto se puede observar m&aacute;s f&aacute;cilmente para el caso de dos variables:</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_10.gif" width="738" height="61"></p>     ]]></body>
<body><![CDATA[<p align=justify><font size="2" face="Verdana, Arial, Helvetica, sans-serif">que es la   diferencia entre la dispersi&oacute;n univariada conjunta de las variables menos la   dispersi&oacute;n debida a las covariaciones entre ellas. As&iacute;, el m&eacute;todo <i>MCD</i> busca el grupo de h observaciones con la menor varianza generalizada   multivariada. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La   implementaci&oacute;n del estimador <i>MCD</i> es un tanto problem&aacute;tica ya que su   algoritmo obtiene resultados inestables en m&uacute;ltiples replicaciones y adem&aacute;s los   mismos son sensibles al valor inicial elegido en la minimizaci&oacute;n. En Stata este   estimador puede ser implemento utilizando el comando mcd, en R usando las   funciones fastmcd o covMcd, en <i>SAS</i> utilizando la funci&oacute;n <i>MCD</i>. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>(ii) El   estimador S-multivariado de ubicaci&oacute;n y dispersi&oacute;n</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para explicar   este estimador, es necesario comenzar recordando que un par&aacute;metro de ubicaci&oacute;n   es una medida de la centralidad de una distribuci&oacute;n: es el punto alrededor del   cual la dispersi&oacute;n de las observaciones es la m&aacute;s baja. En el caso univariado, &eacute;ste   es la media aritm&eacute;tica, y puede obtenerse resolviendo el problema siguiente:</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_11.gif" width="740" height="30"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde,</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_12.gif" width="740" height="88"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Generalizando   este enfoque al caso multivariado, uno puede aplicar la misma l&oacute;gica utilizando   la distancia de Mahalanobis como la medida generalizada de variabilidad, as&iacute;: </font></p>     <p align="center"><img src="/img/revistas/riyd/v20n2/a03_ecuacion_14.gif" width="740" height="32"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde,&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;</font></p>     ]]></body>
<body><![CDATA[<p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_15.gif" width="740" height="39"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En esta   expresi&oacute;n, <img src="/img/revistas/riyd/v20n2/a03_image030.png" width=8 height=17 align="absmiddle">&nbsp;es igual a los grados de   libertad de la distribuci&oacute;n <img src="/img/revistas/riyd/v20n2/a03_image031.png" width=14 height=18 align="absmiddle">&nbsp;de las distancias de   Mahalanobis, asumiendo que &eacute;stas son generadas por una distribuci&oacute;n normal   multivariada. Como se mencion&oacute; anteriormente, la distancia de Mahalanobis   muestra qu&eacute; tan lejos est&aacute; la observaci&oacute;n <img src="/img/revistas/riyd/v20n2/a03_image032.png" width=12 height=17 align="absmiddle">&nbsp;respecto al centro de los datos   y sufre del problema de &ldquo;masking effect&rdquo;. Asimismo, el hecho de que las   distancias de Mahalanobis sean elevadas al cuadrado nos replantea el problema   original: aquellas observaciones que est&aacute;n alejadas del centro de la   distribuci&oacute;n, los outliers, ejercen una influencia por dem&aacute;s importante en la   estimaci&oacute;n de los par&aacute;metros. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Al respecto, el   estimador S-multivariado propone remplazar la funci&oacute;n cuadr&aacute;tica por una   funci&oacute;n <img src="/img/revistas/riyd/v20n2/a03_image033.png" width=23 height=17 align="absmiddle">&nbsp;que sea: no decreciente en   valores positivos de su argumento y que se incremente menos dr&aacute;sticamente que   la funci&oacute;n cuadr&aacute;tica. Existen m&uacute;ltiples candidatos para la funci&oacute;n <img src="/img/revistas/riyd/v20n2/a03_image033.png" width=23 height=17 align="absmiddle">, la m&aacute;s   utilizada es la funci&oacute;n Tukey Biweight, la misma se muestra en la <a href="#f3">Figura 3</a>.</font></p>     <p align=center><a name="f3"></a><img src="/img/revistas/riyd/v20n2/a03_figura_03.gif" width="480" height="240"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Entonces, el problema puede ser reescrito de la   siguiente manera:</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_16.gif" width="744" height="40"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde,</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_17.gif" width="744" height="35"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><img src="/img/revistas/riyd/v20n2/a03_image038.png" width=70 height=17 align="absmiddle">&nbsp;y <img src="/img/revistas/riyd/v20n2/a03_image039.png" width=8 height=17 align="absmiddle">&nbsp;se supone que posee una distribuci&oacute;n   normal est&aacute;ndar; esto garantiza la consistencia gaussiana del estimador. El   estimador S-mutivariado <img src="/img/revistas/riyd/v20n2/a03_image040.png" width=42 height=18 align="absmiddle">&nbsp;consiste en estimar los   par&aacute;metros <img src="/img/revistas/riyd/v20n2/a03_image041.png" width=8 height=17 align="absmiddle">&nbsp;y <img src="/img/revistas/riyd/v20n2/a03_image042.png" width=7 height=17 align="absmiddle">&nbsp;de manera simult&aacute;nea en este   sistema. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como destacan [26]el   estimador S-multivariado muestra una mayor estabilidad que el estimador Minimum   Covariance Determinant (MCD) bajo m&uacute;ltiples replicaciones, y su uso debe ser   privilegiado al diagnosticar la presencia de outliers. El comando en Stata   para implementar el estimador S-multivariado es smultiv, en R la funci&oacute;n es   CovSest.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>(iii) El estimador Stahel-Donoho (SD)</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Este   m&eacute;todo identifica outliers analizando todas las proyecciones univariadas de un   conjunto de datos. Es decir, dada la direcci&oacute;n<i> <img src="/img/revistas/riyd/v20n2/a03_ecuacion_17_2.gif" width="44" height="12" align="texttop"></i> con <i><img src="/img/revistas/riyd/v20n2/a03_ecuacion_17_3.gif" width="46" height="22" align="texttop"></i>, dada por <i><img src="/img/revistas/riyd/v20n2/a03_ecuacion_17_4.gif" width="143" height="14" align="texttop"></i> que representa la proyecci&oacute;n de los   datos <i>X</i> en la direcci&oacute;n <i>a</i>. Una observaci&oacute;n es outlier si es   identificado con valores extremos de estas proyecciones en diferentes   direcciones <i>a</i>: <i><img src="/img/revistas/riyd/v20n2/a03_ecuacion_17_5.gif" width="144" height="39" align="absmiddle"></i>. Entonces, a partir de esta medida se   definen los pesos <i><img src="/img/revistas/riyd/v20n2/a03_ecuacion_17_7.gif" width="68" height="15" align="absmiddle"></i>&nbsp;de manera que   las observaciones con mayores distancias en las direcciones <img width=13 height=15 src="/img/revistas/riyd/v20n2/a03_image046.png">&nbsp;reciben menores pesos. En este   marco, las medidas de centralidad y dispersi&oacute;n &ldquo;robustas&rdquo; propuestas por [27] y [28], son medidas   ponderadas por la funci&oacute;n decreciente de <i><img src="/img/revistas/riyd/v20n2/a03_ecuacion_17_6.gif" width="16" height="13" align="absmiddle"></i>:</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_18.gif" width="739" height="82"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En otras palabra,   el estimador de [27] y [28] de centralidad y dispersi&oacute;n   multivariada (<i>SD</i>) consiste en calcular las distancias de cada punto   proyectando los datos unidimensionalmente en todas las posibles direcciones y   estimando las distancias de cada observaci&oacute;n al centro &ldquo;robusto&rdquo; de cada   proyecci&oacute;n. Las distancias se definen con la distancia de Mahalanobis, <i><img src="/img/revistas/riyd/v20n2/a03_ecuacion_18_1.gif" width="258" height="27" align="absmiddle"></i>, que como se mencion&oacute;   anteriormente est&aacute; distribuida como <i><img src="/img/revistas/riyd/v20n2/a03_ecuacion_18_2.gif" width="39" height="33" align="absmiddle"></i>. As&iacute;, se puede considerar como outlier   a aquella observaci&oacute;n con distancia <i>DM</i> superior a su percentil 95. En Stata el   commando <i>robmv</i> puede ser usado para aplicar este estimador, en <i>R</i> las   funciones son <i>CovSde</i> y <i>outlyingness</i>. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las   caracter&iacute;sticas de este enfoque, sus fundamentos en el an&aacute;lisis de proyecciones   unidiminesiones de m&uacute;ltiples variables, permiten aplicar id&oacute;neamente la misma   para identificar outliers en modelos con m&uacute;ltiples variables categ&oacute;ricas, como   en [29] y en muestras   con distribuciones no gausianas (asim&eacute;tricas) como en [30].</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>2.3   Regresi&oacute;n robusta </b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la anterior   secci&oacute;n se resalt&oacute; la importancia de considerar el efecto de las observaciones   at&iacute;picas (outliers) en el an&aacute;lisis econom&eacute;trico multivariado, los tipos de   outliers y la manera correcta de detectarlos. As&iacute;, una vez identificados los   outliers se podr&iacute;a excluirlos de la muestra o darles una menor ponderaci&oacute;n en   la regresi&oacute;n. Un segundo enfoque para lidiar con el problema de los outliers es   utilizar directamente m&eacute;todos econom&eacute;tricos que no sean vulnerables a las   observaciones at&iacute;picas, lo que se conoce como Regresi&oacute;n Robusta.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">(i) El estimador <i>M</i></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Este estimador   es una modificaci&oacute;n de la funci&oacute;n objetivo de M&iacute;nimos Cuadrados Ordinarios   (MCO). Considerando que la vulnerabilidad de MCO proviene del mayor peso que se   otorga a los valores extremos por elevar al cuadrado los residuos a ser   minimizados, este estimador propone minimizar en su lugar otra funci&oacute;n &ldquo;<i>&rho;</i>&rdquo;   que asigne menor peso a los residuos extremos:</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_19.gif" width="739" height="43"></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este marco<i> MCO </i>puede ser entendido como un   estimador <i>M</i> con <i>&rho;</i>=()<sup>2</sup>. En los m&eacute;todos M las funciones   &rho; tienen que cumplir ciertas propiedades (no decreciente, sim&eacute;trica, tener un   &uacute;nico m&iacute;nimo en cero, y ser menos creciente que la funci&oacute;n cuadr&aacute;tica), las   mismas pueden ser mon&oacute;tonas (si son enteramente convexas) o redescendientes (si   tienen un l&iacute;mite establecido a partir de un valor k, denominado punto de   quiebre), &eacute;stas &uacute;ltimas son las que dan robustez a la estimaci&oacute;n, la funci&oacute;n   redescendiente mayormente utilizada es la Tukey Biweight (TB).</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La estimaci&oacute;n del modelo <i>M</i> es un problema de   M&iacute;nimos Cuadrados Ponderados Iterados con los pesos definidos como <img src="/img/revistas/riyd/v20n2/a03_ecuacion_19_0.gif" width="101" height="18" align="absmiddle">. Como se   aprecia los residuos son estandarizados por una medida de dispersi&oacute;n &sigma; para   garantizar la propiedad de equivarianza de escala, es decir, la independencia   con respecto a las unidades de medida de las variables. Entonces, en la   pr&aacute;ctica se estima:<img src="/img/revistas/riyd/v20n2/a03_ecuacion_19_1.gif" width="159" height="37" align="absmiddle">. La necesidad   de iterar surge por el hecho que los pesos w<sub>i</sub> dependen de los   residuos, los residuos dependen de los coeficientes estimados, y los   coeficientes estimados dependen de los pesos; as&iacute; se necesita un punto de   comienzo, en [31] se   encuentra un resumen del algoritmo de este proceso.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En Stata el estimador M con la funci&oacute;n Tukey   Biweight puede ser implementado con el comando rreg o mregress; en R se puede   usar la funci&oacute;n rlm en el paquete robustbase . Sin embargo, debido al enfoque   iterativo en su estimaci&oacute;n, este m&eacute;todo no tiene las propiedades de robustez   deseadas, ya que s&oacute;lo es resistente a los outliers verticales.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>(ii) El estimador S</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Un estimador m&aacute;s robusto puede ser obtenido   enfocando el an&aacute;lisis desde otra perspectiva tambi&eacute;n interesante. As&iacute;,   inicialmente es necesario recordar que MCO no es m&aacute;s que la minimizaci&oacute;n de n   veces la varianza de los residuos, ya que: <img src="/img/revistas/riyd/v20n2/a03_ecuacion_19_2.gif" width="108" height="39" align="absmiddle">. Expresi&oacute;n que   puede ser re-escrita como: <img src="/img/revistas/riyd/v20n2/a03_ecuacion_19_3.gif" width="112" height="44" align="absmiddle">. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este marco, con el fin de aumentar la robustez,   en el esp&iacute;ritu del estimador <i>M</i>, la funci&oacute;n cuadr&aacute;tica puede ser   sustituida por otra funci&oacute;n que conceda menos importancia a los residuos   grandes:</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_20.gif" width="740" height="45"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">De esta manera, el estimador S   minimizar&aacute; la varianza <img src="/img/revistas/riyd/v20n2/a03_ecuacion_20_1.gif" width="17" height="13">&nbsp;que satisfaga   la siguiente expresi&oacute;n:</font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_21.gif" width="738" height="36"></p>     <p align=justify><font size="2" face="Verdana, Arial, Helvetica, sans-serif">condicional   a que, </font></p>     ]]></body>
<body><![CDATA[<p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_22.gif" width="739" height="47"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">donde <i>&Psi;</i>=<i>E</i>[<i>&rho;</i>(<i>Z</i>)] y <i>Z</i>&sim;<i>N</i>(0,1),   es una correcci&oacute;n que restringe la condici&oacute;n a minimizar para garantizar   Normalidad y &rho; es la funci&oacute;n Tukey Biweight. El algoritmo para su estimaci&oacute;n,   denominado fast-S algorithm&nbsp; corresponde a [32]. El estimador S es resistente a los outliers en las   dimensiones <i>Y</i> y <i>X</i>, sin embargo existe un trade-off entre su grado   de robustez y eficiencia. En Stata el comando para su implementaci&oacute;n es   sregress. En <i>R</i> la funci&oacute;n es lmrob en el paquete robustbase.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>(iii) El estimador <i>MM</i></b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Este es un estimador robusto y a su vez eficiente.   Se lo puede describir como un estimador <i>M</i> con varianza S. Es decir, el   estimador MM resulta de la combinaci&oacute;n de los dos m&eacute;todos anteriores, </font></p>     <p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_23.gif" width="738" height="48"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">en una primera parte se implementa el estimador   robusto pero de baja eficiencia <i>S</i> y de la misma se calcula la varianza <img src="/img/revistas/riyd/v20n2/a03_ecuacion_20_1.gif" width="17" height="13">, la misma que   es utilizada en una segunda parte en la estimaci&oacute;n de un modelo redescendiente   M v&iacute;a M&iacute;nimos Cuadrados Ponderados Iterados pero con un valor robusto como   punto de inicio en las iteraciones <img src="/img/revistas/riyd/v20n2/a03_ecuacion_23_0.gif" width="18" height="18" align="absmiddle">, con lo que se adquiere mayor   estabilidad y eficiencia; en ambas etapas la funci&oacute;n &rho; es la Tukey Biweight. El   algoritmo para este m&eacute;todo puede encontrarse en [2]. Para   implementar el m&eacute;todo en Stata el comando correspondiente es mmregress. En R la   funci&oacute;n es lmrob en el paquete robustbase.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>(iv) El estimador<i> MS</i></b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los anteriores estimadores, sin embargo, tienen   problemas en sus algoritmos en presencia de variables explicativas dicot&oacute;micas.   Para subsanar ello, [2]proponen   dividir las variables explicativas en dos grupos, las continuas y las   dicot&oacute;micas, <img src="/img/revistas/riyd/v20n2/a03_ecuacion_23_4.gif" width="135" height="15" align="absmiddle">&nbsp;e   implementar alternando un modelo <i>M</i> para obtener <i>&delta;</i>, asumiendo que   se conoce <i>&beta;</i>, y un modelos S para estimar <i>&beta;</i>, asumiendo que se   conoce <i>&delta;</i>, hasta alcanzar la convergencia. La idea es aprovechar las   propiedades de ambos m&eacute;todos, el modelo <i>M</i> es resistente a los outliers   verticales, como los creados por las variables dicot&oacute;micas, y el modelo <i>S</i> es resistente a los outliers en <i>Y</i> y <i>X</i> pero vulnerable en su   algoritmo a la presencia de variables categ&oacute;ricas. El algortimo para la   estimaci&oacute;n del modelo <i>MS</i> se encuentra en [2]. En Stata   el comando para aplicar este estimador es msregress, en R la funci&oacute;n lmrob.</font></p>     <p align="justify">&nbsp;</p>     <p align="justify"><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>3. UN PROGRAMA EN STATA PARA IDENTIFICAR   Y CATEGORIZAR OUTLIERS MULTIVARIADOS</b></font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Uno de los factores que pueden explicar la omisi&oacute;n   del an&aacute;lisis sobre el efecto de valores extremos en la investigaci&oacute;n emp&iacute;rica,   puede ser la ausencia de instrumentos disponibles en los softwares   convencionales que implementen estas t&eacute;cnicas robustas. En esta secci&oacute;n se   presenta un programa en Stata del tipo do-file para identificar y categorizar   outliers multivariados para datos de corte transversal, implementando la   herramienta sugerida por [1], la misma que no sufre del mencionado   &quot;masking effect&quot;.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a name="_Hlk25682935"><b>3.3.1 La t&eacute;cnica   de Rousseauw y vanZomeren (1990) y su c&oacute;digo en Stata</b></a></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El mismo consiste en graficar en el eje de las   ordenadas los residuos estandarizados y en el eje de las abscisas las   distancias de Mahalanobis. Para mayores detalles y evidencia sobre su   &quot;robustez&quot;, v&eacute;ase [1], [2].</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los residuos estandarizados son la medida utilizada   para identificar valores extremos en la dimensi&oacute;n-<i>y</i>, &eacute;stas consisten en   el cociente de los residuos sobre su desviaci&oacute;n est&aacute;ndar,<img src="/img/revistas/riyd/v20n2/a03_ecuacion_23_6.gif" width="62" height="15" align="absmiddle">. Para que &eacute;sta sea resistente a   outliers (robusto), en el numerador se utilizan los residuos de la regresi&oacute;n <i>S</i>,   y en el denominador, como medida de dispersi&oacute;n se utiliza la desviaci&oacute;n   absoluta mediana normalizada: <img src="/img/revistas/riyd/v20n2/a03_ecuacion_23_5.gif" width="219" height="19" align="absmiddle">. Valores de estos residuos   mayores a 2.25 en valor absoluto requieren atenci&oacute;n ya que pueden ser o   &quot;good leverage points&quot; (si a su vez estas observaciones son valores   extremos en <i>x</i>), o &quot;vertical outliers&quot; (si no son outliers en <i>x</i>). </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para medir valores extremos en la dimensi&oacute;n-<i>X</i>,   para cada observaci&oacute;n se calcula la distancia de Mahalanobis, <img src="/img/revistas/riyd/v20n2/a03_ecuacion_23_1.gif" width="180" height="25" align="absmiddle">, donde <i>&mu;</i> representa el vector de medias y &Sigma; la matriz de covarianzas; las <i>MDi</i> pueden entenderse como la distancia estandarizada de cada observaci&oacute;n al centro   de los datos. Al tener una distribuci&oacute;n chi-2, observaciones con valores mayor   a <img src="/img/revistas/riyd/v20n2/a03_ecuacion_23_2.gif" width="97" height="27" align="absmiddle">&nbsp;pueden   definirse como valores extremos en la dimensi&oacute;n-<i>X</i>, y &eacute;stas pueden ser o   &quot;good leverage points&quot; (si a su vez estas observaciones son valores   extremos en <i>y</i>), o &quot;bad leverage points&quot; (si no son outliers en <i>X</i>). Asimismo, para que las <i>MD<sub>i</sub></i> sean robustas, <i>&mu;</i> y &Sigma; se calculan a trav&eacute;s del estimador <i>S</i>-multivariado; este &uacute;ltimo   detalle define la contribuci&oacute;n del presente programa.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A continuaci&oacute;n se presenta el programa en Stata para   obtener este gr&aacute;fico. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">********************************************</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">program define outid    <br>   syntax varlist , [dummies(varlist)]    <br>   local dv: word 1 of `varlist'    ]]></body>
<body><![CDATA[<br>   local expl: list varlist - dv    <br>   local ndum: word count `dummies'    <br>   local nvar: word count `varlist'    <br>   local p=`ndum'+`nvar'    <br>   local b=sqrt(invchi2(`p'),0.975)    <br>   capture drop outS rdS id    <br>   capture qui smultiv `expl', gen(outS rdS)   dummies(`dummies')    <br>   label var rdS &ldquo;Robust_distance_S&rdquo;    <br>   gen id=_n    <br>   if `ndum'==0 {    ]]></body>
<body><![CDATA[<br>   capture drop S_outlier S_stdres    <br>   capture qui mmregress `dv' `expl', outlier    <br>   capture drop stdres    <br>   rename S_stdres stdres    <br>   }    <br>   else {    <br>   capture drop MS_outlier MS_stdres    <br>   capture qui mmregress `dv' `expl', outlier   dummies(`dummies')    <br>   capture drop stdres    <br>   rename MS_stdres stdres    ]]></body>
<body><![CDATA[<br>   }    <br>   label var stdres &ldquo;Robust standardized residuals&rdquo;    <br>   twoway (scatter stdres rdS if   abs(stdres)&lt;4&amp;rdS&lt;sqrt(2)*`b') (scatter stdres rdS if   abs(stdres)&gt;=4|rdS&gt;=2*`b', mlabel(id) msymbol(circle_hollow)), xline(`b')   yline(2.25) yline(-2.25) legend(off)    <br>   capture drop vo glp blp    <br>   gen vo=(abs(stdres)&gt;2 &amp; rdS&lt;`b')    <br>   gen glp=(abs(stdres)&lt;2 &amp; rdS&gt;`b')    <br>   gen blp=(abs(stdres)&gt;2 &amp; rdS&gt;`b')    <br>   label var vo &ldquo;Vertical outliers&rdquo;    <br>   label var glp &ldquo;Good leverage points&rdquo;    <br>   label var blp &ldquo;Bad leverage points&rdquo;    ]]></body>
<body><![CDATA[<br>   edit id vo glp blp stdres rdS `varlist' `dummies'   if vo==1 | glp==1 | blp==1    <br>   end    <br>   ***************************</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El programa hace uso de los comandos smultiv,   sregress, msregress de [9] es muy importante que el lector instale   los mismos en su computadora. Puede hacerlo utilizando los comandos findit o   ssc install.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para implementar estos c&oacute;digos en Stata, el usuario   debe copiar los mismos en un do-file, correr el programa y luego aplicar el   mismo a su modelo de regresi&oacute;n de acuerdo a la siguiente sintaxis:</font></p>     <p align=center><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>outid </b>&nbsp;&nbsp;Variable_dependiente&nbsp;&nbsp;&nbsp;   Variables_explicativas _continuas, dummies(Variables_explicativas_categ&oacute;ricas)</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Un ejemplo de aplicaci&oacute;n se presenta a continuaci&oacute;n.   En un do-file se puede escribir:</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">clear</font>    <br>   <font size="2" face="Verdana, Arial, Helvetica, sans-serif">set obs 300</font>    <br> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">set seed 1010</font>    ]]></body>
<body><![CDATA[<br> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">drawnorm x1-x5 e</font>    <br> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">gen i= _n    <br> </font><font size="2" face="Verdana, Arial, Helvetica, sans-serif">gen d1=(x4&gt;0.7)</font>    <br> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">gen d2=(x5&lt;-0.9)</font>    <br> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">gen y=x1+x2+x3+d1+d2+e</font>    <br> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">replace x1=invnorm(uniform())+10 in 1/20</font>    <br> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">replace y=invnorm(uniform())+10 in 15/30</font>    <br> <font size="2" face="Verdana, Arial, Helvetica, sans-serif">scatter y x1, mlabel(i)</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En la <a href="#f4">Figura 4</a>, las observaciones 1 al   14 son outliers del tipo bad leverage points, las observaciones 15 a 20 son   good leverage points, mientras que las observaciones 20 a 30 son vertical   outliers. En   este escenario, para identificar y clasificar los outliers se puede implementar   el programa descrito mediante la siguiente sintaxis en Stata:</font></p>     <p align=center><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><b>outid</b> y x1 x2 x3,   dummies(d1 d2)</font></p>     ]]></body>
<body><![CDATA[<p align="center"><a name="f4"></a><img src="/img/revistas/riyd/v20n2/a03_figura_04.gif" width="470" height="387"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los resultados que se obtienen al implementarse el   programa outid son los siguientes: la <a href="#f5">Figura 5</a>, propuesto por [1], y la   representaci&oacute;n en la base de datos de las observaciones identificadas como   outliers.</font></p>     <p align="center"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a name="f5"></a></font><img src="/img/revistas/riyd/v20n2/a03_figura_05.gif" width="489" height="404"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">El diagrama de la <a href="#f6">Figura 6</a> es &uacute;til para fines de   interpretaci&oacute;n.</font></p>     <p align=center><a name="f6"></a><img src="/img/revistas/riyd/v20n2/a03_figura_06.gif" width="330" height="155"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Una vez identificados los outliers se deber&iacute;a   analizar cada caso, es decir, si corresponden a la muestra, de que tipo son, o&nbsp;   si tal vez se trata de&nbsp; informaci&oacute;n err&oacute;nea del proceso de levantamiento de los   datos. Asumiendo que todos corresponden a la muestra pero no representan a la   misma, una estrategia racional es correr las regresiones con y sin outliers, y   comparar los coeficientes para ver el nivel de importancia de estas   observaciones sobre las estimaciones (se podr&iacute;a usar un test de Haussman para   este prop&oacute;sito). Por ejemplo ver <a href="#t2">Tabla 2</a>.</font></p>     <p align="center"><a name="t2"></a><img src="/img/revistas/riyd/v20n2/a03_tabla_02.gif" width="668" height="665"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Se debe notar que la primera regresi&oacute;n es con la   muestra contaminada por los outliers, mientras que la segunda es con la muestra   sin los outliers identificados con el programa <b>outid</b>.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Como se expres&oacute; anteriormente, la contribuci&oacute;n de   este programa radica en el uso del estimador S-multivariado para calcular el   centro y dispersi&oacute;n de los datos de manera robusta. En Stata, los comandos de [5] permiten obtener la representaci&oacute;n de [1], utilizando la opci&oacute;n graph, pero   utilizando el estimador Determinante de Covarianza M&iacute;nima (Minimum Covariance   Determinant, MCD) para identificar los outliers en ladimensi&oacute;n X. Sin embargo,   como demuestran [26], el MCD   es inestable, presenta baja eficiencia, es computacionalmente pesado, y es   superado en propiedades por el estimador S-multivariado, el mismo que se   implementa en <b>outid</b>.</font></p>     <p align="justify">&nbsp;</p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>4. ROBUSTEZ DE LOS ESTIMADORES PARA   IDENTIFICAR OUTLIERS MULTIVARIADOS</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En esta secci&oacute;n, mediante simulaciones de Monte   Carlo se eval&uacute;a la robustez de los estimadores anteriormente presentados para   identificar outliers multivariados, incluyendo el desempe&ntilde;o del programa <b>outid</b> planteado en este cap&iacute;tulo. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Para ello, inicialmente se crea un conjunto de datos   de tama&ntilde;o <i>n</i> generando aleatoriamente 5 variables explicativas, continuas   independientes con distribuci&oacute;n normal, media cero y varianza unitaria. Este   conjunto de datos se llama la muestra limpia. Posteriormente, se reemplaza   aleatoriamente <i>k</i>%&nbsp; de las observaciones de la primera variable con   valores aleatorios extra&iacute;dos de una distribuci&oacute;n gaussiana con una media de 5 y   una desviaci&oacute;n est&aacute;ndar de 0.1. Este conjunto de datos se llama la muestra   contaminada. Dos variables se manejan en este setup para crear diferentes escenarios,   el tama&ntilde;o de muestra que tomar&aacute; valores <i>n</i>=100 (muestra peque&ntilde;a) y <i>n</i>=1000   (muestra grande); y el nivel de contaminaci&oacute;n, donde <i>k</i> tomar&aacute; valores   para representar muestras leve e intensamente contaminadas por outliers: <img src="/img/revistas/riyd/v20n2/a03_image069.png" width=96 height=19 align="absmiddle">.</font></p>     <p align=justify><font size="2" face="Verdana, Arial, Helvetica, sans-serif">La <a href="#f7">Figura 7</a> exhibe la relaci&oacute;n entre <i>Y</i> y <i>X</i><sub>1</sub> para una muestra aleatoria de la simulaci&oacute;n, una realizaci&oacute;n para cada uno de los cuatro casos considerados.</font></p>     <p align=center><a name="f7"></a><img src="/img/revistas/riyd/v20n2/a03_figura_07.gif" width="605" height="487"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Los resultados de 1500 simulaciones para los   diferentes escenarios se presentan en la siguiente tabla.&nbsp; La misma mide el   denominado &ldquo;<i>masking effect</i>&rdquo; como el porcentaje de observaciones que s&iacute;   son outliers pero que no fueron identificados como tal por el m&eacute;todo bajo   consideraci&oacute;n. La columna uno describe el escenario considerado, el tipo de   outliers se describe en la columna dos, mientras que el resto de las columnas   muestra los 4 m&eacute;todos considerados, la &uacute;ltima con el programa <b>outid</b> sugerido en este documento.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En general, la conclusi&oacute;n que emana de la <a href="#t3">Tabla 3</a> es   que las medidas tradicionales sugeridas en los libros de econometr&iacute;a para   identificar outliers multivariados no son eficaces para tales fines. En los   diferentes escenarios considerados, la diagonal de la matriz de predicciones en   promedio no identific&oacute; el 78% de los outliers, las distancias de Cook el 77% y   los residuos estudentizados no identificaron el 42% de los outliers generados;   resultados que dan cuenta del fen&oacute;meno conocido como &ldquo;masking effect&rdquo;. A su   vez, si se consideran los estimadores obtenidos despu&eacute;s de implementar el   programa <b>outid</b>, se tiene que, en los diferentes escenarios considerados,   el porcentaje promedio de outliers no identificados fueron de 0.05% y 1% con   ambos enfoques, respectivamente, es decir que el mismo s&iacute; pueden identificar adecuadamente   los valores extremos multivariados. </font></p>     <p align=center><a name="t3"></a><img src="/img/revistas/riyd/v20n2/a03_tabla_03.gif" width="747" height="366"></p>     <p align=center>&nbsp;</p>     <p align="justify"><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>5. CONCLUSIONES</b></font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Las observaciones at&iacute;picas distorsionan la muestra y   por lo tanto los estimadores que resultan no reflejan la verdadera relaci&oacute;n   entre las variables de toda la muestra. La motivaci&oacute;n del presente trabajo es   crear conciencia en la comunidad acad&eacute;mica sobre la manera adecuada de tratar   este problema en el an&aacute;lisis estad&iacute;stico.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">A trav&eacute;s de simulaciones se logra demostrar que las   medidas est&aacute;ndares utilizadas como la diagonal de la matriz de predicciones,   los residuos estudentizados, y las distancias de Cook, no logran identificar en   un porcentaje elevado estos valores at&iacute;picos, porque sufren del denominado   &ldquo;masking effect&rdquo;. </font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">En este trabajo se plantea un programa del tipo do-file   que permite identificar outliers de manera robusta, en la medida que se basa en   el estimador S-multivariado de ubicaci&oacute;n y dispersi&oacute;n. Simulaciones de Monte   Carlo muestran la aplicabilidad del programa sugerido para identificar   adecuadamente los valores extremos en un escenario multivariado.</font></p>     <p align="justify">&nbsp;</p>     <p align="justify"><font size="3" face="Verdana, Arial, Helvetica, sans-serif"><b>6. REFERENCIAS</b></font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[1] B. C. Rousseeuw, Peter J and Van Zomeren, &ldquo;Points,   Unmasking multivariate outliers and leverage,&rdquo; <i>J. Am. Stat. Assoc.</i>, vol.   85, pp. 633&ndash;639, 1990.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[2] V. J. Maronna, Ricardo A and Yohai, &ldquo;Robust regression   with both continuous and categorical predictors,&rdquo; <i>J. Stat. Plan. Inference</i>,   vol. 89, pp. 197&ndash;214, 2000.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[3] A. S. Hadi, &ldquo;Identifying multiple outliers in   multivariate data,&rdquo; <i>J. R. Stat. Soc. Ser. B (Methodological</i>, vol. 54,   pp. 761&ndash;774, 1992.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[4] A. S. Hadi, &ldquo;A modification of a method for the   detection of outliers in multivariate samples,&rdquo; J. R. Stat. Soc. Ser. B, vol.   56, pp. 393&ndash;396, 1994.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[5] C. Verardi, Vincenzo and Croux, &ldquo;Robust regression in   Stata,&rdquo; <i>Stata J.</i>, vol. 9, no. SAGE Publications Sage CA: Los Angeles,   CA, pp. 439&ndash;453, 2009.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[6] V. J. and others Maronna, Ricardo A and Martin, R   Douglas and Yohai, <i>Robust statistics: theory and methods (with R)</i>. John   Wiley \&amp; Sons, 2019.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[7] Baltagi, <i>Econometrics</i>. 2011.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[8] R. Davidson and J. G. MacKinnon, Instructor &rsquo; s Manual   to Accompany Econometric Theory and Methods. 2004.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[9] C. Dehon, M. Gassner, and V.   Verardi, &ldquo;Beware of &lsquo;Good&rsquo; outliers and overoptimistic conclusions,&rdquo; <i>Oxf.     Bull. Econ. Stat.</i>, vol. 71, no. 3, pp. 437&ndash;452, 2009, doi:   10.1111/j.1468-0084.2009.00543.x.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[10] F. Perachi, <i>Econometrics</i>.   2011.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[11] F. Hayashi,   Econometrics,&#8214; Princeton University Press: Princeton. 2000.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[12] W. H. Greene, &ldquo;Econometric   analysis, 71e,&rdquo; <i>Stern Sch. Business, New York Univ.</i>, 2012.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[13] B. Hansen, <i>Econometrics.   US</i>. University of Wisconsin Press, 2017.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[14] P. A. Ruud, <i>An   introduction to classical econometric theory</i>. Oxford University Press,   2000.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[15] M. Verbeek, <i>A   guide to modern econometrics</i>. John Wiley \&amp; Sons, 2008.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[16] P. Kennedy, A   guide to modern econometrics. 2008.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[17] J. M. Wooldridge,   Introductory econometrics: A modern approach. 2016.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[18] D. N. Gujarati, <i>Basic   econometrics</i>. Tata McGraw-Hill Education, 2009.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[19] Hampel and F. R.,   &ldquo;The influence curve and its role in robust estimation,&rdquo; <i>J. Am. Stat. Assoc.</i>,   vol. 69, pp. 383&ndash;393, 1974.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[20] W. A. Hampel, Frank R and Ronchetti, Elvezio M and   Rousseeuw, Peter J and Stahel, &ldquo;Robust statistics: the approach based on   influence functions,&rdquo; vol. 196, no. John Wiley&amp; Sons, 2011.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[21] A. M. Rousseeuw, Peter J and Leroy, &ldquo;Robust regression   and outlier detection,&rdquo; <i>New York John Wiley Sons</i>, vol. 589, 2005.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[22] D. L. Donoho and P. J. Huber, &ldquo;The notion of breakdown   point,&rdquo; <i>A festschrift Erich L. Lehmann</i>, vol. 157184, 1983.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[23] Hampel and F. R, &ldquo;A general qualitative definition of   robustness,&rdquo; <i>Ann. Math. Stat.</i>, pp. 1887&ndash;1896, 1971.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[24] R. E. Hoaglin, David C and Welsch, &ldquo;The hat matrix in   regression and ANOVA,&rdquo; <i>Am. Stat.</i>, vol. 32, pp. 17&ndash;22, 1978.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[25] R. D. Cook, &ldquo;Influential Observations in Linear   Regression,&rdquo; <i>J. Am. Stat. Assoc.</i>, vol. 74, pp. 169&ndash;174, 1977.</font></p>     ]]></body>
<body><![CDATA[<p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[26] A. Verardi, Vincenzo and McCathie, &ldquo;The S-estimator of   multivariate location and scatter in Stata,&rdquo; <i>Stata J.</i>, vol. 12, pp.   299&ndash;307, 2012.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[27] W. A. Stahel and Werner A, &ldquo;Robuste Sch&auml;tzungen:   Infinitesimale Optimalit&auml;t und Sch&auml;tzungen von Kovarianzmatrizen.,&rdquo; <i>ETH     Zurich</i>, 1981.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[28] Donoho and D. L., &ldquo;Breakdown properties of multivariate   location estimators,&rdquo; <i>Tech. report, Harvard Univ. Boston. URL     http//www-stat. stanford~&hellip;</i>, 1982.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[29] D. and others Verardi, Vincenzo and Gassner, Marjorie   and Ugarte, &ldquo;Robustness for dummies,&rdquo; <i>ECARES Work. Pap.</i>, 2012.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[30] C. Verardi, Vincenzo and Vermandele, &ldquo;Univariate and   multivariate outlier identification for skewed or heavy-tailed distributions,&rdquo; <i>Stata     J.</i>, vol. 18, pp. 517&ndash;532, 2018.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[31] S. John and Weisberg, An R companion to applied regression.   2018.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">[32] Y.   V. Salibi.an-Barrera M., &ldquo;A fast algorithm for S-regression estimates,&rdquo;<i> J.     Comput. Graph. Stat.</i>, vol. 15, pp. 414&ndash;427, 2006.</font></p>     <p align="justify">&nbsp;</p> <hr align=JUSTIFY size=1 width="33%">     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a href="#_ftnref1" name="_ftn1" title="">[1]</a> En la literatura   sobre estad&iacute;stica robusta, una medida del nivel de resistencia de los   estimadores a los outliers se denomina punto de quiebre (breakdown point). Este   indicador consiste en el menor nivel de contaminaci&oacute;n que el estimador puede   soportar antes de reportar resultados sesgados. As&iacute; por ejemplo, MCO tiene un   punto de quiebre de 0%, es decir que una sola observaci&oacute;n puede cambiar el   estimador al punto que &eacute;ste no describa de manera significativa el conjunto de   datos. El mayor nivel de punto de quiebre de un estimador es del 50%.</font></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif"><a href="#_ftnref2" name="_ftn2" title="">[2]</a> A su vez,   considerando que <img src="/img/revistas/riyd/v20n2/a03_ecuacion_08_0.gif" width="40" height="13" align="absmiddle">:</font></p>     ]]></body>
<body><![CDATA[<p align=center><img src="/img/revistas/riyd/v20n2/a03_ecuacion_08_1.gif" width="142" height="46"></p>     <p align="justify"><font size="2" face="Verdana, Arial, Helvetica, sans-serif">Entonces la   distancia de Cook para la i-&eacute;sima observaci&oacute;n se basa en las diferencias entre   las respuestas pronosticadas del modelo construido a partir de todos los datos   y las respuestas pronosticadas del modelo construido al omitir la i-&eacute;sima   observaci&oacute;n. </font></p>     <p align="justify">&nbsp;</p>      ]]></body><back>
<ref-list>
<ref id="B1">
<label>1</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rousseeuw]]></surname>
<given-names><![CDATA[Peter J.]]></given-names>
</name>
<name>
<surname><![CDATA[Van Zomeren]]></surname>
<given-names><![CDATA[B.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Points, Unmasking multivariate outliers and leverage]]></article-title>
<source><![CDATA[J. Am. Stat. Assoc.]]></source>
<year>1990</year>
<volume>85</volume>
<page-range>633-639</page-range></nlm-citation>
</ref>
<ref id="B2">
<label>2</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Maronna]]></surname>
<given-names><![CDATA[Ricardo A.]]></given-names>
</name>
<name>
<surname><![CDATA[Yohai]]></surname>
<given-names><![CDATA[V. J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Robust regression with both continuous and categorical predictors]]></article-title>
<source><![CDATA[J. Stat. Plan. Inference]]></source>
<year>2000</year>
<volume>89</volume>
<page-range>197-214</page-range></nlm-citation>
</ref>
<ref id="B3">
<label>3</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hadi]]></surname>
<given-names><![CDATA[A. S.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Identifying multiple outliers in multivariate data]]></article-title>
<source><![CDATA[J. R. Stat. Soc. Ser. B]]></source>
<year>1992</year>
<volume>54</volume>
<page-range>761-774</page-range></nlm-citation>
</ref>
<ref id="B4">
<label>4</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hadi]]></surname>
<given-names><![CDATA[A. S.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A modification of a method for the detection of outliers in multivariate samples]]></article-title>
<source><![CDATA[J. R. Stat. Soc. Ser. B.]]></source>
<year>1994</year>
<volume>56</volume>
<page-range>393-396</page-range></nlm-citation>
</ref>
<ref id="B5">
<label>5</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Verardi]]></surname>
<given-names><![CDATA[V.]]></given-names>
</name>
<name>
<surname><![CDATA[Croux]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Robust regression in Stata]]></article-title>
<source><![CDATA[Stata J.]]></source>
<year>2009</year>
<volume>9</volume>
<page-range>439-453</page-range><publisher-loc><![CDATA[Sage CA: Los Angeles, CA ]]></publisher-loc>
<publisher-name><![CDATA[SAGE Publications]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B6">
<label>6</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Maronna]]></surname>
<given-names><![CDATA[Ricardo A.]]></given-names>
</name>
<name>
<surname><![CDATA[Martin]]></surname>
<given-names><![CDATA[R. Douglas]]></given-names>
</name>
<name>
<surname><![CDATA[Yohai]]></surname>
<given-names><![CDATA[V.J.]]></given-names>
</name>
</person-group>
<source><![CDATA[Robust statistics: theory and methods (with R)]]></source>
<year>2019</year>
<publisher-name><![CDATA[John Wiley & Sons]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B7">
<label>7</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Baltagi]]></surname>
</name>
</person-group>
<source><![CDATA[Econometrics]]></source>
<year>2011</year>
</nlm-citation>
</ref>
<ref id="B8">
<label>8</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Davidson]]></surname>
<given-names><![CDATA[R.]]></given-names>
</name>
<name>
<surname><![CDATA[MacKinnon]]></surname>
<given-names><![CDATA[J.G.]]></given-names>
</name>
</person-group>
<source><![CDATA[Instructor&#8217;s Manual to Accompany Econometric Theory and Methods]]></source>
<year>2004</year>
</nlm-citation>
</ref>
<ref id="B9">
<label>9</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Dehon]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
<name>
<surname><![CDATA[Gassner]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
<name>
<surname><![CDATA[Verardi]]></surname>
<given-names><![CDATA[V.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Beware of &#8216;Good&#8217; outliers and overoptimistic conclusions]]></article-title>
<source><![CDATA[Oxf. Bull. Econ. Stat.]]></source>
<year>2009</year>
<volume>71</volume>
<numero>3</numero>
<issue>3</issue>
<page-range>437-452</page-range></nlm-citation>
</ref>
<ref id="B10">
<label>10</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Perachi]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<source><![CDATA[Econometrics]]></source>
<year>2011</year>
</nlm-citation>
</ref>
<ref id="B11">
<label>11</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hayashi]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<source><![CDATA[Econometrics]]></source>
<year>2000</year>
<publisher-loc><![CDATA[Princeton ]]></publisher-loc>
<publisher-name><![CDATA[Princeton University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B12">
<label>12</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Greene]]></surname>
<given-names><![CDATA[W.H.]]></given-names>
</name>
</person-group>
<source><![CDATA[Econometric analysis]]></source>
<year>2012</year>
<edition>71</edition>
<publisher-name><![CDATA[Stern Sch. Business, New York Univ]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B13">
<label>13</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hansen]]></surname>
<given-names><![CDATA[B.]]></given-names>
</name>
</person-group>
<source><![CDATA[Econometrics]]></source>
<year>2017</year>
<publisher-name><![CDATA[US. University of Wisconsin Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B14">
<label>14</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Ruud]]></surname>
<given-names><![CDATA[P.A.]]></given-names>
</name>
</person-group>
<source><![CDATA[An introduction to classical econometric theory]]></source>
<year>2000</year>
<publisher-name><![CDATA[Oxford University Press]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B15">
<label>15</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Verbeek]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<source><![CDATA[A guide to modern econometrics]]></source>
<year>2008</year>
<publisher-name><![CDATA[John Wiley \& Sons]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B16">
<label>16</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Kennedy]]></surname>
<given-names><![CDATA[P.]]></given-names>
</name>
</person-group>
<source><![CDATA[A guide to modern econometrics]]></source>
<year>2008</year>
</nlm-citation>
</ref>
<ref id="B17">
<label>17</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Wooldridge]]></surname>
<given-names><![CDATA[J.M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Introductory econometrics: A modern approach]]></source>
<year>2016</year>
</nlm-citation>
</ref>
<ref id="B18">
<label>18</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Gujarati]]></surname>
<given-names><![CDATA[D.N.]]></given-names>
</name>
</person-group>
<source><![CDATA[Basic econometrics]]></source>
<year>2009</year>
<publisher-name><![CDATA[Tata McGraw-Hill Education]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B19">
<label>19</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hampel]]></surname>
<given-names><![CDATA[F.R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The influence curve and its role in robust estimation]]></article-title>
<source><![CDATA[J. Am. Stat. Assoc.]]></source>
<year>1974</year>
<volume>69</volume>
<page-range>383-393</page-range></nlm-citation>
</ref>
<ref id="B20">
<label>20</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hampel]]></surname>
<given-names><![CDATA[Frank R.]]></given-names>
</name>
<name>
<surname><![CDATA[Ronchetti]]></surname>
<given-names><![CDATA[Elvezio M.]]></given-names>
</name>
<name>
<surname><![CDATA[Rousseeuw]]></surname>
<given-names><![CDATA[Peter J.]]></given-names>
</name>
<name>
<surname><![CDATA[Stahel]]></surname>
<given-names><![CDATA[Werner A.]]></given-names>
</name>
</person-group>
<source><![CDATA[Robust statistics: the approach based on influence functions]]></source>
<year>2011</year>
<publisher-name><![CDATA[John Wiley& Sons]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B21">
<label>21</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Rousseeuw]]></surname>
<given-names><![CDATA[Peter J.]]></given-names>
</name>
<name>
<surname><![CDATA[Leroy]]></surname>
<given-names><![CDATA[A.M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Robust regression and outlier detection]]></source>
<year>2005</year>
<volume>589</volume>
<publisher-loc><![CDATA[New York ]]></publisher-loc>
<publisher-name><![CDATA[John Wiley Sons]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B22">
<label>22</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Donoho]]></surname>
<given-names><![CDATA[D. L.]]></given-names>
</name>
<name>
<surname><![CDATA[Huber]]></surname>
<given-names><![CDATA[P. J.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The notion of breakdown point]]></article-title>
<source><![CDATA[A festschrift Erich L. Lehmann]]></source>
<year>1983</year>
<volume>157184</volume>
</nlm-citation>
</ref>
<ref id="B23">
<label>23</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hampel]]></surname>
<given-names><![CDATA[F. R.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A general qualitative definition of robustness]]></article-title>
<source><![CDATA[Ann. Math. Stat.]]></source>
<year>1971</year>
<page-range>1887-1896</page-range></nlm-citation>
</ref>
<ref id="B24">
<label>24</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Hoaglin]]></surname>
<given-names><![CDATA[David C.]]></given-names>
</name>
<name>
<surname><![CDATA[Welsch]]></surname>
<given-names><![CDATA[R. E.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The hat matrix in regression and ANOVA]]></article-title>
<source><![CDATA[Am. Stat.]]></source>
<year>1978</year>
<volume>32</volume>
<page-range>17-22</page-range></nlm-citation>
</ref>
<ref id="B25">
<label>25</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Cook]]></surname>
<given-names><![CDATA[R. D.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Influential Observations in Linear Regression]]></article-title>
<source><![CDATA[J. Am. Stat. Assoc.]]></source>
<year>1977</year>
<volume>74</volume>
<page-range>169-174</page-range></nlm-citation>
</ref>
<ref id="B26">
<label>26</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Verardi]]></surname>
<given-names><![CDATA[Vincenzo]]></given-names>
</name>
<name>
<surname><![CDATA[McCathie]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[The S-estimator of multivariate location and scatter in Stata]]></article-title>
<source><![CDATA[Stata J.]]></source>
<year>2012</year>
<volume>12</volume>
<page-range>299-307, 2012</page-range></nlm-citation>
</ref>
<ref id="B27">
<label>27</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Stahel]]></surname>
<given-names><![CDATA[W.A.]]></given-names>
</name>
<name>
<surname><![CDATA[Werner]]></surname>
<given-names><![CDATA[A.]]></given-names>
</name>
</person-group>
<source><![CDATA[Robuste Schätzungen: Infinitesimale Optimalität und Schätzungen von Kovarianzmatrizen]]></source>
<year>1981</year>
<publisher-name><![CDATA[ETH Zurich]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B28">
<label>28</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Donoho]]></surname>
<given-names><![CDATA[DL]]></given-names>
</name>
</person-group>
<source><![CDATA[Breakdown properties of multivariate location estimators]]></source>
<year>1982</year>
<publisher-loc><![CDATA[Boston ]]></publisher-loc>
<publisher-name><![CDATA[Tech. report, Harvard Univ.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B29">
<label>29</label><nlm-citation citation-type="book">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Verardi]]></surname>
<given-names><![CDATA[V.]]></given-names>
</name>
<name>
<surname><![CDATA[Gassner]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<source><![CDATA[Robustness for dummies]]></source>
<year>2012</year>
<publisher-name><![CDATA[ECARES Work. Pap.]]></publisher-name>
</nlm-citation>
</ref>
<ref id="B30">
<label>30</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Verardi]]></surname>
<given-names><![CDATA[V.]]></given-names>
</name>
<name>
<surname><![CDATA[Vermandele]]></surname>
<given-names><![CDATA[C.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[Univariate and multivariate outlier identification for skewed or heavy-tailed distributions]]></article-title>
<source><![CDATA[Stata J.]]></source>
<year>2018</year>
<volume>18</volume>
<page-range>517-532</page-range></nlm-citation>
</ref>
<ref id="B31">
<label>31</label><nlm-citation citation-type="">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Weisberg]]></surname>
<given-names><![CDATA[S.]]></given-names>
</name>
<name>
<surname><![CDATA[John]]></surname>
<given-names><![CDATA[F.]]></given-names>
</name>
</person-group>
<source><![CDATA[An R companion to applied regression]]></source>
<year>2018</year>
</nlm-citation>
</ref>
<ref id="B32">
<label>32</label><nlm-citation citation-type="journal">
<person-group person-group-type="author">
<name>
<surname><![CDATA[Salibi]]></surname>
<given-names><![CDATA[Y. V.]]></given-names>
</name>
<name>
<surname><![CDATA[an-Barrera]]></surname>
<given-names><![CDATA[M.]]></given-names>
</name>
</person-group>
<article-title xml:lang="en"><![CDATA[A fast algorithm for S-regression estimates]]></article-title>
<source><![CDATA[J. Comput. Graph. Stat.]]></source>
<year>2006</year>
<volume>15</volume>
<page-range>414-427</page-range></nlm-citation>
</ref>
</ref-list>
</back>
</article>
