Cómo (y por qué) usar la función de valores atípicos en Excel

Contenidos


Un valor atípico es un valor que es significativamente más alto o más bajo que la mayoría de los valores en sus datos. Cuando se utiliza Excel para analizar datos, los valores atípicos pueden sesgar los resultados. A modo de ejemplo, el promedio medio de un conjunto de datos podría reflejar verdaderamente sus valores. Excel proporciona algunas funciones útiles para ayudarlo a administrar sus valores atípicos, por lo tanto echemos un vistazo.

Un ejemplo rápido

En la imagen de abajo, los valores atípicos son razonablemente fáciles de detectar: ​​el valor de dos asignado a Eric y el valor de 173 asignado a Ryan. En un conjunto de datos como este, es bastante sencillo detectar y tratar esos valores atípicos manualmente.

Rango de valores que contienen valores atípicos

En un conjunto de datos más grande, ese no será el caso. Ser capaz de identificar los valores atípicos y eliminarlos de los cálculos estadísticos es esencial, y eso es lo que veremos en este post.

Cómo hallar valores atípicos en sus datos

Para hallar los valores atípicos en un conjunto de datos, utilizamos los siguientes pasos:

  1. Calcula el primer y tercer cuartiles (hablaremos un poco sobre cuáles son).
  2. Evalúe el rango intercuartílico (además lo explicaremos un poco más adelante).
  3. Devuelve los límites superior e inferior de nuestro rango de datos.
  4. Utilice estos límites para identificar los puntos de datos periféricos.

El rango de celdas a la derecha del conjunto de datos que se ve en la imagen a continuación se utilizará para guardar estos valores.

Rango de cuartiles

Comencemos.

Paso uno: calcular los cuartiles

Si divide sus datos en cuartos, cada uno de esos conjuntos se llama cuartil. El 25% más bajo de números en el rango constituye el primer cuartil, el siguiente 25% el segundo cuartil, y así sucesivamente. Damos este paso primero debido a que la definición más utilizada de un valor atípico es un punto de datos que está más de 1,5 rangos intercuartílicos (IQR) por debajo del primer cuartil y 1,5 rangos intercuartiles por encima del tercer cuartil. Para establecer esos valores, primero tenemos que averiguar cuáles son los cuartiles.

Excel proporciona una función CUARTIL para calcular cuartiles. Necesita dos piezas de información: la matriz y el cuarto.

=QUARTILE(array, quart)

los capacitación es el rango de valores que está evaluando. Y el cuarto de galón es un número que representa el cuartil que desea devolver (a modo de ejemplo, 1 para el 1S t cuartil, 2 para el segundo cuartil y así sucesivamente).

Nota: En Excel 2010, Microsoft lanzó las funciones QUARTILE.INC y QUARTILE.EXC como mejoras a la función CUARTIL. QUARTILE es más compatible con versiones anteriores cuando se trabaja en varias versiones de Excel.

Volvamos a nuestra tabla de ejemplo.

Rango de cuartiles

Para calcular el 1S t Cuartil podemos utilizar la próxima fórmula en la celda F2.

=QUARTILE(B2:B14,1)

A medida que ingresa la fórmula, Excel proporciona una lista de alternativas para el argumento de un cuarto.

Para calcular el 3rd cuartil, podemos ingresar una fórmula como la anterior en la celda F3, pero usando un tres en lugar de uno.

=QUARTILE(B2:B14,3)

Ahora, tenemos los puntos de datos del cuartil mostrados en las celdas.

Valores del primer y tercer cuartil

Paso dos: examinar el rango intercuartil

El rango intercuartil (o IQR) es el 50% medio de los valores en sus datos. Se calcula como la diferencia entre el valor del primer cuartil y el valor del tercer cuartil.

Usaremos una fórmula simple en la celda F4 que resta el 1S t cuartil del 3rd cuartilla:

=F3-F2

Ahora, podemos ver nuestro rango intercuartil mostrado.

Valor intercuartil

Paso tres: devolver los límites inferior y superior

Los límites inferior y superior son los valores más pequeños y más grandes del rango de datos que queremos utilizar. Cualquier valor menor o mayor que estos valores límite son los valores atípicos.

Calcularemos el límite inferior en la celda F5 multiplicando el valor IQR por 1.5 y posteriormente restándolo del punto de datos Q1:

=F2-(1.5*F4)

Fórmula de Excel para el valor límite inferior

Nota: Los corchetes en esta fórmula no son necesarios debido a que la parte de la multiplicación se calculará antes que la parte de la resta, pero hacen que la fórmula sea más fácil de leer.

Para calcular el límite superior en la celda F6, multiplicaremos el IQR por 1.5 nuevamente, pero esta vez agregar al punto de datos Q3:

=F3+(1.5*F4)

Valores de límite inferior y superior

Paso cuatro: identificar los valores atípicos

Ahora que tenemos todos nuestros datos subyacentes configurados, es hora de identificar nuestros puntos de datos periféricos, los que son más bajos que el valor del límite inferior o más altos que el valor del límite superior.

Usaremos el Función OR para realizar esta prueba lógica y mostrar los valores que cumplen con estos criterios ingresando la próxima fórmula en la celda C2:

=OR(B2<$F$5,B2>$F$6)

Función OR para identificar valores atípicos

Después copiaremos ese valor en nuestras celdas C3-C14. Un valor VERDADERO indica un valor atípico y, como puede ver, tenemos dos en nuestros datos.

Ignorar los valores atípicos al calcular el promedio medio

El uso de la función CUARTIL nos posibilita calcular el IQR y trabajar con la definición más utilizada de un valor atípico. A pesar de esto, al calcular el promedio medio para un rango de valores e ignorar los valores atípicos, existe una función más rápida y fácil de utilizar. Esta técnica no identificará un valor atípico como antes, pero nos permitirá ser flexibles con lo que podríamos considerar nuestra porción de valores atípicos.

La función que necesitamos se llama TRIMMEAN, y puede ver su sintaxis a continuación:

=TRIMMEAN(array, percent)

los capacitación es el rango de valores que desea promediar. los por ciento es el porcentaje de puntos de datos para excluir de la parte de arriba e inferior del conjunto de datos (puede ingresarlo como un porcentaje o un valor decimal).

Ingresamos la fórmula a continuación en la celda D3 en nuestro ejemplo para calcular el promedio y excluir el 20% de los valores atípicos.

=TRIMMEAN(B2:B14, 20%)

Fórmula TRIMMEAN para promedio excluyendo valores atípicos


Allí tiene dos funciones diferentes para manejar valores atípicos. Ya sea que desee identificarlos para algunas necesidades de informes o excluirlos de cálculos como promedios, Excel cuenta con una función que se adapta a sus necesidades.

Suscribite a nuestro Newsletter

No te enviaremos correo SPAM. Lo odiamos tanto como tú.