boxplot의 정확한 그림

상자 그림에는 "상한"과 "하한"이 없습니다.

중국 네트워크에는 boxplot 위와 아래의 두 줄이

상한 = Q1 - 1.5IQR
하한 = Q3 + 1.5IQR

실제로는 아닙니다.
이 사진을 보시고 노란색 화살표가 2개 있는 부분을 주목해주세요 (아래 노란색 화살표가 너무 작아서 또 다른 초록색 화살표로 표시)

#用python捏一个较为夸张的数据
import pandas as pd
data = pd.DataFrame([ 54,  65,  72,  76, 104, 432, 457])
data.boxplot()

더 과장된 데이터 꼬집기
위의 공식에 따라 계산하면 두 개의 노란색 화살표의 길이가 같아야 합니다. 즉, 1.5IQR이지만 분명히 그렇지 않습니다.

실제로 상자 그림에는 "상한" 또는 "하한"과 같은 것이 없습니다.
이 두 수평선의 실제 의미는 이상값을 제거한 후 나머지 데이터 세트에서 가장 큰 데이터와 가장 작은 데이터가 나타내는 위치입니다.

1분기 - 1.5IQR
3분기 + 1.5IQR

이 두 공식은 이상값을 판단하는 데 사용됩니다.
즉, 데이터 세트에서 값을 가져옵니다. x
x = { outlier if x > Q 3 + 1.5 ∗ IQR or x < Q 1 − 1.5 ∗ IQR normal else ( α ) x = \begin{cases} outlier& \text{if } x>Q3+1.5*IQR \space 또는 \space x<Q1 - 1.5*IQR\\ 일반 값 &\text{else} \end{cases}(\alpha)엑스={ 국외자정상값만약  x>질문 3+1.5나는 QR 또는 x  <질문 1-1.5나는 QR다른( ) _

박스 플롯을 그리는 올바른 단계 요약

1. 전체 데이터 세트의 사분위수를 계산하고 상자 부분을 그립니다.
2. 이전 단계의 공식( α \alphaα ) 이상값을 선택한 후 남은 최대값과 최소값은 박스 플롯의 두 수평선입니다.
3. 마지막으로 점 형태로 상자 그림에 이상값을 그립니다.

참고: https://en.wikipedia.org/wiki/Box_plot

Guess you like

Origin blog.csdn.net/seriseri/article/details/124448472