공부/python

IQR 이상치

무른2 2023. 11. 4. 22:32

 

 

이상치 탐지를 위한 사분범위(InterQuartile Range, IQR)

작년부터 BLE에서 발생하는 스푸핑 공격 탐지 시스템의 개발을 위해 관련된 논문이나 정보들을 찾아 읽어보기 시작했습니다. 저는 단순히 스푸핑 공격을 감지하는 것이 아닌 사용자와 공격자를

ahang.tistory.com

 

 

 

 

이상치: 극단적으로 튀는 값

 

[이상치의 특징]

1. 극단적인 값

2. 예외적인 패턴: 예상되는 데이터에서 벗어나는 패턴을 지님

3. 실수 또는 에러

4. 통계적 이상성

 

이상치는 데이터 분석에서 고려되어야 하는 이유 중 하나는

이상치가 모델링 결과를 왜곡시키고 잘못된 결론을 도출할 수 있다는 것.

따라서 이상치를 식별하고 처리하는 것은 데이터의 신뢰성을 높이고 정확한 분석 결과를 얻기 위한 중요한 단계. 

 

 

 

 

 

 

IQR (Interquartile Range) 이상치는 통계학에서 데이터의 분포를 파악하고 이상치를 식별하는데 사용되는 중요한 개념 중 하나입니다. IQR은 데이터 집합의 중간 50% 범위를 나타내며, 이 범위 내에 있는 데이터 포인트를 정상 범주로 간주하고, 이를 벗어난 데이터 포인트를 이상치로 간주합니다.

IQR 이상치를 식별하는 방법은 다음과 같습니다:

  1. 제 1 사분위(Q1)와 제 3 사분위(Q3)를 계산합니다. 이는 데이터를 4등분한 것으로, Q1은 하위 25% 범위를 나타내고, Q3은 상위 25% 범위를 나타냅니다.
  2. IQR을 계산합니다. IQR은 Q3에서 Q1을 뺀 값으로, IQR = Q3 - Q1입니다.
  3. IQR을 사용하여 이상치의 경계를 설정합니다. 일반적으로 IQR의 1.5배를 Q1에서 빼고, Q3에 더해서 상한과 하한을 계산합니다.
    • 이상치 상한: Q3 + 1.5 * IQR
    • 이상치 하한: Q1 - 1.5 * IQR
  4. 데이터 집합에서 이상치 상한을 초과하거나 이상치 하한 미만에 있는 데이터 포인트를 IQR 이상치로 간주합니다.

.

 

 

 

'공부 > python' 카테고리의 다른 글

알고리즘 BFS(너비우선탐색)  (0) 2023.11.24
enumerate  (0) 2023.11.23
ImportError: cannot import name 'Int64Index' from 'pandas'  (0) 2023.11.04
계속 혼동 된다.. map 함수  (0) 2023.10.23
텐서플로 import 에러  (0) 2023.10.22