이상치: 극단적으로 튀는 값
[이상치의 특징]
1. 극단적인 값
2. 예외적인 패턴: 예상되는 데이터에서 벗어나는 패턴을 지님
3. 실수 또는 에러
4. 통계적 이상성
이상치는 데이터 분석에서 고려되어야 하는 이유 중 하나는
이상치가 모델링 결과를 왜곡시키고 잘못된 결론을 도출할 수 있다는 것.
따라서 이상치를 식별하고 처리하는 것은 데이터의 신뢰성을 높이고 정확한 분석 결과를 얻기 위한 중요한 단계.
IQR (Interquartile Range) 이상치는 통계학에서 데이터의 분포를 파악하고 이상치를 식별하는데 사용되는 중요한 개념 중 하나입니다. IQR은 데이터 집합의 중간 50% 범위를 나타내며, 이 범위 내에 있는 데이터 포인트를 정상 범주로 간주하고, 이를 벗어난 데이터 포인트를 이상치로 간주합니다.
IQR 이상치를 식별하는 방법은 다음과 같습니다:
- 제 1 사분위(Q1)와 제 3 사분위(Q3)를 계산합니다. 이는 데이터를 4등분한 것으로, Q1은 하위 25% 범위를 나타내고, Q3은 상위 25% 범위를 나타냅니다.
- IQR을 계산합니다. IQR은 Q3에서 Q1을 뺀 값으로, IQR = Q3 - Q1입니다.
- IQR을 사용하여 이상치의 경계를 설정합니다. 일반적으로 IQR의 1.5배를 Q1에서 빼고, Q3에 더해서 상한과 하한을 계산합니다.
- 이상치 상한: Q3 + 1.5 * IQR
- 이상치 하한: Q1 - 1.5 * IQR
- 데이터 집합에서 이상치 상한을 초과하거나 이상치 하한 미만에 있는 데이터 포인트를 IQR 이상치로 간주합니다.
.
'공부 > python' 카테고리의 다른 글
알고리즘 BFS(너비우선탐색) (0) | 2023.11.24 |
---|---|
enumerate (0) | 2023.11.23 |
ImportError: cannot import name 'Int64Index' from 'pandas' (0) | 2023.11.04 |
계속 혼동 된다.. map 함수 (0) | 2023.10.23 |
텐서플로 import 에러 (0) | 2023.10.22 |