Exploratory Data Analysis | 탐색적 데이터 분석 용어정리

o 추론(Inference)

1. 소규모 Sample 기반으로 대규모 모집단에 대한 결론 도출

2. 전형적 추론 과정: 가설 -> 실험설계 -> Data수집 -> 추론 및 결론 도출

o 절사평균(Trimmed Mean) – 극단값을 제외한 평균으로 Truncated Mean과 유사

o Robust하다 – 극단값에 민감하지 않다(Resistant, 저항성이 있다고도 함)

o Overfitting - Noise까지 fitting한 것

o Feature Scaling : 변수의 범위가 달라서 발생 가능한 문제를 예방하기 위하여 사용. 즉, 데이터의 편향성 방지목적

o 이상치에 크게 영향을 받지 않는 통계치로 Feature Scaling 한다고 해서 이상치가 없어지거나 줄어들지 않는다. 따라서 Feature Scaling 하기 이전에 이상치를 처리할 방안을 정해야 한다.

o 이상검출(Anomaly Detection) – 예외적으로 측정된 특이값이 주 관심사라는 의미

o 산포도(Dispersion) - Data값이 얼마나 밀집되어있거나 퍼져있는지 나타낸다

o 선택편향(Selection Bias) – 관측 Data를 선택하는 방식때문에 생기는 편향

o Data Snooping – 뭔가 흥미로운 것을 찾아 광범위하게 Data를 살피는 것

o 표준편차 – 개별 Data포인트의 변동성 측정

o 표본(Sample)에서 표준편차는 표본의 값이 평균에서 어떻게 흩어져 있는지를 계산한 것

o 표준오차(Standard Error)

1. 각 Sample의 평균들과 모집단의 평균의 차이를 나타내는 것

2. 표본 측정지표의 변동성을 측정하는 것으로서 표본통계량의 변동성을 요약하는 지표

3. 표집분포의 표준편차는 표집오차에 따라 달라지기 때문에 Standard Error라고 함

o 표본집합(Sample Space) – 예상 가능한 모든 결과의 집합

o 중심극한정리(Central Limit Theorem) – 표본의 크기가 커질수록 표본분포가 정규분포를 따르는 성향

o 부트스트랩 - 표본을 수천, 수백만번 복제하는 복원추출로서 크기가 작은 표본 보완목적이 아닌 추가적 표본추출시에 그 표본이 얼마나 원래 표본과 비슷할지 알 수 있는 것뿐이다.

o 신뢰수준(Confidence Level) – 같은 모집단으로부터 같은 방식으로 얻은 관심통계량을 포함할 것으로 예상되는 신뢰구간의 백분율로서 참 값이 일정구간 사이에 있을 확률이 얼마인가?를 구하기 위함

o 확률문제란 Random Model이 주어졌을때 극단적 결과가 나올 확률이 어느정도인가?이다. 즉, Random Model도 적합도에 관하여 역으로 추적하는 것으로서 그에 대한 판단은 어떤 확률로 나타내지 않는다.

o 상관계수 통계치만으로 가정조건이 만족되는지 확인할 수 없으므로 상관분석의 경우 산포도를 통하여 이분산성이나 등분산성 같은 가정충족여부를 따져보아야 한다.

o 차원의 저주(Curse of Dimesionality) – 관측치 대비 변수가 많아질수록(고차원이 될수록) 공간에 있는 값이 서로 떨어지게되어 데이터간의 패턴을 찾기 힘들게 하여 Model 의 성능을 떨어뜨리는 문제

o 희소성(Sparsity) – 관측치의 수가 동일한 상태에서 차원이 하나 늘수록 존재할 수 있는 공간이 기하급수적으로 늘어나므로 관측치 간의 빈공간(관측 Data간의 거리)가 늘어나는 현상

728x90

OliverHouse