본문 바로가기
Data Science & AI Theories

Exploratory Data Analysis | 탐색적 데이터 분석 용어정리

by Oliver J 2023. 8. 12.
반응형

o    추론(Inference)

        1.     소규모 Sample 기반으로 대규모 모집단에 대한 결론 도출

        2.     전형적 추론 과정: 가설 -> 실험설계 -> Data수집 -> 추론 및 결론 도출

 

o    절사평균(Trimmed Mean) – 극단값을 제외한 평균으로 Truncated Mean과 유사

 

o    Robust하다 극단값에 민감하지 않다(Resistant, 저항성이 있다고도 함)

 

o    Overfitting - Noise까지 fitting한 것

 

o    Feature Scaling : 변수의 범위가 달라서 발생 가능한 문제를 예방하기 위하여 사용. , 데이터의 편향성 방지목적

 

o    이상치에 크게 영향을 받지 않는 통계치로 Feature Scaling 한다고 해서 이상치가 없어지거나 줄어들지 않는다. 따라서 Feature Scaling 하기 이전에 이상치를 처리할 방안을 정해야 한다.

 

o    이상검출(Anomaly Detection) – 예외적으로 측정된 특이값이 주 관심사라는 의미

 

o    산포도(Dispersion) - Data값이 얼마나 밀집되어있거나 퍼져있는지 나타낸다

 

o    선택편향(Selection Bias) – 관측 Data를 선택하는 방식때문에 생기는 편향

 

o    Data Snooping – 뭔가 흥미로운 것을 찾아 광범위하게 Data를 살피는 것

 

o    표준편차 개별 Data포인트의 변동성 측정

 

o    표본(Sample)에서 표준편차는 표본의 값이 평균에서 어떻게 흩어져 있는지를 계산한 것

 

o    표준오차(Standard Error)

        1.     Sample의 평균들과 모집단의 평균의 차이를 나타내는 것

        2.     표본 측정지표의 변동성을 측정하는 것으로서 표본통계량의 변동성을 요약하는 지표

        3.     표집분포의 표준편차는 표집오차에 따라 달라지기 때문에 Standard Error라고 함

표준오차 공식

o    표본집합(Sample Space) – 예상 가능한 모든 결과의 집합

반응형

o    중심극한정리(Central Limit Theorem) – 표본의 크기가 커질수록 표본분포가 정규분포를 따르는 성향

 

o    부트스트랩 - 표본을 수천, 수백만번 복제하는 복원추출로서 크기가 작은 표본 보완목적이 아닌 추가적 표본추출시에 그 표본이 얼마나 원래 표본과 비슷할지 알 수 있는 것뿐이다.

 

o    신뢰수준(Confidence Level) – 같은 모집단으로부터 같은 방식으로 얻은 관심통계량을 포함할 것으로 예상되는 신뢰구간의 백분율로서 참 값이 일정구간 사이에 있을 확률이 얼마인가?를 구하기 위함

 

o    확률문제란 Random Model이 주어졌을때 극단적 결과가 나올 확률이 어느정도인가?이다. , Random Model도 적합도에 관하여 역으로 추적하는 것으로서 그에 대한 판단은 어떤 확률로 나타내지 않는다.

 

o    상관계수 통계치만으로 가정조건이 만족되는지 확인할 수 없으므로 상관분석의 경우 산포도를 통하여 이분산성이나 등분산성 같은 가정충족여부를 따져보아야 한다.

 

o    차원의 저주(Curse of Dimesionality) – 관측치 대비 변수가 많아질수록(고차원이 될수록) 공간에 있는 값이 서로 떨어지게되어 데이터간의 패턴을 찾기 힘들게 하여 Model 의 성능을 떨어뜨리는 문제

 

o    희소성(Sparsity) – 관측치의 수가 동일한 상태에서 차원이 하나 늘수록 존재할 수 있는 공간이 기하급수적으로 늘어나므로 관측치 간의 빈공간(관측 Data간의 거리)가 늘어나는 현상

728x90
반응형