카테고리 없음

빅데이터 직무 시험/ 면접 준비

아뜨으츄 2019. 11. 3. 18:54

예상 문제 정리 

 

통계 및 수학 

1. 고유값(eigen value)과 고유 벡터(eigen value) 

 - 자료행렬을 요약하는 수치로서, 특성치라고도 한다. 각 고유값은 그에 대응하는 고유 벡터가 있다. 

 - A = (m x n ) 행렬  이고 x는 Rn의 영벡터가 아닌 벡터 ㅏ 

AK = 람다* k 라고 했을 때 (A-람다I)k = 0 이었을 경우

0행렬ㄹ이 존재하면 k = 0 이므로 고유벡터가 존재하지 않는다. 

det ( A-람다*I) = 0 이면 고유벡터를 찾을 수 있다. 

 * eigen 의 기하핮걱 의미 

  Ax = 람다x 

 A를 선형변환하면 벡터 x를 람다 스칼라배 해줬을 경우 같다.

 ( 어떠한 선형변환 A가 있을 때 그 크기만 변하고 방향이 변하지 않는 벡터가 있는지 검사하는 것 ) 

이러한 고유값은 PCA 분석법에서 변환의 축을 찾는 경우 사용된다. 

 

 

2. 샘플링(Sampling)과 리샘플링(Resampling)

 - 아날로그 신호(생활속의 정보)를 Digital 신호(data)로 변환하는 과정이 Sampling 

 - 여기에서 다시 아날로그 신호로 바꾸는 과정이 Resampling인데, 이 과정에서 어떻게 변환하였는지, 그리고 sample의 크기에 따라서 왜곡이 생기기도 하므로 주의해야 한다. 이러한 왜곡을 엘리어싱이라 부른다. 

 

3. 확률 모형과 확률 변수 

 - 확률 모형 : 우연하게 지배되는 현상을 수식화한 모형 

                  우연 현상을 나타내는 경향을 연구하거나 또는 우연 변동을 포함하는 데이터에서 판단을 내리기 위해 이용

 - 확률 변수 : 일정한 확률을 가지고 발생하는 사상에 수치가 부여되는 변수 일반적으로 X로 표히 

                  실험 또는 우연성을 수반하는 현상을 관찰한 결과 하나의 실수값 X가 관측될 때, X는 여러가지 값을 취할 가능성이 있다.는 뜻에서는 하나씩 변수이지만 어떤 값을 어느 정도의 가능성으로 취하는 가는 거기에 정해진 확률에 의해 나타나게 된다. 이러한 변수를 확률 변수라 한다. 

                  확률 변수는 이산확률변수/연속확률변수로 나눌 수 있다. 

 

4. 누적 분포 함수 , 확률 밀도 함수 

 - 누적 분포 함수(Commulative Distribution Function : CDF) 

   : 어떤 확률 분포에 대해서 확률 변수가 특정 값보다 작거나 같을 확률 

 - 확률 밀도 함수 (Probability Density Function : PDF)

   : 연속형 확률 변수 사건의 확률이 그 사건 위에서 어떤 0보다 큰 값을 갖는 함수의 면적으로 표현될 수 있는 확률변수 

 

5. 베르누이 분포 = 이항분포 
 - 연속된 n번의 독립적 시행에서 각 시행이 확률 P이고 여사건이 일어날 확률이 q = 1-p 인 이산 확률 분포 

 

6. 카테고리 분포 = 다항분포 

 - 이항분포를 확장한 것으로 세 가지 이상의 결과를 가지는 사건의 반복시행에서 발생하는 확률분포 

 - K개 사건이 일어날 경우 k-1 차원의 이항분포를 갖는다. 

 

7. 가우시안 분포 = 정규분포 

 - 도수 분포의 그래프가 평균값을 중심으로 하여 좌우가 완전한 대칭을 이루는 것 

 

8. t분포 

 - 자유도에 따라 형태가 다른 분포, 평균이 0이고 좌우대칭, 표준편차가 1보다 크다. 

 

9. 카이제곱 분포 ( Chi-Square분포 ) 

 - 표준 정규분포 확률 변수의 제곱합 

 

10. F분포 

 - t 의 제곱이 따르는 분포 

 

11. 베타분포 , 감마분포 , 다리클레분포 

- 모수값을 조정하여 분포의 모양을 쉽계 바꿈 

- 베타 분포 : 0~1 사이의 값을 가지는 단일 확률변수의 베이지안 모형

- 감마분포 : 0 ~ 무한대 사이의 값을 가지는 단일 확률변수의 베이지안 모형 

- 다리클레 분포 : 0~1 사이의 값을 가지는 다변수 확률변수의 베이지안 모형 

 

12 . 베이지안 모델 

 - 확률을 가반으로 어떠한 문제애 대해 결론을 내리는 모델 

 - Baysian Model은 Baysian Theory(베이즈 정리)를 기반으로 한다. 

 

13. 조건부 확률 ( Conditional Probability) 

 - 어떤 사건이 일어난 조건 하에서 다르 사건이 일어날 확률을 말하는데, 사건 A가 일어났을 때 다른 사건 B의 조건부확률을 P(B|A)라고 표시 

 

14. 공분산과 상관계수 

 - 공분산 : 두 변수 사이의 관계를 나타내는 양 

 - 상관계수 : 두 변량 X, Y 사이의 상관관계 정도를 나타내는 수치 

               : 상관계수 r은 항상 부등식 -1<=r <= 을 만족시키며, 양의 상관관계가 있을 때 r>0 , 음의 상관관계가 있을 때 r< 0, 상관관계가 없을 경우 r=0 이다. 

 

15. 신뢰구간의 정의 (Confidence Interval)

 - 표본 평균을 이용하여 모평균이 포함될 가능성이 있다고 추정하는 구간 

 

16. p-value 설명 

 = Test Statistic  검정 통계량 

 - 검정통계량이 어떤 값을 극단적인 것 또는 실제로 관측되는 것보다 더 극단적인 것으로 받아들일 확률을 검정의 p-value라고 하며 이는 귀무가설이 참이라는 가정 하에 계산

  - 유의확률(p-value)는 귀무가설이 맞다는 전제하여 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률 

 

17. A/B Test 통계적으로 유의미함의 여부를 결정하기 위한 방법 

- 디지털 마케팅에서 두 가지 이상의 시안 중 최적만을 선정하기 위해 시험하는 방법 

- 일반적으로 웹페이지나 앱 개선시 사용자 인터페이스(UI/UX)를 최적화하기 위해, 실사용자들을 두 집단으로 나누어 나누어 기존의 웹페이지 디자인 A안과 새로 개선된 B안 중 선호도가 높은 것으로 결정 

 

18. R-square 의 의미 

 - 회귀식의 설명력 , R-Square = SSR/SST = 1 - SSE/SST

 - SST : 총변동 / SSR : 설명된부분 

 

19. 중심극한 정리는 왜 유용? 

 - 중심극한 정리는 표본에 기초하여 모집단에 관한추측을 한다. 방법론적 기초를 부여하는 것으로 매우 중요 

 " 사회과학의 조사에서는 표본이 하나 밖에 없는 것이 보통이다. 그 의미에서는 중심극한 정리의 중요성을 알 수 있다. " 

 - 1회 밖에 계산할 수 없는 표본 평균이라 해도 그것이 정규분포에 따른 확률변수의 실현값이라는 것은 중요사실 

 그것에서 우리들은 표본 평균이나 기타 표본 통계량에 대해서 정규분포를 상정한 가설검증을 하거나 신뢰구간의 추정을 할 수 있다. 

 

16. Entropy엔트로피에 대해 설명, Information Gain까지 

- 엔트로피 : 확률 통계에서 말하는 수 개념(= 무질서도 : 무질서 할수록 경우의 수가 많아짐 ) 

- Information Gain(정보이득량 ) : I(x) = -logP(x)

 : 잘 일어나지 않은 사건은 자주 발생하는 것보다 정보량이 많다. 

 - Entropy = E(-logP(x))

  : 값을 에쌍하기 어려운 정도, 어떤 것이 나올 지 예측하기 어려운 정도 

 

17. 비모수적 검증 

 - 모수적 통계 방법에 대조되는 방법

 - 전집분포에 대한 특정한 가정을 비교적 요구하지 않으며 주어진 자료가 서열변인이나 질적인 분류인 명명변인인 경우가 적용되는 일련의 통계적 방법 

 

 18. likelihood(가능도)와 'Probability'(확률)의 차이 

 - 확률(Probability) : 특정 구간에 속할 확률 : 확률밀도 함수 =PDF

 : 연속사건의 경우에는 특정 사건이 일어날 확률은 모두 0이며, 어떤 구간에 속할 확률을 PDF를 이용하여 구할 수 있다. 

 

-> 특정 사건이 일어날 가능성을 비교할 수는 없을 까? => 가능도 (Likelihood) 

- 그래프에서 y 값 = y값이 높을 수록 일어날 가능성이 높은 사건 

 

-> 최대 가능도 추정량 ( Maxinum Likelihood Estimation : MLE) 

가능도 L이 최대가 되도록 p를 추정 

예시 L = 10C4 p^4 (1-p)^6  / p = 0.4

 

 

19. 통계에서 사용되는 bootstrap 

- 'Bootstraping' : 가설 검증을 하거나 메트릭(metric)을 계산하기 전에 random Smpling을 적용하는 방법 

-> 평균의 confidence interval을 구하고 싶다면 데이터를 수집했던 확률변수의 정확한 분포를 모르는 경우 

 

* ML에서의 부트스트랩(BootStrap in Machine Learning) 

- 랜덤 샘플링을 통해 Training data를 늘리는 방법 

예로 데이터의 균형이 맞지 않는 문제를 해결하기 위해 사용 

1. Weight를 줄일 수 있는 알고리즘 사용 ㅇ

2. BootStrapping으로 적은 데이터 수 늘리기 

3. 비교 많은 데이터 수를 역으로 줄이기 

 

-> 부트 스트래핑은 over Fitting을 줄이는 데에도 도움이 되며 Bagging이라고 한다.

 Over fitting을 줄이기 위해서 데이터가 가장 많은게 제일 좋지만 마땅치 않을 때 model Complexity를 줄아ㅣ는 거 

"Bootstrapping을 이용하면 데이터가 충분하지 않아도 model ensemble을 만들 수 있다. 

 

20. 베이지안과 프리퀀티스트 간의 차이 

- 빈도주의자 (Frequentist) : 확률을 객관적 확률로 해석  ㅣP(이론->근거)

- 베이즈주의자(Bayesian) : 확률을 주관적 확률로 해석 | P(이론) -> P(근거->이론)

 

21 필요한 표본의 크기를 계산하는 방법 

 n치 충분히 클 경우 모비율과 표분비율의 계산식을 통해

n = (z / 표본오차)^2 * p(1-p)

 

22. Bias 통제 방법 및 설명 

머신러닝 모델의 에러는 Bias(편향)과 Variance(분산) 두 가지로 나눌 수 있다.

 - 이 두가지 개념은 서로 다른게 움직은 겨향이 있는데 Bias를 줄이면 Variance가 높아진다. 이러한 현상을 Bias-Variance Tradeoff(편향 분산 트레이드 오프) 라고 한다. 

- Bias : 학습 데이터를 충분히 표현할 수 없기 때문에 발생 높은 Bias를 보이는 모델은 underFitting이 된 상태

- Variance : 트레이닝 데이터에 너무 민감하게 반응하여 발생 높은 Variance를 보이는 모델 overFitting이 된 상태

 

Bias는 충분한 데이터가 있지만, 데이터 안에 있는 데이터 간의 상관관계를 추분히 풀어내지 못할 떄 발생

Variance는 우리는 일반적으로 전체 데이터 일부로 트레이닝을 시키는데 모델의 복잡도를 낮추어 Variance를 계산

-> 모델이 복잡해 질수록 Training Error는 계속 감소 

Cross validation error는 급격하게 감소 

cross Validation이 Training error보다 너무 높으면 variance 

 

23. 로그함수는 어떤 경우 유용한가? 

 - 자연로그를 씌우면 비선형관계를 선형관계로 변환시킬 수 있어서 회귀분석 시 유용

 

24. 좋은 Feature란 

- 훈련 데이터에 관련 없는 특성이 적고 관련이 있는 특성이 충분해야 학습 진행 

훈련에 사용할 좋은 특성들을 차아야 한다. 방법으로는 

- Feature Selection(특성 선택) : 가지고 있는 특성 중 훈련에 가장 유용한 특성 선택 

- Feature Extraction : 특성을 결함하여 더 유용한 특성 만듦

 

25. A/B Test의 장점과 단점 이를 해결할 방안 

 - A/B Testing이란 웹 사이트 방문자를 임의로 두 집단으로 나누고, 한 집단에게는 기존 사이트를 보여주고 다른 집단에게는 새로운 사이트를 보여준 다음 두 집단 중 어느 집단이 더 높은 성과를 보이는지 측정 

 A/B testing을 하는 이유 : 상관관계로부터 인과관계일 가능성이 높은 것을 찾아내기 위해 

 A/B testing의 단점 

1. 테스트를 많이/자주 하면 단기적 손해 

2. A/B 테스팅의 결과는 계절 변화나 취향 변화 등에 바뀔 수 있다.

3. A/B 테스팅만으로는 지역 최적점에 머물게 될 유ㅣ험이 있다. 기존 상태에서 작은 변화(되도록 하나의 변수만 살짝 바꾸기) 점진적으로 더 나은 상태를 찾아가는 방식 

 

25. backend /frontend /klafda??

사용 장단점 

 

26. 지지도/ 신뢰도

 

27. noSql의 장단점