본문 바로가기

딥러닝,패턴인식,빅데이터

빅데이터 분석기사 3회 기출문제 풀이(1)

 
빅데이터분석기사 3회 실기 기출문제
결국 pandas의 몇가지 함수에 대해서 숙지하면 된다.
 
결측값 제거 - dropna
위치인덱스 접근 - loc, iloc
사분위값 정리 - describe
평균 - mean
정렬 - sort_values
 
4회도 해당 기출을 풀 정도면 충분히 다 맞을 정도 수준이였다.
 
# 작업형 1-1번
## 다음은 Boston Housing 데이터셋이다. 데이터 중 컬럼들의 결측값을 전부 제거 후 데이터를 처음부터 순서대로 70%를 추출하여  변수 중 'tax'의  사분위수 Q1값을 구하시오.
import pandas as pd
a=pd.read_csv('3rd_boston_housing.csv')
# print(a.info())
b=a.dropna()
b=b.iloc[:int(len(a)*0.7)]
answer=b['tax'].describe()['25%']
print(answer)

정답 264.0

 
# 작업형 1-2번
## 다음은 국가별 국내 입국자 수 데이터이다. 2000년도 전체 입국자 평균보다 국내에 많이 입국한 국가의 수를 산출하시오
import pandas as pd
data=pd.read_csv('3rd_tour.csv', index_col='year', encoding='euc-kr')
mean=data.loc[2000].mean()
print(sum(data.loc[2000, :]>mean))

정답 : 7

 

# 작업형 1-3번

## 다음 데이터셋의 컬럼 중 빈값 또는 결측치를 확인하여 결측치의 비율이 높은 변수명을 출력하시오

import pandas as pd
data=pd.read_csv('3rd_titanic.csv')
# print(data.info())
print((data.isnull().sum()/len(data)).sort_values(ascending=False).index[0])

정답 : Age