오늘 배울 것!
1. 공공 데이터 다운로드하기
2. 필요한 라이브러리 불러오기
3. 시각화를 위한 폰트 설정
4. 파일 로드하기
5. 데이터 미리 보기
6. 데이터 요약정보 보기
1. 공공 데이터 다운로드하기
아래 포스팅을 참조하여 오늘 필요한 데이터를 다운로드할 수 있으세요
https://jaybird-o3.tistory.com/19
파이썬 : 공공데이터 찾기 및 분석할 데이터셋 소개
데이터 사이언스를 입문하기 전, 공공데이터 포털에서 데이터를 가져오는 것을 배워보자 다운로드한 데이터와 파이썬의 다양한 라이브러리, 주피터 노트북 혹은 구글 콜라보레이토리를 활용하여 데이터를 분석해볼..
jaybird-o3.tistory.com
** 파일을 다운로드한 후, 압축을 풀으셔야 합니다.
** 저 같은 경우에 압축을 풀고 난 후, 파일명이 전부 깨지는 현상이 생겼었어요. 그렇게 되었다면, 압축을 풀은 후, csv파일명을 상가(상권) 정보_의료기관_201909.csv로 변경하여 data폴더에 넣어주셔야 합니다.
이렇게 하면 오늘 실습 준비 끝!
2. 필요한 라이브러리 불러오기
분석을 하기 위해서 몇 개의 라이브러리를 불러와야 해요
- Pandas = Python Data Analysis Library
- Numpy = 수치계산을 위한 라이브러리
- seaborn = 데이터 시각화를 위한 라이브러리
3. 시각화를 위한 폰트 설정 하기
ㄱ. 시각화 라이브러리 불러오기
- matplotlib에서 pyplot을 불러온 후, plt로 폰트 설정하기
- matplotlib은 파이썬에서 데이터를 차트나 플롯으로 그려주는 라이브러리 패키지이다.
- matplotlib를 불러오기 위해 matplotlib.pyplot을 불러와야 한다. 통상적으로 plt라는 명칭을 사용한다.
ㄴ. 폰트 설정하기
- plt.rc()를 사용하여 폰트를 맑은 고딕으로 설정함
- 한글 폰트를 사용할 때 마이너스 폰트가 깨지는 것을 방지하기 위해 unicode_minus=False를 꼭!! 입력해야 한다
ㄷ. 폰트 선명하게
- 아래와 같이 retina를 사용하면 폰트를 더 선명하게 설정할 수 있다고 한다.
4. 파일 로드하기
- data/pd.read_csv()를 사용해 data폴더에서 상가(상권) 정보_의료기관_201909.csv 파일을 불러온다
- 우리가 사용하려는 파일에는 여러 가지 데이터 타입이 섞여있기 때문에 low_memory=false라는 옵션을 지정해야 한다는 오류가 떴다.
- 아래와 같이 진행하면 오류를 없앨 수 있다. 불러온 파일을 df라는 변수에 넣어주자
- 그리고. shape를 통해 몇 행 몇 열인지 확인해볼 수 있다. (항상 행, 열로 나열된다)
5. 데이터 미리 보기
ㄱ. df.head()
- 처음부터 기본값으로 지정된 개수만큼 보여준다.
- 괄호 안에 숫자를 넣으면, 숫자만큼 데이터를 볼 수 있다
ㄴ. df.tail()
- 마지막 값을 지정된 개수만큼 볼 수 있다
- df.head()와 동일하게 괄호 안에 숫자를 넣으면, 숫자만큼 데이터를 볼 수 있다.
- 이 데이터의 경우 인덱스가 0으로 시작하기 때문에 마지막 번호가 91334인 것을 알 수 있다.
6. 데이터 요약하기
ㄱ. df.info()
- 데이터 요약을 볼 수 있다.
- int = 정수
- float = 실수
- object = 문자열
- 자세히 보면 숫자가 차이 나는 것을 볼 수 있다. 이 것은 결측치로 보면 된다 (예시. 건물명, 동 정보)
**결측치란? Not Available, 값이 표기되지 않은 값.
ㄴ. df.columns
- 칼럼명을 확인할 수 있다.
ㄷ. df.dtypes
- 데이터 타입을 확인할 수 있다.
'Data science' 카테고리의 다른 글
파이썬 결측치 처리 (0) | 2020.04.25 |
---|---|
아나콘다 설치 [파이썬] / jupyter notebook에 nbextension 추가 (0) | 2020.04.24 |
파이썬 : 공공데이터 찾기 및 분석할 데이터셋 소개 (0) | 2020.04.20 |
Jupyter Notebook에서 데이터 파일 경로 설정하기 (0) | 2020.04.19 |