#공공데이터 분석
1. 데이터 탐색
데이터를 제공하는 사이트 'kaggle', '공공데이터포털', 각종 지자체 사이트에서 필요한 데이터를 내려받을 수 있다.
공공데이터포털(https://www.data.go.kr/data/3057229/fileData.do)에 있는 '부산교통공사_시간대별 승하차인원' 데이터를 사용하였다.
2. 데이터 정보
(1) head()
'head'함수를 통해 해당 데이터가 역번호-역명-날짜-요일-승-하차-시간... 순으로 이루어짐을 확인하였다.
그 외에도 해당 데이터는 1호선 ~ 4호선까지, 한달 단위로 나누어져 총 6개월치의 내용이 있다.
(2) info(), describe()
3. 데이터 전처리
(1) 1호선 데이터만 사용할 예정이므로 2호선부터는 삭제한다.
원본 데이터 => 역번호가 150이상인 행은 삭제
(2) 요일별로 알아보기 위해 분리한다.
원본 데이터 => 새로운 프레임 7개에 각각 요일에 해당하는 열만 추가
(3) 승차-하차 데이터를 분리한다.
원본 데이터 => 새로운 프레임 2개에 각각 구분이 '승차'인 행, '하차'인 행을 추가한다.
4. 데이터 시각화
(1) 요일별 승객 평균
3-2에서 요일별로 분리한 데이터를 각각 합계와 평균을 구한다. 이후 x축(요일)과 y축(평균 승객)에 해당하는 리스트를 만들어 변수에 저장, 이를 토대로 막대그래프를 그린다.
(2) 시간별 승객 평균
원본 데이터의 'head()'를 임시 데이터프레임에 저장한다. 이를 리스트로 변환한 뒤, 임시 변수에서 2번째 행인 평균만 추출하기 위해 head 함수와 tail 함수를 사용해 평균 리스트만을 가지고 온다.
이를 보기 편하도록 오전과 오후로 나누어준 뒤 그래프를 그린다.
5. 데이터 활용 방안 생각하기
(1) 승, 하차 인원이 많은 역에 많은 시설 관리 인력을 배치한다. 그 중 서면역이 유동인구가 가장 많으므로 중점적으로 배치, 관리할 수 있게끔 한다.
(2) 또한 많은 인원이 이용하는 역은 보다 많은 서비스를 필요로 할 가능성이 높다. 그렇기에 노약자나 외국인들을 위한 안내 및 지원 방법을 늘릴 수 있는 근거로 활용할 수 있다.
(3) 승, 하차 인원이 많은 지역에 대해 인원이 집중되는 건에 대해 분산할수 있도록 중간에 역을 신설할 수 없는지 건의할 근거로 사용한다.
(4) 이용 승객이 적은 시간대의 배차 간격을 늘리고 이용 승객이 집중되는 시간대에 배차 간격을 줄여 유동적으로 운영할 수 있다.
(5) 승객이 적은 시간대를 확인하여 적은 이유를 분석하고 그 시간대를 이용해 지하철역 공간을 활용할만한 방안을 모색해 본다.
외에도 여러 방법들이 있을 수 있다.
#보완점
1. code를 공개하기보다는 순서도(자료흐름도)를 통해 공개하는 것이 좋음
=> 주석 작성한 내용을 순서도로 나타내기
2. ppt 우클릭 - 눈금자 활용
3. print 구문에 주석 꼼꼼히 달기, 본인도 다시보면 모를 수도 있기 때문에 중요하다.
4. 여러 페이지에 걸쳐 설명할 때 주제목은 오른쪽 구석에, 부제목을 강조하는 것도 좋음
#개인적 보완점
1. 전체 역의 평균을 구하기보다는 역 각각의 평균을 구했으면 어땠을지
2. 많은 자료들이 있었으니 시각화 자료 또한 4가지 이상을 제시하였다면 어땠을지
3. 코드를 순서도로 바꾸는데 단순히 말만이 아닌 순서도를 사용하였다면 어땠을지
에 대해 고민을 더 해보고 수정해야할 것 같다.
'파이썬 > 프로젝트' 카테고리의 다른 글
파이썬 프로젝트 - 데이터셋을 활용한 다이아몬드 가격 예측 (2) | 2023.08.03 |
---|