반응형
[python 데이터 분석 모듈] 데이터 분석 및 수집 관련 모듈
데이터 분석 관련된 모듈을 공부하면 각 목차를 정리하기 위한 글입니다.
2021-06-10일 기준 4개의 모듈이며 더 늘어나겠죠?
간단한 모듈 및 기본 문법은 기초 정리,
복잡하거나 활용하기 좋은 모듈은 기초정리 후 간단한 토이 프로젝트를 진행하기
각 모듈에 대한 학습을 하는 이유
모듈 종류 | 학습 이유 |
numpy | 데이터 연산용 모듈 |
pandas | 데이터 분석에 좋은 모듈 |
selenium | 데이터 수집에 쓸 웹 크롤링 모듈 |
multiprocessing | 데이터 수집에 쓸 웹 크롤링의 데이터 수집 속도 증가 |
1. numpy
numpy는 그냥 데이터 연산용 기초 모듈로 배운 거라 다른 모듈과 연관해서 토이 프로젝트를 할 예정입니다.
https://steadiness-dev-invest.tistory.com/90
2. pandas
pandas는 기초정리 후 공공 데이터 포털에서 쓸만한 데이터를 통해서 뭔가 해볼 생각인데 아직 못 정했고
3. selenium
웹 크롤링을 통해서 수집한 데이터를 웹서버 쪽에 데이터를 전송한 후 DB에 저장하는
API 방식으로 토이 프로젝트를 진행할 예정입니다.
셀레늄 관련 정리를 하다 보면 스프링에 대한 정리, DB 및 쿼리에 대한 정리를 할 예정입니다.
4. multiprocessing
파이썬에선 스레드를 이용한 병렬 처리보다 프로세스를 이용한 병렬 처리를 더 선호한다고 합니다.
셀레늄 드라이버는 1개는 1개의 코어를 할당받아서 사용하는 방식이더군요
8개의 코어를 가진 컴퓨터에서 8 프로세스로 돌리면 동시에 8개의 드라이버가 돌아가면서
빠른 속도로 데이터 수집이 가능합니다.
마무리
데이터 분석 관련 모듈은 이 글에 추가로 계속 모을 예정입니다.
그럼 이만~
'Python > 모듈정리' 카테고리의 다른 글
[목차] 데이터 분석 모듈 Pandas 메서드 정리 (0) | 2021.06.27 |
---|---|
[목차] 데이터 분석 모듈 Pandas 기본 정리 (0) | 2021.06.27 |
python numpy 기초정리 8편. Broadcasting (0) | 2021.06.11 |
python numpy 기초정리 7편. 행렬 (Matrix) 연산 (0) | 2021.06.10 |
python numpy 기초정리 6편. 정렬 (0) | 2021.06.10 |