[ numpy ]
- 라이브러리의 일종
* 라이브러리 : 모든 코드를 사용자가 직접 작성할 필요 없이 함수+메서드 기능을 묶어놓은 모듈 집합
- 배열 : 같은 타입의 데이터가 나열된 집합 (리스트는 다른 타입도 나열 가능)
- 불러오기 : import 라이브러리명
- 라이브러리 배열 사용 : numpy.array(숫자,숫자)
- 배열 생성 : import 라이브러리명 as np
- 자료형의 numpy화 : mylist = [1,2,3] np.array(mylist)
- 데이터 타입 지정 : np.array([숫자,숫자,숫자], dtype = int/float 등등)
[ 슬라이싱 ]
- 원하는 부분만 추출 혹은 형태 변환
- 기준 : arr[ 행(row) 인덱스, 열(column) 인덱스, N축 인덱스 등등 ]
- 기준 테이블
- 간격 지정 슬라이싱
[ 인덱싱 ]
- FANCY인덱싱 : 지정 인덱스 위치만 배열로 뽑음
- BOOLEAN인덱싱 : T/F만을 사용해 특정 조건 만족값 뽑음
- 배열 차원 변환 : 차원 크기가 맞아야만 함
- 정렬 : np.osrt
- 옵션에 -1을 추가할 경우 내림차순으로 변화됨
[ 행렬 matrix ]
- 행과 열로 이루어진 딥러닝 연산용 2차원 배열 (정형 데이터 세트는 대부분 행렬)
- 행렬 + - : 차원이 같아야 함
- 집계 함수
- 합계 : np.sum
- 최대 : np.max
- 최소 : np.min
- 평균 : np.mean
- 표준편차 : np.std
-고차원으로 연산하기 = brodcasting
[ PANDAS ]
- 대표적인 데이터 분석 및 조작용 라이브러리 = 파이썬 데이터 에널리시스
- 대용량 데이터 셋으로 다양한 통계 처리
- 엑셀 파일 호환 가능, SQL문 사용으로 데이터 조작가능, 웹 크롤링, 시각화
- 데이터 유형 : 시리즈(1차원), 데이터 프레임(컬럼 2개 이상, 2차원)
- CSV, EXCEL 파일 읽기
import pandas as pd
[ PANDAS - 데이터 프레임 만들기 ]
- list, dict를 활용하여 만듦
- list로 만들기
mylist = [1,2,3,4]
mySeries = pd.Series(mylist)
- dict로 만들기
mydict = {'종목': ['야구', '축구', '롤'],
'이름': ['류현진', '손흥민', '페이커'],
'연봉': ['22,300,000,000', '15,000,000,000', '5,200,000,000']}
df = pd.DataFrame(mydict)
df
- CSV 파일 읽고 쓰기
- read_csv(읽기), to_csv(저장)
df = pd.read_excel(excel_path)
- 크롤링 테이블 읽기
import requests
site = '사이트명'
r = requests.get(site)
df = pd.read_html(r.text)[0]
df.columns = df.columns.get_level_values(0)
- 요약 정보 확인
- 전체 행, 컬럼 정보, 빈 값, 데이터 타입 정보 확인
df.info()
728x90
'관련 도서 및 지식 > 강의 및 인사이트' 카테고리의 다른 글
[UX][서비스 기획] 인사이트와 견해 정리 (0) | 2023.06.06 |
---|---|
[5월 4주차 모빌리티] 미래 모빌리티 트렌드 세미나 개최 발표, 에이펙스에이아이의 모빌리티 솔루션 공급 계획 발표, 카카오모빌리티의 WCE 참여 발표 (0) | 2023.05.29 |
[PM][프로젝트매니징] 린 분석에 관하여 (0) | 2023.05.08 |
[SRS] 시스템 요구사항 명세서 작성하기 - (2) SRS 작성 이유와 관점 분류 (0) | 2023.04.09 |
[SRS] 시스템 요구사항 명세서 작성하기 - (1) 책 선정하기 (0) | 2023.04.06 |