Programing Language/Python6 0831 머신러닝(machine learning) [scipy, scikit, 통계, 회귀분석, 날씨예측, 로지스틱회귀분석, iris, knn, svm] * scipy : 통계 관련 패키기¶ 모형에 입력 변수 선정¶ 1- 카이제곱 검정 (Chi-square Test ) ` 이산형 변수 - 이산형 변수 ` 성별과 구매여부 사이에 유의한 관계가 있는가 2- 독립표본t검정 (t-Test) : 이분류 모형의 경우 ` 이산형 변수(2그룹) - 연속형 변수 ` 체중과 구매여부 사이에 유의한 관계가 있는가 ( 구매자와 비구매자의 평균 체중이 다른가? ) 3- 분산분석 (ANOVA ) : 다분류 모형의 경우 ` 이산형 변수(3그룹이상 ) - 연속형 변수 ` 체중과 고객등급 사이에 유의한 관계가 있는가? ( 고객등급에 따라 평균 체중에 크게 다른가? ) In [ ]: .. 2021. 8. 31. 0830 데이터 정제 [데이터 정제, 데이터 연결, 누락값, NaN, None, 누락값 대체, 누락값 삭제, 미주별 인구, datetime] 데이타 연결하기¶ (1) concat 메소드 연결¶ (2) merge()¶ [참고] 데이타사이언스 스쿨 https://datascienceschool.net/01%20python/04.06%20%EB%8D%B0%EC%9D%B4%ED%84%B0%ED%94%84%EB%A0%88%EC%9E%84%20%ED%95%A9%EC%84%B1.html (1) 동일한 컬럼 데이타프레임 합치기¶ ex) 로그파일 등 In [9]: import pandas as pd df01 = pd.read_csv("data/transaction/201701.csv") print(df01.head()) print('*' *.. 2021. 8. 30. 0827 matplotlib 시각화 [matplotlib, pandas, 시각화, series, plot, 그래프] 이 페이지는 자세한 분석을 위한 페이지가 아닙니다. 시각화를 해야하는 이유를 보여주기 위한 페이지입니다. In [3]: # Frank Anscombe 이라는 사람의 사례 import seaborn anscombe = seaborn.load_dataset('anscombe') anscombe Out[3]: dataset x y 0 I 10.0 8.04 1 I 8.0 6.95 2 I 13.0 7.58 3 I 9.0 8.81 4 I 11.0 8.33 5 I 14.0 9.96 6 I 6.0 7.24 7 I 4.0 4.26 8 I 12.0 10.84 9 I 7.0 4.82 10 I 5.0 5.68 11 II 10.0 9.14 12 I.. 2021. 8. 29. 0826 Pandas, 미국 대통령 데이터, 판다스 계산, 시각화 [판다스 / 주피터 / 미국 대통령 데이터 뽑기 / 판다스 계산 / 데이터 프레임] [예제] 미국 대통령 당선 정보에서 정당 정보를 도출하여 시각하 하기¶ * 불러온 데이타집합의 정보 확인하기¶ type(df) : 데이타 타입 df.shape : 행과 열의 수 df.columns : 컬럼명 확인 df.dtypes : 각각의 컬럼 데이타타입 df.info() : df.dtypes 비슷 df.info df.head() df.tail() 파이썬과 판다스 자료형 비교¶ int int64 float float64 string object(****) 당선된 각 정당(Political Party) 수를 먼저 구해야 한다¶ value_counts() 이용 원그래프 출력 [연습] 데이타셋에서 다른 인사이드를 도출하여 시.. 2021. 8. 26. 이전 1 2 다음