데이터 크롤링
·
Data Science
BeautifulSoup: python으로 html을 다루는 라이브러리 request: 페이지 요청 라이브러리 # 1. 스크래핑 페이지 지정 # 2. 페이지 요청 # 3. text를 html 형태로 변환 # 4. 태그값으로 원하는 데이터 추출 link = 'https://search.naver.com' url = requests.get(link) BeautifulSoup(url.text) html.find('span', attrs = {'class': 'value'}) # 1. 웹 브라우저 창 열기 # 2. 지정한 페이지 불러오기 # 3. 창이 열릴 때까지 10초 대기 # 4. html 형태로 변환 # 5. 원하는 태그 값 가져오기 # 6. 웹 브라우저 창 닫기 driver = webdriver.Chro..
데이터 시각화
·
Data Science
라이브러리 import matplotlib.pyplot as plt import seaborn as sns import plotly.graph_objects as go 1. Matplotlib plt.plot(x, y): 선 그래프 plt.bar(x, y): 막대 그래프 plt.hist(x): 히스토그램 plt.scatter(x, y): 산점도 plt.pie(x): 파이 차트 # labels: 항목 이름 # autopct: 항목 퍼센트 plt.pie(x, labels = labels, autopct = '%.2f') 여러 그래프 # 1행 2열 그래프 fig = plt.figure() ax1 = fig.add_subplot(1, 2, 1) ax2 = fig.add_subplot(1, 2, 2) ax1.pl..
데이터 분석 기초
·
Data Science
코랩에서 데이터 가져오기 from google.colab import drive drive.mount('/content/drive') loc: 레이블 기반 데이터 선택 방법 iloc: 정수 기반 데이터 선택 방법 df.loc[[0,10,100,1000],['col1','col2']] df.iloc[[0,10,100,1000],[0,1]] ## 예제 ## # loc: 값이 2인 행부터 5인 행까지와 col1인 열부터 col3인 데이터 > 네이밍 # iloc: 2번째부터 4번재 행까지와 0번째 열과 2번째 열인 데이터 > 인덱싱 df.loc[2:5, 'col1':'col3'] df.iloc[2:5,[0,2]] describe: 기술통계 value_counts: 각 요소가 나타나는 횟수 apply: 사용자 정..