일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Python
- SGD
- 데이터
- 시각화
- 추천 시스템
- 데이터 엔지니어링
- 추천시스템
- 부스트캠프
- pytorch
- 웹스크래핑
- codingtest
- Cosine-similarity
- selenium
- 코딩테스트
- 협업 필터링
- 머신러닝
- Overfitting
- 백준
- 프로그래머스
- 알고리즘
- coursera
- 웹크롤링
- 파이썬
- 딥러닝
- 코테
- TF-IDF
- Tensor
- wordcloud
- 분산 시스템
- recommendation system
- Today
- Total
목록Data/Python (21)
개발자식
클래스 (Class) - 객체를 표현하기 위한 문법, 자료형을 위한 일종의 템플릿 - 객체 지향 언어 : 객체를 사용한 프로그래밍 언어 클래스 정의 class TestClass: pass - 클래스 이름 TestClass는 대문자로 작성한다. (PEP 8 Style Guide for Python Code 권고 방식) + 함수를 정의할 땐 대문자를 안 쓴다. 인스턴스(객체) 생성 - 어떤 템플릿(클래스)을 불러와서 그걸 다른 이름의 객체로 저장한다. - 여러 개 인스턴스를 호출하는 것도 가능 test_instance1 = TestClass() test_instance2 = TestClass() test_instance3 = TestClass() type()을 사용하여 어떤 클래스의 인스턴스인지 확인 pri..

1. 영화 정보 출력하기 url : https://movie.naver.com/movie/bi/mi/detail.naver?code=208077 스파이더맨: 노 웨이 홈 ‘미스테리오’의 계략으로 세상에 정체가 탄로난 스파이더맨 ‘피터 파커’는 하루 아침에 평범한 일상... movie.naver.com -> url 에서 code=208077이 영화에 대한 코드이다. 코드 번호를 모르는데 어떻게 접근할까? (아이디어) 현재 상영영화 목록 먼저 스크래이핑 해보면서 시도한다. 네이버에 영화를 검색, 포스터에 존재하는 태그 접근을 반복한다. - 클래스 태그에 원하는 값이 없다면 부모 태그를 확인한다. - find로 태그 찾은 후 find로 태그 하나 더 찾을 수 있다. (아래 예시) 2. 웹 스크래핑 결과 파일(..

1. 웹 크롤링 Web crawler : 웹 페이지의 데이터를 모아주는 소프트웨어 Web crawling : 크롤러를 사용하여 웹 페이지의 데이터를 추출해내는 행위 2. BeautifulSoup4 - HTML 정보로부터 원하는 데이터를 가져오기 쉽게 비슷한 분류의 데이터별로 나누어주는(parsing) 파이썬 라이브러리 웹 페이지의 전체 HTML 코드를 가져온다. 크롤링을 원하는 부분의 HTML 태그를 찾는다. 해당 태그를 꺼낸 다음 태그를 제거하고 내부의 데이터만 뽑아낸다. - 설치 : beautifulsoup4 - 라이브러리 불러오기 : from bs4 import BeautifulSoup + html 정보 가져오는 모듈 : from urlib.request import urlopen 아래 진행하기 위..

12. 데이터 살펴보기 gu_df.head(3) 검거율 기준으로 오름차순 정렬하기 sort_values 활용 gu_df.sort_values(by='검거율', ascending=False, inplace=True) # ascending=False : 내림차순, inplace=True : 덮어쓰기 - ascending= False : 내림차순 정렬 - inplace=True : 덮어쓰기 13. 데이터 시각화 13-0. 라이브러리 불러오기 import seaborn as sns import matplotlib.pyplot as plt from matplotlib import font_manager, rc # rc == run configure(configuration file) 13-1. 히트맵(Heatma..

10. 열 이름 변경 gu_df.rename(columns = {'강간(발생)':'강간', '강도(발생)':'강도', '살인(발생)':'살인', '절도(발생)':'절도', '폭력(발생)':'폭력'}, inplace=True) # inplace 옵션 == 덮어쓰기 여부 - 5대 범죄명 뒤에 "(발생)"은 의미가 없으므로 범죄명으로 변경해준다. 11. 인구 데이터 활용 11-1. 인구 데이터 불러오기 popul_df = pd.read_csv('pop_kor.csv', encoding='utf-8') # read_csv 는 encoding 옵션을 직접 지정해줄 수 있습니다. (utf-8, euc-kr, cp949) popul_df.head() 11-2. 인구 데이터 합치기 (merge) df : A, B라고 ..

6. 범죄별로 검거율 계산하기 gu_df['강간검거율'] = gu_df['강간(검거)']/gu_df['강간(발생)']*100 gu_df['강도검거율'] = gu_df['강도(검거)']/gu_df['강도(발생)']*100 gu_df['살인검거율'] = gu_df['살인(검거)']/gu_df['살인(발생)']*100 gu_df['절도검거율'] = gu_df['절도(검거)']/gu_df['절도(발생)']*100 gu_df['폭력검거율'] = gu_df['폭력(검거)']/gu_df['폭력(발생)']*100 gu_df['검거율'] = gu_df['소계(검거)']/gu_df['소계(발생)']*100 발생건수 대비 검거건수를 계산한다. 검거율 데이터 열을 범죄별로 생성한다. 7. 필요없는 column 지우기 del ..