일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 부스트캠프
- Overfitting
- 머신러닝
- 딥러닝
- selenium
- TF-IDF
- 알고리즘
- Cosine-similarity
- recommendation system
- 추천시스템
- 추천 시스템
- 프로그래머스
- Tensor
- 분산 시스템
- 웹스크래핑
- codingtest
- 파이썬
- 데이터
- 코테
- SGD
- 데이터 엔지니어링
- 백준
- wordcloud
- 웹크롤링
- 코딩테스트
- 협업 필터링
- Python
- coursera
- 시각화
- pytorch
- Today
- Total
목록wordcloud (2)
개발자식

Selenium을 이용하여 기사 본문에 자주 나온 단어를 구글 번역기 웹 크롤링을 통해 영어로 번역하여 가져오고, 이를 워드클라우드로 시각화한다. part3의 전체 모든 내용을 알아야한다. 1. Selenium (셀레니움) 웹 크롤링을 하다 보면 여러 가지 아래와 같은 어려운 상황을 마주치게 된다. 해당 웹사이트가 프로그램을 통한 접근을 허용하지 않는 경우 해당 웹사이트가 로그인을 요구하는 경우 해당 웹사이트가 동적 웹페이지로 구성되어 있는 경우 이러한 경우 requests 라이브러리로만 해결하기 어려워 이런 상황을 해결하는 가장 효과적인 방법이 selenium을 이용하는 것이다. selenium : 웹 사이트 테스트를 위한 도구로 브라우저 동작을 자동화할 수 있다. 설치 (주피터에서) : !pip in..

Part3-4 에서 진행했던 웹 크롤링 데이터의 본문 내용으로 자연어처리를 진행한다. 이번에는 영어 자연어처리가 아닌 한국어 자연어처리로 진행한다. 이 데이터를 다양한 방법으로 시각화한다. 순서 1.Konlpy 설치 크롤링 데이터 전처리 정규화, 어근화, 품사 태깅 단어 등장 빈도 카운팅 시각화 워드클라우드 1. Konlpy NLP (자연어처리)는 텍스트에서 의미 있는 정보를 분석, 추출하고 이해하는 일련의 기술 집합이다. Konlpy는 한국어 정보처리를 위한 파이썬 패키지이다. NLP에서 형태소를 분리하는 데이터 전처리가 필요한데 이때 한국어 데이터 전처리를 할 때 Konlpy 패키지를 많이 사용한다. Konlpy 설치 Microsoft Build Tools 2015를 설치한다. Java SE Deve..