일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- wordcloud
- codingtest
- 웹스크래핑
- Overfitting
- 추천 시스템
- selenium
- 데이터 엔지니어링
- 코테
- recommendation system
- 협업 필터링
- 프로그래머스
- 머신러닝
- Python
- TF-IDF
- SGD
- pytorch
- 웹크롤링
- 딥러닝
- 추천시스템
- 파이썬
- 부스트캠프
- 백준
- 분산 시스템
- 시각화
- coursera
- 데이터
- 코딩테스트
- Tensor
- Cosine-similarity
- 알고리즘
- Today
- Total
목록시각화 (3)
개발자식

Chapter 2. 빅데이터의 탐색 2-1. 크로스집계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구 2-4. 데이터 마트의 기본구조 2-1. 크로스집계의 기본 크로스 테이블(cross table) : 크로스 테이블은 컬럼과 행으로 구성된 양방향 테이블이다. 피벗 테이블 또는 다차원 테이블이라고도 한다. - 새로운 행을 추가하긴 쉽지만, 열을 늘리는 것이 간단하지 않다. 트랜잭션 테이블(transation table) : 시간과 함께 생성되는 데이터를 기록한 테이블로 한 번 기록하면 변하지 않는다. - 크로스 테이블을 행 방향으로만 데이터 증가시키고, 열 방향으로는 증가시키지 않도록 한다. 크록스 집계(cross tabulation) : 트랜잭션 테이벌에서 크로스 테이..

Selenium을 이용하여 기사 본문에 자주 나온 단어를 구글 번역기 웹 크롤링을 통해 영어로 번역하여 가져오고, 이를 워드클라우드로 시각화한다. part3의 전체 모든 내용을 알아야한다. 1. Selenium (셀레니움) 웹 크롤링을 하다 보면 여러 가지 아래와 같은 어려운 상황을 마주치게 된다. 해당 웹사이트가 프로그램을 통한 접근을 허용하지 않는 경우 해당 웹사이트가 로그인을 요구하는 경우 해당 웹사이트가 동적 웹페이지로 구성되어 있는 경우 이러한 경우 requests 라이브러리로만 해결하기 어려워 이런 상황을 해결하는 가장 효과적인 방법이 selenium을 이용하는 것이다. selenium : 웹 사이트 테스트를 위한 도구로 브라우저 동작을 자동화할 수 있다. 설치 (주피터에서) : !pip in..

Text Similarity Analysis - 문서 간 얼마나 비슷한지, 단어 간 유사도를 분석한다. TF-IDF - 많은 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소하는 방법 Cosine similarity - 두 벡터 사이 각도의 코사인 값을 이용하여 측정하는 값으로, 두 벡터의 유사한 정도를 의미한다. 1. 두 개의 영화 리뷰 텍스트 간 유사도 계산하기 영화 : The Shawshank Redemption (1994) The Godfather (1972) 라이브러리 import # 유사도 분석에 필요한 패키지를 불러온다 from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.met..