일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 웹크롤링
- selenium
- 데이터 엔지니어링
- 백준
- 추천시스템
- wordcloud
- Tensor
- TF-IDF
- recommendation system
- 알고리즘
- 시각화
- coursera
- SGD
- pytorch
- 머신러닝
- 분산 시스템
- 부스트캠프
- 파이썬
- Cosine-similarity
- 데이터
- 협업 필터링
- 코딩테스트
- Python
- 딥러닝
- 웹스크래핑
- Overfitting
- 프로그래머스
- codingtest
- 추천 시스템
- 코테
- Today
- Total
목록Cosine-similarity (2)
개발자식

Text Similarity Analysis - 문서 간 얼마나 비슷한지, 단어 간 유사도를 분석한다. TF-IDF - 많은 문서에 공통적으로 들어있는 단어의 경우 문서 구별 능력이 떨어진다고 보아 가중치를 축소하는 방법 Cosine similarity - 두 벡터 사이 각도의 코사인 값을 이용하여 측정하는 값으로, 두 벡터의 유사한 정도를 의미한다. 1. 두 개의 영화 리뷰 텍스트 간 유사도 계산하기 영화 : The Shawshank Redemption (1994) The Godfather (1972) 라이브러리 import # 유사도 분석에 필요한 패키지를 불러온다 from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.met..

Text Similarity Analysis - 문서 간 얼마나 비슷한지, 단어 간 유사도를 분석한다. - 단어가 얼마나 겹치는 것을 기준으로 얼마나 많은지 분석한다. 0. 개요 Q. 어떻게 문서(document) 간 얼마나 비슷한지 판단할 수 있을까? - 문서 : 긴 문장 A. 문서들을 아래 예시와 같이 수치행렬의 형태로 표현한다. Ex) 문서 1. That is a nice car 2. John has that red car 문서들을 수치 행렬의 형태로 표현 (벡터 공간으로의 표현) - 문서내의 불용어는 제외하고 표현 - 벡터 (Vector) : 순서쌍, 하나의 행 or 열 문서 That Nice Car John Has Red 1 1 1 1 0 0 0 2 1 0 1 1 1 1 -> 위의 표는 단순 카..