Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Tensor
- 협업 필터링
- Overfitting
- 프로그래머스
- selenium
- codingtest
- 부스트캠프
- 추천시스템
- Cosine-similarity
- wordcloud
- recommendation system
- Python
- 백준
- 시각화
- 딥러닝
- SGD
- 파이썬
- 코테
- 웹스크래핑
- pytorch
- 분산 시스템
- 알고리즘
- coursera
- TF-IDF
- 웹크롤링
- 데이터
- 코딩테스트
- 데이터 엔지니어링
- 머신러닝
- 추천 시스템
Archives
- Today
- Total
개발자식
[딥러닝] 감성분석_BERT 본문
BERT (Bidirectional Encoder Representations from Transformers)
- Google이 공개한 AI 언어 모델로 일부 성능평가에서 인간보다 높은 정확도를 보이며 NLP 딥러닝 모델로 주목을 받았다.
- 기존 단방향 자연어 초리 모델의 단점을 보완한 양방향 자연어 처리 모델이다.
- 트랜스포머를 이용하여 구현되었으며, 방대한 양의 텍스터로 사전 훈련된 언어 모델이다.
학습 구조
1. NSP (다음 문장 예측)
2. MLM (문장에서 가려진 단어(토큰)를 예측)
Input
1. Segment embedding을 위해 문장을 BERT의 입력 형식에 맞게 변환시킨다
-> 문장의 시작 : [CLS], 문장의 끝 : [SEP]
2. 한 문장에 있는 단어들에 대해 tokenization을 진행한다.
-> ex) 우리가 "우##", "#리#", "##가"
3. 각 토큰들에 대해 고유한 아이디를 부여한다.
-> 토큰이 존재하지 않는 자리는 0으로 채워준다.
Embedding
- 자연어를 컴퓨터가 이해할 수 있는 형태 (숫자, vector)로 바꾸는 전체 과정
역할
1. 단어/문장 간 관련도 계산
2. 단어와 단어 사이의 의미적/문법적 정보 함축
3. 전이학습
'AI > Deep Learning' 카테고리의 다른 글
[딥러닝] CNN (0) | 2022.10.09 |
---|---|
[딥러닝] 신경망, activation function, loss function (1) | 2022.10.08 |
[딥러닝] 딥러닝 Summary (0) | 2022.05.01 |
[딥러닝] Batch Normalization (0) | 2022.05.01 |
[딥러닝] Avoiding Overfitting - Dropout (0) | 2022.05.01 |
Comments