일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 딥러닝
- wordcloud
- 코딩테스트
- 시각화
- codingtest
- 부스트캠프
- 알고리즘
- 분산 시스템
- coursera
- 백준
- 데이터 엔지니어링
- recommendation system
- 프로그래머스
- Cosine-similarity
- 머신러닝
- Python
- TF-IDF
- 파이썬
- Overfitting
- SGD
- 웹스크래핑
- Tensor
- selenium
- 코테
- 추천 시스템
- 협업 필터링
- 데이터
- 추천시스템
- 웹크롤링
- pytorch
- Today
- Total
목록딥러닝 (12)
개발자식

리뷰전 CosyVoice 개발 이야기지금 회사에서 학습하고 있는 TTS 모델(CosyVoice2) 이전에 나온 버전으로 품질이 매우 좋고, 다양한 테스크로 활용할 수 있어서 이것저것 실험해 보고 있다. CosyVoice1도 학습해 봤었는데, 품질이 매우 좋고 화자 유사도가 굉장히 높았다. 그래서 기존 TTS 모델보다 억양이나 발음이 자연스럽고 화자 특성이 살아 있어서 지금 교체 과정에 있다. 알리바바에서 개발한 모델로 학습, 추론, 배포 코드를 모두 github에 제공하고 있으며 코드 구현도 굉장히 깔끔하게 되어있다. 며칠 전까지도 코드 업데이트가 되고 있어서 계속 팔로우 하면서 해보고 있다. 원래 CosyVocie가 LLM에서 추론 속도가 굉장히 오래 걸리는 편이였는데, Dev 브랜치에 vllm이 적용..

Pytorch Lightning - 배경: 딥러닝에서의 많은 엔지니어링 코드는 모델이 달라져도 역할이 비슷한 경우가 많다. 그래서 공통된 부분들을 반복해서 작성할 필요 없이 유연하게 커스터마이징하여 실험할 수 있는 라이브러리가 필요했다. 이것이 Pytorch Lightning이다. Pytorch는 어땠는데? - DataLoader 구성, Model 구성, Backpropagation + weight update, 전체 코드를 실행하는 main 스크립트 이렇게 정리할 수 있다. 전처리 하는 과정을 제외하고. - 이는 task나 데이터가 변경되면 코드를 재사용하기 어렵다. 이를 코드로 비교해 보면 다음과 같다. Pytorch로 코드를 구현해 본 사람이라면 어느 정도 어떻게 바뀌었는지 느낌이 올 것이다. Da..

Neural Collaborative Filtering(NCF) 등장 배경 Matrix Factorization은 latent factor간의 내적, 즉 선형 결합을 통해 유저-아이템 상호작용(Collaborative Signal)을 나타내기 때문에 복잡한 Signal을 알아내기 어렵다. 또한 새로운 유저가 등장하면 저차원 공간에 이를 표현하기 어렵다 → Neural Collaborative Filtering 등장 Neural Graph Collaborative Filtering(NGCF) 등장 배경 Neural Collaborative Filtering은 Neural Network를 사용하여 유저-아이템간 상호작용을 학습하는데 비선형적인 Collaborative Signal을 표현할 수 있다는 것이 M..

CNN - Convolutional Neural Network의 약자로 일반 Deep Neural Network(DNN)에서 이미지나 영상과 같은 데이터를 처리할 때 발생하는 문제점들을 보완한 방법이다. - convolution 작업을 수행하는 신경망 DNN의 문제점은? - 이미지는 480x480과 같은 형태로 표현되어 하나의 row로 표현되지 않아 하나의 row로 변환하게 되는 순간 데이터는 큰 손실을 갖게 된다. - 그래서 DNN은 이미지 행렬을 하나의 row로 만들고 신경망에 입력으로 넣어 가중치를 계산하여 정보 손실이 크다. - CNN은 사람이 보는 것처럼 이미지 행렬 2차원 배열에서 가로, 세로축 모두 합성곱 연산과 풀링 연산으로 특징점을 추출하기에 정보 손실이 적다. - 연산량도 CNN이 더 ..

딥러닝을 할 때 코드를 처음부터 다 짤까?? -> 절대 네버. 딥러닝 프레임워크를 활용하여 딥러닝의 모든 수식과 연산을 손쉽게 계산한다. 그렇다면 대표적인 딥러닝 프레임워크는 무엇일까? - pytorch - tensorflow tensorflow 사용해봤다 만으로도 메리트가 있었던 시절이 있었다. 그리고 딥러닝 프레임워크를 사람들이 직접 만들어서 공개하기도 했었다. 그렇지만 이제는 대표적인 딥러닝 프레임워크를 활용해서 대부분 구현한다! 왜?? 자료도 많고 관리도 잘되고 표준이기 때문이다. tensorflow 공개 이유로는 문서화를 잘하기 위해서라고도 한다. 하지만 이 외에도 딥러닝 프레임워크는 생각보다 엄청 많다고 한다. pytorch의 경우 AI 표준 언어로 파이썬이 자리 잡으면서 torch에 py를 ..

딥러닝 Summary - layer size, normalization, batch size, epoch, unit size, loss function, learning rate -> 하이퍼 파라미터 - layer size, unit size가 결정하기 어렵다.(그래서 전이 학습 사용) 작게 만들고 크게 늘리는 방법 - 모델을 더더 복잡하고 오래 만들면 risk(=error, cost)가 떨어진다. -> 하지만 웬만해서 이런 투자를 하지 못한다. Feautre design -> Network design -> Network generator design