일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- wordcloud
- recommendation system
- 웹크롤링
- SGD
- Python
- 데이터
- 데이터 엔지니어링
- coursera
- TF-IDF
- 알고리즘
- Cosine-similarity
- Overfitting
- 파이썬
- selenium
- 웹스크래핑
- Tensor
- 추천 시스템
- 분산 시스템
- pytorch
- 협업 필터링
- 백준
- 딥러닝
- 머신러닝
- codingtest
- 코테
- 프로그래머스
- 코딩테스트
- 추천시스템
- 시각화
- 부스트캠프
- Today
- Total
목록Data/Data Engineering (7)
개발자식
빅데이터의 축적 데이터를 수집하고 분산 스토리지에 저장하기까지의 프로세스를 살펴보자 객체 스토리지와 데이터 수집 - 빅데이터는 대부분의 경우 확장성이 높은 '분산 스토리지'에 저장된다. - 객체 스토리지는 다수의 컴퓨터를 사용하여 파일을 여러 디스크에 복사함으로써 데이터의 중복화 및 부하 분산을 실현한다. (복사하여 데이터 손실 X) - Hadoop이라면 'HDFS', 클라우드 서비스라면 'Amazon S3' 등이 유명하다. - 대량의 데이터에서 효율적이다. 데이터 수집 - 수집되는 데이터가 대량의 작은 파일이라면 -> 적당히 모아서 하나의 큰 파일로 만든다. - 수집되는 데이터가 지나치게 크다면 -> 적당히 나눠서 처리한다. -> 빅데이터는 단지 수집만 해서는 안 되고 나중에 처리하기 쉽도록 준비해둬야..

빅데이터의 분산 처리 다수의 컴퓨터에 데이터 처리를 분산하기 위해서는 그 실행을 관리하기 위한 프레임워크가 필요하다. 구조화된 데이터(structured data) - SQL로 데이터를 집계하는 경우, 먼저 테이블의 칼럼 명과 데이터형, 테이블 간의 관계 등을 스키마(schema)로 정한다. 스키마가 명확하게 정의된 데이터를 구조화된 데이터라고 한다. 비구조화 데이터(unstructured data) - 텍스트, 이미지, 동영상 등의 이러한 스키마가 없는 데이터를 비구조화 데이터라고 한다. - 이 상태로는 SQL로 제대로 집계할 수 없다. 스키마리스 데이터(schemaless data) - CSV, JSON, XML 등의 데이터는 서식은 정해져 있지만, 칼럼 수나 데이터형은 명확하지 않아 스키마리스 데이..

Chapter 2. 빅데이터의 탐색 2-1. 크로스집계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구 2-4. 데이터 마트의 기본구조 2-1. 크로스집계의 기본 크로스 테이블(cross table) : 크로스 테이블은 컬럼과 행으로 구성된 양방향 테이블이다. 피벗 테이블 또는 다차원 테이블이라고도 한다. - 새로운 행을 추가하긴 쉽지만, 열을 늘리는 것이 간단하지 않다. 트랜잭션 테이블(transation table) : 시간과 함께 생성되는 데이터를 기록한 테이블로 한 번 기록하면 변하지 않는다. - 크로스 테이블을 행 방향으로만 데이터 증가시키고, 열 방향으로는 증가시키지 않도록 한다. 크록스 집계(cross tabulation) : 트랜잭션 테이벌에서 크로스 테이..

'빅데이터'의 등장 배경 - 기업들이 데이터 처리에 분산 시스템을 도입하기 시작했을 무렵으로, '빅데이터'라고 불리는 단어가 사용되면서 데이터를 비지니스에 활용하자는 움직임이 활발해졌다. 빅데이터의 기술 1. Hadoop - '다수의 컴퓨터에서 대량의 데이터를 처리하기' 위한 시스템이다. ex) 전 세계의 웹페이즈를 모아서 검색 엔진을 만들려면 방대한 데이터를 저장해둘 스토리지와 구조가 필요하다. 이를 위해서 수천 대 단위의 컴퓨터가 이용되어야 하고 이것을 관리하는 것이 Hadoop 프레임워크이다. - 구글에서 개발된 분산 처리 프레임워크인 'MapReduce'를 참고하여 제작되었다. - SQL과 같은 쿼리 언어를 Hadoop에서 실행하기 위한 소프트웨어로 Hive가 개발되어 점차 사용자를 확대할 수 있..

데이터 웨어하우스 (DW, Data Warehouse) - Data (정보) + Warehouse(창고) - 조직 내 서로 다른 다양한 소스들의 정보를 집계하고 저장하는 시스템이다. - 방대한 조직 내에서 분산 운영되는 각각의 데이터베이스 관리 시스템들을 효율적으로 통합하여 조정, 관리하며 효율적인 의사결정 시스템을 위한 기초를 제공하는 실무적인 활용 방법론 데이터 웨어하우스 모델링 방법 1. 스타 스키마 (Star Schema) - 데이터 웨어하우스 스키마 중 가장 단순 - 사실 테이블은 보통 제3 정규형으로 모델링하고, 차원 테이블들은 보통 비정규화된 제2 정규형으로 모델링한다. 2. 스노우 플래이크 스키마 (Snow Flake Schema) - 스타 스키마의 차원 테이블을 제3 정규형으로 정규화한 ..

병렬컴퓨팅 배경 컴퓨터는 사람이 제공한 지시에 따라 작업을 수행할 수 있는 기계이다. 컴퓨터 아키텍처는 컴퓨터에 제공된 명령을 실행하는 방법을 정의한다. 이전 컴퓨터 시스템에는 하나의 프로세서가 있어 해결해야 할 문제의 일련의 지침은 프로세서에 차례대로 전달되어 매 순간 하나의 명령만 실행되어 비효율적이었다. 프로세서의 속도를 높이기 위해 병렬 컴퓨팅이 도입되었다. 병렬컴퓨팅 - 병렬 컴퓨팅은 병렬처리로 여러 계산을 동시에 수행할 수 있는 계산 형식이다. 많은 프로세서를 사용하여 해결해야 할 문제는 개별 부분으로 나뉘고 각 부분은 지침으로 더 세분화된다. 명령어는 프로세서간에 구분되어 여러 프로세서가 동시에 명령을 실행한다. -> 복잡한 계산을 수행하는 데 유용하고 시간이 절약된다. 병령 컴퓨팅의 이용 ..