EDA - Exploratory Data Analysis
https://eda-ai-lab.tistory.com/13
tweedie 란
sknew
https://dining-developer.tistory.com/17
SW란
데이터를 프로그램을 이용하여 처리하는 것
소프트웨어 1.0
데이터를 읽어서 처리하는거
소프트웨어 2.0
알고리즘을 이용하여 데이터를 처리하는 것 - Deep Learning
소프트웨어 3.0
모델과, 프롬프트를 사용하는 것 - LLM
통계와 머신러닝
통계(Rule Based) - 바나나의 전체적인 특징, 잘려진 단면의 특징을 사람이 정의
--> 데이터의 특징을 사람이 의도적으로 분류하고싶을때 개입할 수 있게 함
머신러닝은 사람이 바나나라는 라벨을 넣으면 머신이 데이터에서 바나나의 특징을 학습하고 바나나를 분류할수있게되는 것
머신러닝과 딥러닝
머신러닝은 알고리즘을 통해 데이터의 특징을 구분, 딥러닝은 가중치를 통해 어떻게 조정하여 바나나를 알것인가?
어떤 관점에서 데이터 특징을 학습시킬 것이냐는 큰 차이가 있음
AI to Generative AI
Transformer -> 자연어처리 모델의 선조, attention이라는 기술을 적극적으로 사용
attention = 강조,
Transformer의 자식격인 GPT, Claude
GPT 레벨이 올라감 -> 모델의 커기가 커짐 -> 파라미터가 많아짐 (학습할수있는 데이터가 많음 -> LLM )
MLOps - 정해진 데이터셋 내에서 반복적인 재학습을하는 파인튜닝
FMOps - 는 프롬프트엔지니어링, 체이닝등을 이용해 튜닝
ML 시스템의 이해
가장 좋았던 모델의 algorithm, hyperparam, epoch 기록하기
ML을 실 서비스하기 위해서는 연관된 것들이 많다
ML시스템이 필요한지, 비용 효율적인지 파악하여 도입하여야한다.
기존 데이터로부터 복잡한 패턴을 학습하고 이러한 패턴을 사용해 본 적 없는 데이터에 대해 예측을 수행한다
- 시스템에 학습 능력이 없음
- 학습할 패턴이 존재하며 복잡함
- 사용 가능한 기존 데이터가 있거나 수집이 가능
- 예측에 대한 문제
- 본적 없는 데이터가 훈련 데이터와 동일한 패턴
- 반복
- 대규모로 수행
- 패턴이 지속적으로 변함
전통적 소프트웨어는 입력값과 패턴을 주면 결과를 보여주고, ML은 입력값과 결과를 주면 패턴을 보여준다.
ML 시스템
1. 신뢰성
2. 확장성
3. 유지보수성
4. 적응성
데이터 과학 요구사항의 계층 구조
LEARN/OPTIMIZE
AGGREGATE/LABEL
EXPLORE/TRANSFORM
MOVE/STORE
COLLECT
데이터의 유무
소프트웨어 서비스과 ML 서비스의 가장 큰 차이는 데이터의 유무이다.
ML 에서는 모델보다 데이터가 가장 중요하다.
MLOps의 구성요소 - 데이터, 모델, 서빙
데이터 저장에는 RDB, 분산저장, 오브젝트 스토리지등을 사용할 수 있고
정합성 테스트 텐서플로우DV, 데이터버전 컨트롤하는 DVC
병렬학습을 쉽게해주는 Optuna, Ray, kabit 등 존재
로컬에서 점프에디터로 돌리는 코드를 서버에서 API로 제공
모델,서빙을 대부분 기능을 제공해주는 SaaS도 있음
AWS Sagemaker, GCP 버텍스AI, Azure AzureML
------------------
BigData 개요
Data Lifecycle
Data Sources ( Generation ) > Data Ingestion > Data Storage > Data Processing > Data Consumers
BigData 는 기존 DB로는 처리하기 어려운 정형/비정형/반정형 데이터이다.
3V's
- Volume ( 규모 )
- Velocity ( 속도 ) : 빠른 속도로 수집, 처리 되어야 함
- Variety ( 다양성 ) : 다양한 데이터 ( 음성, 이미지, 영상 등 - 정형,비정형등 )을 저장하고 처리 가능해야함
빅데이터의 특성을