ch1. What is Data Science?
2022. 7. 17. 12:14ㆍ데이터사이언스/데이터과학
반응형
What is Data Science?
Data Science's concept has not been established however there are elements of Data Science and Statistics.
- Exploratory Data analysis and visualization
- Machine learning and statistics
- High - performance computing technology
Computer Science + Statistics -> Machine Learning + Data analysis + Domain Science(business) => Data Science
=> 데이터 과학자는 domain 전문가와 소통할 수 있는 능력을 학습해야한다. 이때 domain 전문가와의 소통이란 Needs를 정확하게 이해하고 결과의 insight를 전달하는 storytelling 능력을 의미한다.
Data Science pipline
- Ask Interesting Questions :
- Domain 전문가의 요구 이해하기
- Data에서 얻을 수 있는 Insight 발굴
- Context에서 문제 발굴
- Get Data
- Eplore Data
- Plot => Find Anomalies & patterns
- Model Data
- Communicate and visualize results
Scientist vs Computer Scientist
Data driven => Focus on results(findings) => discover things! |
Algorithm driven => focus on methods => random data to prove correctness |
Understand messy natural World | Build clean virtual world |
8/13 = 0.62 => Focus on Meaning | 8/13 = 0.61538461538 => Focus on Accuracy |
Not all True / False | All True / False |
데이터 과학자는 과학자에 가깝다.
Software Developer : produce code
Data Scientist : produce insights => 가설 도출, business direction 을 높은 의사결정권자와 소통한다.
Data Scientist의 소양
- Developing Curiosity
- In domain/application
- Communicate with domain experts
- develop broader perspective on the world
- Ast good questions
- From a given dataset what exiting things can be learned?
- Needs의 정확한 파악
- Dataset 활용 (어떤 데이터 사용, 접근 방식 고안)
Properties of Data
Structured vs Unstructured
Spread Sheet | tweets |
EMR(Electronic Medical Record) | Movie Review |
Financial Time Series | X-ray |
Quantitative vs Categorical Data
- Nominal (Categorical) : 비교만 가능 =, ≠
- Ordinal : Nominal + 크기 비교 가능 =. ≠, >, <
- Quantitiative : 계산가능
- Internal : location of zero arbitrary (+- 유의미한 정보) 날짜, 위치... =, ≠, >, <, +, -
- Ratio : zero fixed measurement =, ≠, >, <, +, -, ×, ÷
Classification vs Regression
classification : discrete set & small label -> predict
regression : numeric quantity & continuos -> predict
반응형
'데이터사이언스 > 데이터과학' 카테고리의 다른 글
ch2. Mathematical Preliminaries (0) | 2022.07.17 |
---|