ch1. What is Data Science?

2022. 7. 17. 12:14데이터사이언스/데이터과학

반응형

What is Data Science?

Data Science's concept has not been established however there are elements of Data Science and Statistics.

  • Exploratory Data analysis and visualization
  • Machine learning and statistics
  • High - performance computing technology

Computer Science + Statistics -> Machine Learning + Data analysis + Domain Science(business) => Data Science

=> 데이터 과학자는 domain 전문가와 소통할 수 있는 능력을 학습해야한다. 이때 domain 전문가와의 소통이란 Needs를 정확하게 이해하고 결과의 insight를 전달하는 storytelling 능력을 의미한다.

 

Data Science pipline

  1. Ask Interesting Questions :
    • Domain 전문가의 요구 이해하기
    • Data에서 얻을 수 있는 Insight 발굴
    • Context에서 문제 발굴
  2. Get Data
  3. Eplore Data
    • Plot => Find Anomalies & patterns
  4. Model Data
  5. Communicate and visualize results

Scientist vs Computer Scientist

Data driven => Focus on results(findings)
=> discover things!
Algorithm driven => focus on methods
=> random data to prove correctness
Understand messy natural World Build clean virtual world
8/13 = 0.62 => Focus on Meaning 8/13 = 0.61538461538 => Focus on Accuracy 
Not all True / False All True / False

데이터 과학자는 과학자에 가깝다.

Software Developer : produce code

Data Scientist : produce insights => 가설 도출, business direction 을 높은 의사결정권자와 소통한다.

 

Data Scientist의 소양

  1. Developing Curiosity
    • In domain/application 
    • Communicate with domain experts
    • develop broader perspective on the world
  2. Ast good questions
    • From a given dataset what exiting things can be learned?
    • Needs의 정확한 파악
    • Dataset 활용 (어떤 데이터 사용, 접근 방식 고안)

Properties of Data

Structured vs Unstructured

Spread Sheet tweets
EMR(Electronic Medical Record) Movie Review
Financial Time Series X-ray

Quantitative vs Categorical Data

  • Nominal (Categorical) : 비교만 가능 =, ≠
  • Ordinal : Nominal + 크기 비교 가능 =. ≠, >, <
  • Quantitiative : 계산가능
    • Internal : location of zero arbitrary (+- 유의미한 정보) 날짜, 위치... =, ≠, >, <, +, -
    • Ratio : zero fixed measurement =, ≠, >, <, +, -, ×, ÷

Classification vs Regression

classification : discrete set & small label -> predict

regression : numeric quantity & continuos -> predict

 

 

반응형

'데이터사이언스 > 데이터과학' 카테고리의 다른 글

ch2. Mathematical Preliminaries  (0) 2022.07.17