데이터 과학
• 정의
- 데이터를 분석하여 유용하고 새로운 정보, 지식을 추출하는 기술
- 산업 활동의 의사결정에 도움
=> 공익, 매출 , ..., 증대
• 분야
- 통계학, 인공지능, 기계학습이 융합된 분야
- 타 분야 와의 차별점 -> 기술의 활용에 주안점
- 데이터 마이닝, 빅데이터 기술 이라고도 함
• 분석의 종류
1) 기술 분석 (Descriptive analysis)
- 데이터에 대한 설명을 사람이 알기 쉬운 방법으로 생성
- 여기서 '기술' 은 technology가 아닌 데이터를 표현, 묘사한다는 것
- 사례 : ⅰ. 두 반의 성적을 비교하기 위하여 각 반마다 시험점수의 평균을 계산함
=> 이러한 과정을 요약(abstraction)이라 함
(요약 : 원래의 객체가 양적,질적으로 크고 복잡할 경우 이 객체로부터 필요한 속성만을 추출하여
이 객체을 대표할 수 있는 모델을 만드는 과정 / 물론 요약의 방법과 방향은 상대적)
ⅱ. 일일의 기온 변화를 그래프로 플롯
2) 예측 분석 (Predictive analysis)
- 과거의 데이터를 기반으로 미래에 대한 예측을 위한 예측 모델 생성
- 사례 : ⅰ. 오늘의 경제 상황을 기반으로 내일의 주식가격를 예측 함
ⅱ. 생산 공정에서 발생하는 불량품을 검출함
ⅲ. 알파고
한 예시로 '용돈 예측 모델 ' 대해 살펴보자.
우리는 과거의 경험을 기반으로 엄마가 용돈을 줄 지(= 성공), 안줄 지(= 실패)에 대해 짐작(= 예측)을 한다.
데이터 과학에 있어서 이를 활용해본다면,
컴퓨터와 분석알고리즘을 과거의 사례-데이터에 적용하여 상황과 결과를 연관짓는 패턴을 발견하여 예측모델을 생성한다.
그리고 그 예측모델이 새로운 사례에 대한 결과를 예측한다.
* 패턴: 반복적으로 발생하는 현상, 관계
• 데이터 마이닝 과정 (Data mining process)
: 컴퓨터를 이용하여 축척된 데이터(학습용 데이터셋- training dataset)로부터 패턴, 규칙을 추출하여
명시적인 모델을 생성하는 과정
예측 모델은 하나의 시스템으로 수학함수, 컴퓨터 프로그램과 유사하다.
과거 사례로부터 예측 모델을 생성하고, 새로운 사례로부터 모델을 적용을 해보는 것이다. 또 그 결과로 출력변수로 값이 나간다.
예측 모델 생성, 적용의 2단계 접근
1. 모델 생성
- 모델이 과거의 데이터를 학습
- 지식 추출
- 개별적 사례들 -> 일반적인 규칙들을 추출: Induction
2. 모델 적용
- 학습된 모델이 새로운 데이터 (결과 값을 모르는 데이터) 에 대하여 결과 값을 예측
- 지식 적용
- 일반적인 규칙들 -> 개별 사례들을 생성: Deduction
데이터
• 데이터 = 과거 사례들의 집합
- 행: 사례 = 레코드, 객체, 데이터포인트, 벡터
- 열: 변수 = 속성, 필드, attribute
목표 변수값을 모르는 사례에 대하여 예측변수 값을 모델에 입력하여 목표 변수 값을 예측한다.
• 데이터
- 학습 데이터 셋(training dataset): 모델 생성에 사용
- 시험 데이터 셋(test dataset): 모델의 시험에 사용
• 데이터 셋의 구성
- 예측 모델의 정확한 성능 평가를 위하여 두 셋은 서로 배타적이어야 한다.
즉, 두 셋이 중복되지 않도록 구성해야 한다.
• 예측 모델의 성능의 척도
- 시험용 데이터셋을 모델에 적용
- 사례들에 대한 예측 결과를 바탕으로 예측 정확도를 계산
=> %, 또는 [0, 1] 범위의 소수로 나타냄
예측정확도 = (정분류된 사례의 수) / (시험용 사례의 총수)
* 정분류: 실제 목표변수값 = 예측된 목표변수값
* 오분류: 그렇지 않은 경우
• 변수의 종류
- 범주형(명목형) : nominal type
변수값이 종류 또는 이름을 나타냄, 가능한 값이 유한함 (ex) 엄마기분, 성패, 직업, 학점(A, B, C) 등
- 수치형 : numeric type
변수값이 양, 정도를 나타냄, 숫자로 표현. 가능한 값이 무한함 (ex) 주가, 온도, 습도, 시험점수(숫자) 등
• 정형 데이터
표의 형식으로 나타내어진 데이터
• 비정형 데이터
- 텍스트, 영상, 사운드 등의 멀티미디어 데이터
- 문서, 웹페이지, 시스템 및 웹로그, 복합 데이터
- 전문적인 처리 과정을 거쳐 정형 데이터 형식으로 변환하여 처리
- 기계학습, 빅데이터 분야