블로그 이미지
010-9967-0955 보미아빠

카테고리

보미아빠, 석이 (500)
밥벌이 (16)
싸이클 (1)
일상 (1)
Total
Today
Yesterday

달력

« » 2024.3
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

공지사항

최근에 올라온 글

1. 선형회귀분석은 종속 변수와 독립 변수 간의 관계를 계산하고 이 관계를 예측에 사용

 

2. Y=aX+b

   를 구하는데, 모든 요소와 관련된 오류 수의 합계가 최소가 될 때까지 a와 b를 조정하여 회귀 수식을 구한다.

 

3. msft 의 선형회귀분석은 msft 의사 결정 트리의 변형이다. (트리의 분기가 없도록 조정한 것)

 

입력 연속된 숫자만 사용할 수 있다.

출력 연속된 숫자만 예측할 수 있다.

 

adventurework 에서 dimCustomer 의 평균연봉을 구하고자 한다면 다음과 같이 실습하면된다.

해당테이블에 나이가 없고 생일만 있으니 계산된 열을 이용해 추가한다.

 

dsv 에서 테이블에 계산된 컬럼을 추가한다. 일반적인 TSQL 이 먹는다.

 

 

선형 회귀분석 마이닝 구조와 모델을 만든다. 

 

 

 

모델링 플래그를 설정한다. (컬럼의 수동 추가 삭제 등의 경우 자동으로 설정되지 않는다.)

 

 

알고리즘 매개 변수를 확인한다.

선형 회귀분석의 경우 특별히 건드릴 변수가 없다.

 

 

 

마이닝 모델 뷰에서 Yearly Income 을 계산한 수식을 얻을 수 있다.

Yearly Income = 57,403.129+468.492*(Age-53.379)

 

 

만약 20살의 수입이 해당 모델로 학습한 경우 얼마가 되는지 계산해보면

 

 

마이닝 모델 예측에서는 더 쉽게 할 수 있다.

아래와 같이 설정하고 왼쪽 상단의 쿼리 버튼을 누르면 된다.

테이블을 넣어서 할 수도 있고, 단일 쿼리도 가능하고 dmx 쿼리를 바로 뽑아 낼 수도 있다.

 

 

 단일 쿼리를 구한것

 

 

단일 쿼리의 DMX 쿼리 확인  

 

 

 

쿼리분석기에서 데이터베이스에서 DMX 쿼리를 하면 똑같은 결과를 얻을 수 있다.

아래는 마이닝 파라메터를 호출한 경우이다.

 

 SELECT MINING_PARAMETERS
FROM $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'LR_Customer_Income'

 

 


SELECT FLATTENED MODEL_NAME,
    (SELECT ATTRIBUTE_VALUE, VALUETYPE
     FROM NODE_DISTRIBUTION
     WHERE VALUETYPE =7)
AS t
FROM LR_Customer_Income.CONTENT

 

 

 

 SELECT FLATTENED NODE_DISTRIBUTION as t
FROM LR_Customer_Income.CONTENT

 

 

 

70% 샘플링을 해서 12939 건이 있고 연봉 평균값은 57403원이다.

계수는 (7번) 468 이고 평균 연령은 53세이다. 그래서 수식이

Yearly Income = 57,403.129+468.492*(Age-53.379) 이 나온것이다.

 

 

해석은 아래 링크를 보면 쉽게 할 수 있다.

https://msdn.microsoft.com/ko-kr/library/cc645906.aspx

이렇게 쉬운걸 ... 진작 공부해둘걸..... MSDN 만세~ !!!

 

Posted by 보미아빠
, |

최근에 달린 댓글

최근에 받은 트랙백

글 보관함