본문 바로가기 주메뉴 바로가기

논문통계방법 무료자료

회귀분석에서 통제변수 투입방법

관리자 2024-11-13 조회수 229

안녕하세요 ^^ 드림셀파입니다.

회귀분석을 돌릴 때 통제변수를 넣는 방법에 대해 설명드리겠습니다. 

 

일반적으로 회귀분석을 돌릴 때 주요한 변수들은 연속변수로 조사해서 투입합니다

연속변수는 변수의 측정범위가 연속되어서 무수히 많은 값으로 구간을 쪼갤수 있는 변수입니다

실제 사회과학 논문에서는 1~5점 척도, 1~7점 척도 같은 것들이 많이 쓰이지요

 

하지만 우리가 통제변수로 많이들 사용하는 인구학 변수들의 경우 연속변수가 아닌 경우도 많은데요예를 들어 하나씩 살펴보겠습니다

 

성별남성과 여성이 존재하는 이분형 명목변수입니다

나이나이는 연속변수입니다

학력보통 중졸 이하고졸대졸 이상 등등으로 구분하기 때문에 단순 명목변수로 생각할수 있지만 학력이 높다낮다 등으로 이야기할 수 있는 순서가 존재하기 때문에 서열변수(순위변수)로 봐야 합니다

 

이 정도면 대략 종류별로 등장한 것 같으니 회귀분석에 어떻게 투입해야 할지 설명해보겠습니다

 

성별의 경우 남성이나 여성 중 하나를 기준으로 잡아 0으로 코딩해야 합니다나머지 하나는 1로 코딩하게 됩니다남성을 0으로 잡는다면 여성이 1이 되겠지요?

이러한 변수를 더미변수(0과 1로 표현되는 변수)라고 합니다

 

나이의 경우 연속변수이기 때문에 그대로 투입하면 됩니다

다만 연령대 구간별로 특색이 있다는 근거를 가지고 있다면 구간별로 나누어서 더미변수를 써도 됩니다

예를 들어, 30세 미만, 30~65세 미만, 65세 이상 등 3가지로 구분한다고 합시다

그러면 성별의 더미변수를 만들 때처럼 한 가지를 기준으로 잡아야겠죠

이때 성별과는 달리 더미변수를 2개 만들어야 합니다

더미변수는 응답분류-1의 개수를 만들어야 회귀분석에 투입할수 있어요

성별은 응답분류가 2개여서 더미변수 1개면 되지만연령대를 3개 구간으로 나누었으니 더미변수 2개가 필요합니다

만약 30세 미만을 기준으로 잡는다면

첫 번째 더미변수는 30~65세 미만을 1로 입력나머지는 모두 0으로 입력합니다

두 번째 더미변수는 65세 이상을 1로 입력나머지는 모두 0으로 입력합니다

 

다음으로는 학력을 해볼까요

학력은 서열변수지만 학력으로 살펴보고자 하는 주요변수가 학력과 선형적인 관계(정비례 혹은 반비례)를 가진다고 장담할 수 없기 때문에 원칙적으로는 연령대 구간을 더미변수로 만든 것처럼 더미변수로 투입해야 합니다

다만 서열변수 형태 그대로 “1=중졸 이하, 2=고졸, 3=대졸 이상” 등으로 그냥 투입하기도 하는데요

양회창조희영(2018)에 의하면 엄격하게 더미처리한 변수를 분석결과와 서열변수 그대로 사용한 분석결과 간에는 의미있는 차이가 없었다고 합니다

 

=> 양회창, & 조희영. (2018). 분석방법 이슈회귀분석시 인구통계적 특성의 통제방법예술인문사회 융합 멀티미디어 논문지, 8(9), 615-626.

 

 


 

다만 해당 연구에서 투입방법에 따른 차이는 거의 없어도투입한 것과 안한 것에는 어느정도 차이가 있었기 때문에 통제변수 선정도 꽤나 중요하다는 이야기겠지요?

무료상담신청

논문컨설팅 No.1 드림셀파
1588-8235
1:1 무료 상담 신청 click
전화상담부터
박사급 전문가와 함께 합니다.