여러분 안녕하세요 드림셀파 논문컨설팅입니다.
오늘 포스팅해드릴 논문 통계 주제는
바로 데이터 점검과 결측값처리 방법에 대한 내용입니다.
논문통계를 처음 접하는 많은 대학원생 여러분들이 단순히 데이터를 수집하고
SPSS에만 입력하면 바로 분석을 할 수 있다고 생각하시는데요
절대 그렇지 않습니다. 데이터를 분석하기 전에 반드시
내가 수집한 데이터에 문제가 없는지 점검하는 과정이 필수적입니다.
수집한 데이터가 제대로 입력이 되었는지,
오류는 없는지 확인해야 합니다.
왜 데이터를 점검해야 하는가?
예를 들어, 여러분이 설문지를 100명에게 배포해서 데이터를 수집했다고 가정해보겠습니다.
열심히 데이터를 입력했지만, 5점 척도 문항에 6이라는 숫자가 들어가 있다면,
혹은 성별 항목이 남자(1), 여자(2)인데 3이라는 값이 있다면,
이런 오류는 분석 결과를 왜곡시킬 수 있고,
나아가 논문의 신뢰도에 큰 타격을 줄 수 있습니다.
따라서 통계 분석은 ‘입력’에서 끝나는 것이 아니라,
점검에서 시작된다고 말할 수 있습니다.
1. 설문지 설계할때 주의할 점
그렇다면 설문지나 데이터 수집 단계에서 어떤 점을 유의해야 할까요?
첫째, 응답 범위를 명확히 설정해야 합니다.
예를 들어, “전혀 그렇지 않다”에서 “매우 그렇다”까지 1~5점으로 응답하게 설계했다면, 6이나 0 같은 값이 입력되지 않도록 주의해야 합니다.
둘째, 변수 이름과 문항 번호는 일관되게 정리해야 합니다.
데이터를 나중에 분석할 때 헷갈리지 않도록, 문항 번호와 대응하는 변수명을 미리 표로 정리해두는 것이 좋습니다.
셋째, 응답 누락을 방지할 수 있는 장치를 마련해야 합니다.
온라인 설문에서는 ‘필수 응답’을 설정할 수 있고, 종이 설문지를 사용할 경우에는 조사자가 직접 응답을 확인하는 것이 좋습니다.
2. 입력한 데이터를 점검하는 방법 (SPSS에서 빈도분석 이용)
입력을 마친 후, 이제 SPSS 같은 통계 프로그램을 통해 데이터가 제대로 입력되었는지를 확인해야 합니다.
가장 쉽게 점검할 수 있는 방법은 빈도분석(Frequency Analysis)입니다.
빈도 분석을 실행하는 방법은 아래와 같아요
1, [분석] → [기술통계] → [빈도]로 들어가고,
2. 변수들을 모두 선택한 뒤,
3. [통계량] 버튼을 눌러 ‘최대값’을 체크합니다.
4. 마지막으로 [확인]을 누르면 각 변수의 최대값이 표시됩니다.
여기서 중요한 포인트
최대값이 해당 문항의 응답 범위를 벗어났는지 확인하는 것
입니다.
예를 들어, 5점 척도인데 최대값이 7이라면 뭔가 잘못 입력된 것이겠죠?
이럴 땐 설문지를 다시 확인하고, 오류를 수정해줘야 합니다.
예를 하나 들어볼게요!
A 대학원생이 ‘학업 스트레스’에 대한 설문을 100명에게 실시하고 데이터를 입력했습니다.
빈도분석을 해보니, 스트레스 수준을 묻는 문항에서 최대값이 ‘9’로 나왔습니다.
이 문항은 1~5점 척도였기 때문에, 9는 분명히 오류입니다.
이 경우, A 대학원생은 설문지를 다시 확인해 해당 응답자가 실제로 어떤 응답을 했는지 확인하고,
정확한 값으로 수정해야 합니다.
따라서 여러분은 빈도분석 결과를 통해 아래 세 가지는 꼭 확인해보셔야 합니다:
1) 최대값과 최소값이 응답 범위를 벗어나진 않았는가?
앞에서 살펴보신것처럼 데이터 오류를 발견 할 수있는 방법 중
가장 빠르게 발견할 수 있는 방법은
빈도분석 결과에서 최대값과 최소값을 확인 하는 것입니다.
예를 들어, 여러분이 1점부터 5점까지로 응답하게 만든 설문 문항이 있다고 해볼게요.
그런데 분석 결과에서 최대값이 6으로 표시되었다면 어떻게 될까요?
이건 명백한 입력 오류입니다. 설문지는 5점 척도였기 때문에 6이라는 값은 존재할 수 없습니다.
이 경우, 해당 응답의 원본 설문지를 다시 확인해서, 제대로 입력되었는지 검토해야 합니다.
혹은 코딩 기준 자체가 잘못되었을 수도 있기 때문에, 전체 코딩표도 다시 살펴보는 게 좋습니다.
마찬가지로, 최소값도 반드시 확인해야 합니다.
예상되는 최소값이 1인데, 분석 결과에서 0이나 -1처럼 말이 안 되는 값이 나올 수도 있거든요.
이것도 입력 오류일 가능성이 크기 때문에, 반드시 체크해주셔야 합니다
2) 문자나 기호 같은 비정상 값이 입력되어 있진 않은가?
두번째는 빈도표에서 기타값 처럼 튀는 항목으로 표시되는지 확인 하는 것입니다.
숫자가 아닌 문자나 특수기호도 의외로 많이 입력되는 오류 중 하나입니다.
예를 들어,
성별을 1(남), 2(여)로 입력했어야 하는데,
실수로 ‘ㅇ’이나 ‘/’, ‘.’ 같은 문자를 입력했을 수도 있습니다.
이런 값들은 겉으로 보기엔 눈에 띄지 않을 수 있지만, 빈도표에서는 '기타 값'처럼 튀는 항목으로 표시됩니다.
그래서 데이터 전체를 훑어보기보다, 빈도표를 활용해서 자주 등장하지 않는 값들을 확인하는 것이 훨씬 빠르고 효과적입니다.
3) 결측값(Missing)은 얼마나 발생했으며, 특정 변수에 몰려있진 않은가?
마지막으로 하나 더 중요한 포인트!
빈도분석 결과에 나오는 각 변수 옆에는 ‘Missing’이라는 항목이 함께 표시됩니다.
이건 그 변수에서 응답하지 않은 사람의 수, 즉 결측값 개수를 알려주는 지표예요.
예를 들어, 특정 문항에서 Missing N이 20명이라고 되어 있다면,
해당 항목에 무응답이 꽤 많다는 의미이기 때문에 반드시 다시 들여다봐야 합니다.
설문 자체가 너무 어려웠던 건 아닌지,
입력이 누락된 건 아닌지,
혹은 설문지 인쇄 오류로 문항이 빠진 건 아닌지 등,
Missing 값을 통해 다양한 문제를 추적할 수 있습니다.
통계 분석은 얼마나 정확하게 입력되었는가,
그리고 얼마나 신뢰할 수 있는가에 따라 분석 결과가 완전히 달라집니다.
여러분들이 설문지를 정성스럽게 만들고, 데이터를 열심히 수집했다 하더라도
입력된 값에 오류가 있다면, 그 모든 노력이 헛수고가 될 수 있어요 ㅠ
논문 심사시에도 교수님들도 이 점을 굉장히 중요하게 봅니다.
“분석 결과는 그럴듯한데, 데이터 검토 과정이 허술하다”는 인상을 주면
결과 자체도 의심받게 되기 때문에 꼭 정확한 데이터를 사용 해야 합니다.
그래서 꼭 여러분들이 논문 통계를 위해서 데이터를 받고 난 후에는
통계 분석은 “점검 → 수정 → 분석”의 순서를 지킬 필요가 있습니다.
오늘 알려드린 내용을 바탕으로 꼭 데이터 분석전에 점검해 보시길 바랍니다.
여러분의 논문은 훨씬 더 탄탄해질 수 있을거예요
논문 통계 분석에 도움이 필요하다면 드림셀파에 문의해주세요
논문 통게분석 뿐 아니라 1:1 논문 통계 수업 , 1:1 논문 통계 컨설팅도 받을 수 있어요 :)