구간변수 & 비율변수, 그리고 이항변수/더미변수
지난 포스팅에서는 질적변수와 양적변수를 구분하고,
또 각각을 명목변수와 순서변수, 이산변수와 연속변수로 구분해보았습니다.
그런데 변수의 성질에 따라 구분할 때 등장하는 몇 가지 용어가 더 있는데요.
바로, 구간변수, 비율변수, 이항변수/더미변수입니다.
이 세 가지는 양적변수와 질적변수에서 특정한 성질을 고려한 또 다른 구분이라고 할 수 있습니다.
1. 구간변수와 비율변수
- 구간변수(interval variable): 일정한 거리(구간)에 따라 값이 구분(등간성)되는 변수로 덧셈과 뺄셈 가능
- 비율변수(ratio variable): 등간성에 더해 비율성이 있는 변수로 사칙연산 가능
구간변수와 비율변수 모두 양적변수인데요. 둘 다 일정한 구간을 가지는 등간성을 가지고 있죠.
이러한 양적변수 중에서 절대적인 원점(0값)이 없으면서 곱할 수도 없는 변수가 구간변수이며,
등간성과 비율성을 바탕으로 절대적 원점도 있고, 곱하거나 나눌 수 있는 변수가 비율변수입니다!
어떤 변수를 놓고 구간변수냐 비율변수냐를 구분하는 것은 종종 헷갈릴 때가 있는데요.
이를 구분하는 쉬운 방법을 생각해보겠습니다.
<구간변수(interval variable)의 예>
예를 들어, 온도(Celsius)를 생각해보죠.
어제 기온이 영상 15도였고, 오늘 기온이 영상 5도라면,
어제와 오늘의 기온 차는 10도가 되죠? 그럼 등간성을 가지고 있다고 할 수 있겠네요!
그런데, 어제가 오늘보다 3배 따뜻하다고 얘기할 수 있을까요?
그럴 수 없습니다! 왜냐하면 온도의 0도는 절대적인 원점이 아니기 때문이고,
온도라는 변수는 비율성이 없기 때문입니다.
따라서, 온도는 구간변수입니다!
<비율변수(ratio variable)의 예>
한 가지 예를 더 들어보겠습니다.
이번에는 길이를 생각해보죠.
아버지의 키가 180cm이고, 아들의 키가 60cm라면
아버지와 아들의 키 차이는 120cm라고 할 수 있습니다.
즉, 등간성을 있다는 것을 알 수 있겠네요!
그렇다면, 아버지의 키가 아들의 키보다 3배 크다고 할 수 있을까?
네! 그렇다고 할 수 있습니다! 그러므로 길이는 비율성도 있다고 할 수 있습니다,
따라서, 길이는 비율변수입니다.
2. 구간/비율변수와 이산/연속변수?
구간변수와 비율변수를 이해하고 나니, 혼란이 생기게 됩니다.
양적변수는 이산형 변수와 연속형 변수로도 구분이 되고, 구간변수와 비율변수로도 구분이 되는데,
그러하면 구간/비율변수와 이산/연속변수의 관계는 어떻게 되는 것인가?! 하고 말이죠.
말 그대고 양적변수는 이산형과 연속형으로도 구분할 수도 있고,
구간변수와 비율변수로도 구분할 수 있습니다.
그렇기 때문에 이산형 변수 중에서도 구간변수가 있을 수 있고, 비율변수가 있을 수 있으며,
연속형 변수 중에서도 구간변수와 비율변수가 있습니다. 각각의 예시는 다음과 같습니다.
- 이산형 구간변수: 예. 연도
- 이산형 비율변수: 예. 수량
- 연속형 구간변수: 예. 온도
- 연속형 비율변수: 예. 길이
3. 이항변수 또는 더미변수
마지막으로 살펴볼 변수는 이항변수(binominal variable) 또는 더미변수(dummy variable)에요(이하 더미변수).
더미변수는 질적변수의 일종으로 0과 1의 값만을 갖는 변수를 의미합니다.
통상 무언가의 유무를 측정할 때 많이 쓰죠.
이는 국제관계학의 양적연구에서 다양하게 활용되는데요. 예를 들어
어떤 사건에 대해서 "냉전기(1945-1991)"에 일어난 일이냐 혹은 외의 기간의 일어난 일이냐를 변수화할 때
냉전기에는 1, 그 외의 기간에는 0를 넣으면 되는 것이죠.
또 두 국가 간 관계에서 전쟁을 겪었는지 안 겪었는지를 정량화해서 표현할 때는 1와 0으로 표현이 가능하죠.
그렇다면 질적변수도 명목변수와 순서변수/서열변수로 구분하는 것을 배웠는데,
더미변수는 명목변수일까, 순서변수일까 또 다시 혼란이 찾아옵니다.
생각하기에 따라서는 순서형이라고 생각할 수도 있겠지만, 더미변수는 기본적으로 명목변수입니다.
(이후에 다루겠지만 종속변수의 성질에 따라 회귀분석의 유형이 달라지게 되는데,
종속변수가 더미변수일 때는 로지스틱 회귀 중 이항형 로지스틱을 사용하게 되는 것을 통해 명목변수로 구분할 수 있죠)
지난 포스팅과 이번 포스팅까지 변수의 성질에 따른 구분법을 알아보았습니다!
다음에도 유익한 글로 찾아뵙겠습니다. 감사합니다~!
'방법론 및 논문 쓰기' 카테고리의 다른 글
영가설과 대립가설 & 통계의 원리 (0) | 2023.11.17 |
---|---|
국제관계학 분야 국내 SSCI 학술지 (2) | 2023.11.16 |
자료/데이터(Data)의 종류 (0) | 2023.11.14 |
기술통계(서술통계) & 추론통계(추리통계)의 구분 (1) | 2023.11.13 |
모집단과 표본 (0) | 2023.11.12 |
댓글