샘플선택효과
앞의 글에서 소개한 대로, 천문학에서는 보이는 것이 모든 것을 말해 주지는 않는다. 거의 모든 천문학 관측자료에는 편향성이 내재해 있기 때문이다. 이것과 맥을 같이 하지만또 다른 종류의 문제가 있으니 바로 결론을 도출하기 위해 사용하는 천체들의 샘플 (관측된 모든 천체들 안에서 연구대상인 천체들을 골라내는 과정을 통해 얻어진 샘플)이 가지고 있는 각각의 고유한 특성이다.
위의 그림은 사람들이 눈을 감은채 코끼리를 만지는 장면이다. 어디를 만지느냐에 따라 어떤 사람은 코끼리를 가장 큰 특징을 물 호스와 같은 코라고 생각할 수도 있고 어떤 사람은 길고 딱딱하고 날카로운 상아라고 생각할 수도 있겠다. 문제는 코끼리라는 대상이 여러 가지 겉보기 특징을 가질 수 있고 그중 어떤 것은 꼭 코끼리만의 것이라고 할 수는 없다는 데 있다. 코뿔소도 뾰족한 (그래서 코끼리의 상아와 헷갈릴 수 있는) 뿔이 있고, 하마도 굵은 다리를 가지고 있기 때문이다. 예를 들어, 만약에 누군가 코끼리의 완전한 전체 모습을 보지 못하고, 코끼리의 일부분을 만져서 얻은 정보에만 의존하여, 뾰족한 '뿔과 같은' 부위를 가지고 있는 동물들만 골라낸다면 그 샘플 중에는 코뿔소가 섞여있을 가능성이 있다. 좋은 방법은 여러 가지 정보를 취합하여 샘플을 고르는 것이다. 가령, 뾰족한 뿔과, 넓은 부채 같은 귀, 호스 같은 코를 다 가지고 있는 동물을 고른다면 아마도 높은 확률로 코끼리들을 고를 수 있을 것이다.
천체들도 이와 마찬가지로 여러 가지 물리적 특징들을 가지고 있기 때문에, 관측하는 방법 (어떤 파장으로 보느냐), 혹은 샘플을 고르는 방법 (어떤 특성을 가지는 천체를 골라내느냐)에 따라 원하는 종류의 천체 외에 다른 종류의 천체가 섞여 들어갈 가능성이 있다. 아래 그림을 한 번 보자. 이것은 수많은 은하들을 관측하여 얻은 은하의 성질들의 통계적인 분포를 보여준다. X축은 상용로그 스케일로 나타낸은하들의 질량 (오른쪽으로 갈수록 무겁다)이고Y축은 은하들의 색깔이다. 질량은 설명이 필요 없을 것 같고, 은하들의 색깔이 의미하는 것은 어떤 두 파장 (이 도표의 경우 자외선과 가시광선)에서 관측되는 광도 등급의 차이다. 광도등급은 로그 스케일에서 정의된 양이므로, 광도등급의 '차이'는 두 파장에서 관측된 밝기의 '비(比)'를 의미한다 (카지노 게임의 세계참고).어두운 회색일수록 은하 샘플이 많음을 나타낸다. 각각의 도표 안에 써져 있는 용어는 은하의 종류를 의미한다 (early, late, indeterminate 등은 은하의 생김새에 따라 구분하는 분류용어이고 각각의 자세한 의미는 이 글에서 그리 중요하지 않다).
이 도표상에서, 모든 은하들을 구별 없이 표시한 왼쪽 상단의 패널을 보면, 은하들이 크게 두 부류로 구분되어 있다는 사실이 눈에 들어온다 (1과 2). 다른 패널들은 각각의 종류별 은하를 따로따로 구별하여 나타낸 것이다. 자, 이제 은하를 연구하는 천문학자인 여러분이 일정질량 이상의 은하들을 골라 연구한다고 해보자 (질량은 물체의 가장 기본적인 성질 중의 하나이므로 자연스러운 선택이라 할 수 있겠다). 질량의 하한선 (그 보다 무거운 은하들을 골라 연구한다)이 결정되면 여러분이 연구하는 은하들의 샘플이 결정된다.
질량하한선이 크다면, 여러분이 고른 은하들의 대부분은 '그룹 1' 은하들로 이루어진 순도 높은 샘플일 것이다. 하지만, 질량하한선이 작다면, 여러분이 고른 은하샘플 안에는 '그룹 1'과 '그룹 2' 은하들이 섞여있게 된다. 따라서,성질이 다른 두 그룹의 은하가 섞인 (게다가 어느 정도의 비율로 섞여있는지 알 수가 없는) 샘플을 사용하여 얻어진여러분의 통계적인 연구결과는 신뢰성이 떨어지게 된다.이것은 마치, 코끼리라는 대상을 연구하기 위해,상아만 보고 코끼리를 골라내는 경우와 비슷하다 (샘플 안에 코뿔소가 섞여 들어갈 수 있다). 하지만 은하의 질량과, Y축에 보이는 은하들의 색깔을 같이 고려하여 은하들을 고르면 '그룹 1'과 '그룹 2'에 속하는 은하들을 분리하여 좀 더 잘 (순도 높게) 골라낼 수 있다. 이쯤에서 눈치가 빠른 여러분 중 누군가는, '어? 이런 거는 기계학습을 이용하면 잘할 수 있겠는데?'라는 생각을 할지도 모르겠다 (바로 그렇다, 요즘시대의 기계학습을 이용한 '빅데이터' 분류, 처리는 천문학에서도 예외는 아니다).
이렇게 천문학자들은 항상 내가 고른 샘플이 순도 높은 자료가 되도록, 어떻게 하면 샘플을 잘 고를 수 있을까 고민하고, 샘플의 순도가 어느 정도 인지를 정량화하려고 한다. 이것이 현실적으로 어렵다면, 실험군과대조군을 이용하여 샘플 선택의 영향을 최대한 줄이려는 노력을 하고 있다.실제로 천문학자들이 하는 이런 고민들은 눈감고 코끼리를 만지는 위의 사람들이 하는 고민과 본질적으로 크게 다르지 않다.