일단 현재까지 자연계에서 알려진 코로나바이러스 중에서 SARS-CoV-2 와 가장 비슷한 것은 이녀석입니다. 박쥐에서 발견된 넘입니다. https://www.ncbi.nlm.nih.gov/nuccore/MN996532
그리고 우한에서 제일 먼저 발견된 SARS-CoV-2 의 서열은 이것입니다.
https://www.ncbi.nlm.nih.gov/nuccore/NC_045512.2?report=fasta
이 두 개를 비교해보도록 하죠.
직접 비교할까 했습니다만 이미 다른 사람들이 다 해놨습니다.
https://www.cell.com/current-biology/pdf/S0960-9822(20)30662-X.pdf
이 논문의 Table 1을 보도록 하죠. SARS-CoV-2 와 이들과 가장 가까운 바이러스들을 비교하였습니다.
현재까지 SARS-CoV-2와 가장 가까운 바이러스인 RaTG13 은 전체 지놈 기준으로 핵산 서열의 일치도가 96.1% 입니다. 그 이야기는 3.9% 의 핵산 서열이 다르다는 것이고, SARS-CoV-2 의 지놈이 길이가 30,000 염기이므로 약 1,000염기 이상이 다르다는 것입니다. 이 중 가장 상동성이 떨어지는 것은 바이러스의 스파이크 단백질 유전자인 'S' 유전자이고, 그 중에서도 직접 세포의 수용체인 ACE2 와 결합하는 영역인 RBD 부분입니다. 바이러스의 다른 부분은 E 유전자와 같이 바이러스에서 전반적으로 매우 유사한 부분도 있지만 그래도 꽤 많은 차이(88-95% 정도의 염기 일치도) 있습니다.
스파이크 단백질의 RBD 부분이 왜 가장 빈번하게 바뀌는가? 는 쉽게 유추할 수 있습니다. 많은 종류의 숙주에서 증식하려면 일단 세포에 침투해야 하고, 이 부분과 숙주 세포의 수용체와의 상호작용이 필수적입니다. 그런데 숙주의 수용체는 다 다르고..이를 위해서는 여기에 돌연변이가 많이 일어나서 각각의 환경에서 최적의 환경을 보이는 넘들이 선발된 셈입니다. 즉, 진화에서의 선택압이 가장 높은 지점이라고 할 수 있겠죠.
https://www.researchsquare.com/article/rs-21377/v1
요 논문에 보면 스파이크 단백질, 특히 RBD 영역의 서열을 비교해 둔 게 있네요.