컨텐츠 바로가기

GATK(Genome Analysis Toolkit)란 무엇인가?

http://fordk.egloos.com/4302567

프로젝트의 일환으로 GATK를 분석하게 됐다.
여태 하던 부분은 Reference Mapping Tool에 관한 일이었는데 GATK는 그 이후의 처리를 담당하는 분석 툴인 것 같다.

입력 : BAM 혹은 여타 지원 파일 포맷
결과 : VCF 파일
핵심 아이디어 : Map Reduce Technique

기본적으로 Reference Mapping단계는 GATK의 역할이 아니다. Reference Mapping 이후 나온 결과 파일을 가지고 분석을 시작한다.
1) 기본적인 Reference Mapping 단계

SAM 파일 포맷 자체는 데이터가 크기 때문에 상대적으로 압축되고 indexed된 BAM 파일을 GATK에서 사용한다.
 (1) Local Realignment
       : false positive 를 불러올 수 있는 indels 막기 위해 possible indel table을 생성하고, realignment를 진행.
 (2) Base Quality Recalibration
       : BAM file format안에 있는 각 리드 QUAL field 값이 더 정교해져서 지도록 한다. Quality score는 리드가 어느정도 오류를 가지고 있는건지 뜻하는데 Recalibration을 통해 이 값을 refine한다고 보면 되겠다.

2) GATK 의 Workflow

각 리드에 Variant Discovery와 Genotyping을 처리한 후에 각 Raw Variants들을 통합 분석한다.(그냥 해석한게 되어 버렸다.ㅎㅎㅎ;;)
   (1)Variant Discovery
     : sample에서 sequence variation을 찾는다. 이 Variant의 종류는 SNP, Indel, Structural Variation의 3가지 방법으로 얻을 수 있다.
       - SNP(Single Nucleotide Polymorphisoms) : 단일 염기 다형성. 유전정보의 복사 오류에서 발생. 이로 인해 유전적 차이 발생
       - Indel (Insertion & Deletion) : 유전적 정보의 추가 혹은 삭제. 이로 인한 유전적 차이
       - Structural Variation : 말그대로 유전 구조적 차이. 자세한 사항은 잘 모르겠다.
   (2)Genotyping
      : 유전자 형을 결정하는 단계. 사람마다 유전자 마다 다른데 이를 통해 개인을 구분할 수 있다. 위의 Variant Discovery를 통해 유전자 형을 결정할 수 있는 것.


External Data는 Raw Data외에 기존의 데이터를 뜻한다.

3) External Data

위 그림처럼 여태 알려진 유전적 변이, 유전 구조, 유전 족보, 유전자 타입 등을 뜻하는데 GATK로 분석한 유전적 변이와 이 외부 정보를 가지고 데이터를 분석하게 된다.

덧글|신고