Affymetrix Exon 1.0 ST 배열의 재현 가능한 프로브 수준 분석

본 논문은 GeneChip Human Exon 1.0 ST 마이크로어레이 데이터를 R/Bioconductor 환경에서 전처리, 요약, 차등 스플라이싱·발현 분석까지 전 과정을 재현 가능하도록 상세히 기술한다. aroma.affymetrix 패키지를 중심으로 폴더 구조 설정, 배경 보정·정규화, 프로브·프로베셋·전사군 수준 요약, FIRMA 기반 스플라이싱 검정, 그리고 biomaRt·GenomeGraphs를 이용한 유전자 주석 및 시각화를 단계…

저자: Maria Rodrigo-Domingo, Rasmus Waagepetersen, Julie St{o}ve B{o}dker

Affymetrix Exon 1.0 ST 배열의 재현 가능한 프로브 수준 분석
본 논문은 GeneChip Human Exon 1.0 ST 마이크로어레이 데이터를 완전 재현 가능한 형태로 분석하기 위한 전체 워크플로우를 R/Bioconductor 환경에서 구현하고, 이를 실제 공개 데이터셋에 적용해 검증한다. 서론에서는 마이크로어레이 분석에서 재현성 문제가 심각함을 지적하고, 이를 해결하기 위해 오픈소스 소프트웨어와 자동화된 보고서(Sweave) 사용을 제안한다. 특히 Affymetrix Exon 배열은 5.6 백만 개의 프로브가 1.4 백만 개의 프로베셋, 1.1 백만 개의 엑손 클러스터, 300 천 개 이상의 전사군으로 구성돼 복잡한 전처리와 요약이 필요함을 설명한다. 워크플로우는 크게 여섯 단계로 나뉜다. 첫 번째 단계는 aroma.affymetrix가 요구하는 폴더 구조(‘rawData’, ‘annotationData’, ‘chipTypes’ 등)를 설정하고, .CDF 파일(핵심, 확장, 전체)과 .CEL 파일을 적절히 배치한다. 두 번째 단계에서는 RmaBackgroundCorrection()으로 배경 보정을 수행하고, QuantileNormalization()으로 정규화를 진행한다. 이때 plotDensity()를 이용해 각 단계의 강도 분포를 시각적으로 확인한다. 세 번째 단계는 요약 단계이다. ExonRmaPlm() 함수를 사용해 두 가지 요약을 만든다. mergeGroups=TRUE이면 전사군 수준(‘gene expression’) 요약이, FALSE이면 프로베셋·엑손 수준 요약이 생성된다. 각각은 ChipEffectSet 객체로 저장되며, getChipEffectSet()을 통해 매트릭스로 추출한다. 또한 readUnits()를 이용해 개별 프로브 강도까지 접근 가능하다. 네 번째 단계에서는 차등 발현과 차등 스플라이싱을 검정한다. 차등 발현은 전사군 평균 강도를 limma 패키지의 linear model에 입력해 통계량을 얻는다. 차등 스플라이싱은 FIRMA 방법을 적용한다. FIRMA는 각 전사군 내 프로베셋 강도와 전사군 평균 강도 사이의 residual을 계산하고, 이를 선형 모델에 넣어 스플라이싱 변화를 정량화한다. 결과는 p‑value와 FDR로 정리되며, 다중 검정 보정을 위해 Benjamini‑Hochberg 절차를 사용한다. 다섯 번째 단계는 데이터 필터링이다. Affymetrix가 권장하는 DABG 절차가 aroma.affymetrix에 구현되지 않아, 논문에서는 로그2 강도 3 이하의 프로베셋을 ‘부재’로 간주하고 제거한다. 이는 거짓 양성률을 크게 낮추는 실용적인 대안이며, 필터링 후에는 전사군·프로베셋 수가 크게 감소한다. 마지막 단계는 주석 및 시각화이다. NetAffx에서 제공하는 전사군·프로베셋 CSV 파일을 biomaRt를 통해 Ensembl gene ID와 매핑하고, GenomeGraphs 패키지를 사용해 전사군 구조와 차등 스플라이싱 이벤트를 유전체 좌표 상에 시각화한다. 이를 통해 연구자는 특정 유전자의 대안 스플라이싱 패턴을 직관적으로 파악할 수 있다. 전체 파이프라인은 Sweave(.Snw) 문서 형태로 제공되어, 코드와 결과가 자동으로 연결된다. 사용자는 .Snw 파일을 R 스크립트로 변환하거나 직접 실행해 동일한 그래프와 통계표를 얻을 수 있다. 메모리 요구량은 약 1 GB로, 일반적인 PC에서도 수십 개의 배열을 동시에 처리할 수 있다. 논문은 Affymetrix Human Exon 1.0 ST 배열을 이용한 대장암 조직·정상 쌍 데이터(10명)로 워크플로우를 실증한다. 전처리 후 강도 분포가 정상화된 것을 확인하고, FIRMA 기반 차등 스플라이싱 분석을 통해 기존 연구에서 보고된 몇몇 유전자의 스플라이싱 변화를 재현한다. 차등 발현 분석 역시 기대한 대장암 관련 유전자를 검출한다. 결론적으로, 이 논문은 aroma.affymetrix와 Bioconductor 생태계 내 다른 패키지를 결합해 복잡한 Exon 배열 분석을 완전 재현 가능하게 만든다. 상세한 코드와 폴더 구조, 주석 파일 제공을 통해 다른 연구자는 동일한 파이프라인을 그대로 적용하거나, 새로운 통계 방법·머신러닝 모델을 기존 단계에 삽입해 비교 연구를 수행할 수 있다. 이는 마이크로어레이 분야에서 재현성 문제를 해결하고, 새로운 분석 기법의 검증을 가속화하는 중요한 기여라 할 수 있다.

원본 논문

고화질 논문을 불러오는 중입니다...

댓글 및 학술 토론

Loading comments...

의견 남기기