본문내용
1. 생물정보학 개요
1.1. 생물정보학의 정의
생물정보학은 컴퓨터와 생물학을 결합한 학문으로, 방대한 양의 생물학적 데이터를 효율적으로 저장, 관리, 분석하여 새로운 생물학적 발견과 통찰을 얻는 것이 목적이다." 이는 생물정보학의 정의로, 컴퓨터 기술을 활용해 생물학적 데이터를 처리하고 분석함으로써 생물학의 이해를 증진시키는 학문이라고 할 수 있다.
1.2. 생물정보학의 활용 목적
생물정보학의 활용 목적은 다음과 같다.
생물정보학은 컴퓨터와 생물학을 융합하여 대규모 생물학 데이터를 빠르게 처리하고 분석하여 새로운 생물학적 통찰을 발견하는 것을 목적으로 한다. 구체적으로는 유전자 및 유전체 연구, 단백질 구조와 기능 예측, 약물 타겟 발굴, 진화 관계 규명, 질병 진단 및 예측 등 다양한 분야에 활용된다.
유전체 해독 기술의 발달로 생물 데이터가 폭발적으로 증가함에 따라 생물정보학의 필요성이 더욱 커지고 있다. 생물정보학은 이러한 대량의 데이터를 효율적으로 수집, 저장, 관리하고 컴퓨터를 이용해 빠르게 분석할 수 있게 해준다. 이를 통해 새로운 생물학적 발견과 통찰을 얻어 실험 설계를 최적화하고 비용을 절감할 수 있다.
특히 질병 관련 연구 분야에서 생물정보학은 큰 역할을 한다. 유전적 변이와 질병의 연관 관계를 분석하여 새로운 유전 표지자를 발굴하고, 단백질 구조 예측을 통해 약물 타겟을 발견하는 데 활용된다. 또한 전장유전체 연관 분석, 전사체 분석 등을 통해 질병의 발병 기전을 이해하고 진단 및 예측 모델을 개발할 수 있다.
나아가 생물정보학은 진화 과정을 규명하고 생물 종간의 유연관계를 밝히는 데에도 기여한다. 유사한 유전자 및 단백질 서열을 비교하여 공통 조상을 추정하고 계통수를 작성할 수 있다.
이처럼 생물정보학은 다양한 생물학 분야에서 데이터 분석을 통해 새로운 생물학적 이해와 통찰을 얻는 데 핵심적인 역할을 하고 있다.
1.3. 생물정보학의 주요 연구 분야
생물정보학의 주요 연구 분야는 다음과 같다.
유전체 분석(Genome analysis)은 생물체의 유전정보를 분석하여 유전자와 염기서열의 특성을 밝히는 것이다. 이를 통해 유전자 발현 조절, 단백질 구조와 기능, 생명체의 진화 등을 이해할 수 있다.
전사체 분석(Transcriptome analysis)은 생물체의 특정 조직이나 세포에서 발현되는 유전자를 분석하여 발현 패턴을 파악하는 것이다. 이를 통해 세포의 기능과 활성, 질병 상태 등을 이해할 수 있다.
단백질체 분석(Proteome analysis)은 생물체의 단백질 발현 양상을 전체적으로 분석하여 단백질의 구조, 기능, 상호작용 등을 연구하는 것이다. 이를 통해 생명 현상의 분자적 기작을 이해할 수 있다.
유전체 구조 및 기능 분석(Genome structure and function analysis)은 유전체의 구조적 특징과 유전자의 기능을 밝히는 것이다. 이를 통해 생명체의 진화, 질병 유발, 표현형 결정 등의 원리를 이해할 수 있다.
시스템 생물학(Systems biology)은 생물 시스템 내의 다양한 요소들의 상호작용을 통합적으로 분석하여 생명 현상의 복잡한 동역학을 이해하고자 하는 것이다.
생물 의약 정보학(Biomedical informatics)은 의학 정보와 생물학 정보를 통합하여 질병의 진단, 치료, 예방 등을 위한 새로운 방법을 연구하는 것이다.
약물 설계 및 개발(Drug design and development)은 생물정보학적 접근을 통해 신약 후보물질을 발굴하고 최적화하는 것이다.
2. 생물정보학 관련 용어 정리
2.1. Contig
Contig는 중복된 DNA 단편들의 집합을 의미한다. 유전체 분석 과정에서 단편화된 DNA 서열들을 합쳐서 연속적인 서열을 만들어내는 데 사용된다. 이렇게 만들어진 연속적인 서열은 염기서열이 완전히 알려지지 않은 미확인 유전체 영역(unfinished genomic regions)을 채우는데 활용될 수 있다. Contig는 특정 유전체 영역에서 서로 중첩되는 DNA 단편들을 모아 하나의 긴 서열로 만드는 작업을 통해 만들어진다. 이는 genome 어셈블리 과정에서 핵심적인 역할을 한다.
Contig를 만들어내는 방법 중 하나가 shotgun 시퀀싱 기법이다. 이 기법에서는 유전체 DNA를 무작위로 절단하여 많은 단편들을 생산한 뒤, 이들 단편의 염기서열을 결정하고 이를 바탕으로 중첩 영역을 찾아 연결함으로써 장거리 염기서열을 재구성한다. 이를 통해 유전체의 대부분을 커버할 수 있는 contig들을 만들어낼 수 있다.
Contig는 genome 어셈블리 과정에서 매우 중요한 중간산물이다. 하지만 contig 자체만으로는 완전한 유전체 염기서열을 제공하지 않는다. 따라서 contig들을 더 긴 서열인 scaffold로 연결하거나 추가적인 실험을 통해 최종적인 유전체 염기서열을 완성해야 한다. 이처럼 contig는 생물정보학 분야에서 유전체 해독과 분석을 위한 필수적인 중간 산물이라고 할 수 있다.
2.2. Shotgen method
유전자를 cloning할 때 어느 생물의 유전자 DNA전체를 제한 효소로써 절단하고 이것을 자기증식성의 vector DNA에 결합시켜 숙주 세포에 도입하여 그 DNA 단편을 증식시키는 방법이 shotgen method이다."
2.3. Consensus sequence
Consensus sequence는 어떤 DNA 영역에서 특정의 염기가 공통으로 고빈도로 출현하는 염기배열의 부위를 말한다. 즉, 유전자 서열 데이터를 분석하여 얻을 수 있는 대표 염기 서열을 의미한다.
Consensus sequence는 여러 개의 유사한 서열들을 비교하여 공통적인 부위를 찾아내는 방식으로 만들어진다. 이를 통해 유전자 예측, 유전자 진화 분석, 단백질 구조 예측 등 다양한 생물정보학 연구에 활용된다.
예를 들어, 여러 개의 유사한 유전자 서열들이 있다고 가정하자. 이 서열들을 정렬하면 공통적으로 나타나는 염기 서열 부위를 파악할 수 있다. 이렇게 파악된 공통 부위가 바로 Consensus sequence가 된다. 이를 통해 해당 유전자의 주요 기능과 구조에 대한 정보를 유추할 수 있다.
Consensus sequence는 생물정보학 연구에서 매우 유용한 개념이다. 유전자 예측 프로그램에서는 Consensus sequence를 활용하여 실제 유전자 영역을 찾아내고, 유전자 진화 연구에서는 공통 조상 유전자의 서열을 추정하는데 활용된다. 또한 단백질 구조 예측에서도 Consensus sequence를 활용하여 특정 단백질의 주요 구조를 예측할 수 있다.
따라서 Consensus sequence는 생물정보학 연구의 기반이 되는 핵심 개념이라고 할 수 있다.
2.4. Codon frequency
codon frequency는 유전자와 아닌 것을 구별하는 척도로 사용된다. 코돈이 달라도 같은 아미노산을 지정하는 경우가 있는데, 이때 유전자 내에서 각 코돈이 나타나는 상대적 빈도를 이용한다.
일반적으로 유전자 내에서 특정 코돈이 높은 빈도로 나타나는 반면, 유전자 밖의 영역에서는 그렇지 않다. 이를 이용하여 코딩 영역(유전자)과 비코딩 영역을 구별할 수 있다. 코돈 조성비(codon usage bias)가 높은 부분은 유전자로, 낮은 부분은 비코딩 영역으로 간주할 수 있다.
예를 들어 박테리아의 경우 특정 아미노산에 대해 최적화된 코돈을 사용하여 단백질 합성 효율을 높인다. 이처럼 코돈 사용 빈도의 편향성은 유전자와 아닌 것을 구별할 수 있는 중요한 정보를 제공한다.
따라서 코돈 frequency 분석은 유전자 예측, 단백질 발현 효율 분석, 진화적 관계 추정 등 다양한 생물정보학 연구에 활용되고 있다.
2.5. EST(express sequence tags)
EST(express sequence tags)는 세포에서 추출한 mRNA를 주형으로 하여, 역전사 효소를 사용하여 합성한 cDNA를 말단에서 한번만 염기배열한 데이터이다. 이렇게 얻어진 EST는 mapping되는 부분이 발현되고 있다는 것을 알 수 있게 해준다.""
2.6. cDNA
cDNA는 mRNA를 역전사 시켜 합성한 상보적 DNA로, 단백질 유전자의 발현 부위를 알려주는 중요한 정보를 담고 있다. mRNA는 전사된 DNA 상의 유전정보를 그대로 가지고 있지만 세포질 내에 존재하기 때문에 안정성이 떨어진다. 반면 cDNA는 안정성이 높아 유전자 발현 분석이나 유전자 클로닝에 유용하게 이용된다. 실제 유전자의 발현 여부와 발현 수준을 확인할 수 있기 때문에 cDNA는 생물정보학 연구에서 매우 중요한 역할을 한다. 특히 EST(Expressed Sequence Tags)는 cDNA 일부분의 염기서열을 분석한 데이터로, 발현 유전자의 신속한 동정에 활용된다. 따라서 cDNA는 유전자 발현 연구와 유전체 분석에 필수적인 생물정보학 도구라고 할 수 있다.
2.7. OMIM(Online Mendelian Inheritance In Man)
OMIM(Online Mendelian Inheritance In Man)은 멘델 유전학 질병에 대한 종합적인 데이터베이스이다. 이 데이터베이스는 유전적 질환과 그 유전적 특성에 관한 정보를 제공하며, 질병과 관련된 유전자와 돌연변이에 대한 내용을 포함하고 있다.
OMIM은 유전 질환을 연구하는 데 있어 매우 중요한 자원으로 활용된다. 이 데이터베이스에는 유전적 질환의 유전 양상, 증상, 유발 유전자, 돌연변이, 진단 및 치료 방법 등에 대한 정보가 체계적으로 정리되어 있다. 의사, 연구자, 유전 상담사 등 다양한 전문가들이 OMIM을 통해 유전 질환에 대한 정보와 통찰을 얻을 수 있다.
특히 OMIM은 멘델 유전 질환에 대한 포괄적인 정보를 제공하는데, 이는 질병 유발 유전자와 돌연변이의 동정, 질병의 진단 및 치료 방법 개발 등 다양한 생물정보학 연구에 활용된다. 유전 질환에 대한 이해를 높임으로써 질병의 예방, 진단, 치료 분야에 기여할 수 있다.
OMIM은 계속해서 새로운 유전 질환 정보를 업데이트하고 있으며, 유전 질환 연구의 핵심적인 자원으로 자리잡고 있다. 이를 통해 생물정보학 분야에서 중요한 역할을 수행하고 있다고 볼 수 있다.
2.8. PubMed
PubMed는 문헌정보 데이터베이스로, 생물학 및 의학 관련 연구 논문의 서지정보와 초록을 제공한다. PubMed는 미국 국립보건원(NIH)의 국립의학도서관(NLM)에서 운영하는 대표적인 생물정보학 관련 데이터베이스 중 하나이다. PubMed는 1996년 시작되어 현재 약 3천만 건의 문헌정보를 포함하고 있으며, 매년 약 100만 건의 새로운 문헌이 추가되고 있다. 이용자들은 PubMed를 통해 자신의 연구 분야와 관련된 논문을 검색하고 접근할 수 있다. 또한 PubMed는 논문의 서지정보뿐만 아니라 전문(full-text)에 대한 링크도 제공하여 이용자들의 편의성을 높여주고 있다. 생물정보학 연구에 있어 PubMed는 가장 중요한 정보원 중 하나로, 연구자들은 PubMed를 활용하여 자신의 연구 주제와 관련된 최신 동향을 파악하고 새로운 연구 아이디어를 발굴할 수 있다.
2.9. Clustering
Clustering은 관련성이 있고 긴밀한 관계에 있는 데이터를 모으는 작업이다. 생물정보학에서 Clustering은 유사한 특성을 가진 유전자나 단백질을 그룹화하는 데 사용된다. 이를 통해 유전자나 단백질의 기능을 예측하거나, 생물체 간의 진화적 관계를 파악할 수 있다.
예를 들어, 유전자 발현 데이터에서 유사한 발현 패턴을 보이는 유전자들을 군집화하면 이들이 같은 생물학적 과정에 관여할 가능...