BLASTAn 활용 방법과 목 :담당교수 :제출일자 :학 과 :학 번 :성 명 :BLAST (Basic Local Alignment Search Tool)란?뉴클레오타이드 데이타베이스(nucleotide database)와 단백질 데이터베이스(protein database)의 신속한 검색 방법을 제공하는 ncbi의 하나의 tool이다. BLAST에서 사용하는 알고리즘은 전체적인 상호관련성뿐만 아니라 부분적인 유사도도 탐지하기 때문에, 관련이 없는 단백질 또는 DNA내에 파묻혀 있는 similarity의 영역도 탐지될 수 있다. 이것들의 모든 타입의 similarity는 미지의 단백질의 기능 및 공통된 진화론적 관점에 대한 중요한 단서를 제공할 수도 있다.특징protein sequence 및 nucleic acid sequence을 입력으로 받아 특정 NCBI 데이터베이스와 비교하도록 설계되어 있다. BLAST 알고리즘은 서로 상관 없는 서열에 대해서도 민감도와 속도를 균형 있게 고려하여 작성되었다.검색에 사용할 BLAST 데이터베이스의 선택입력으로 주어진 sequence에 대하여 검색에 사용할 수 있는 NCBI 데이터베이스는 다음과 같은 종류가 있다. 특정 데이터베이스는 단백질(protein) 또는 뉴클레오타이드(nucleotide)에만 사용할 수 있으므로 특정 BLAST프로그램과 같이 사용해서는 안 된다.예를 들면, 뉴클레오타이드검색프로그램인 blastn프로그램을 단백질 데이터베이스인 swissprot데이터베이스를 대상으로 사용해서는 안 된다.Blast로 들어가기 위해서 처음에 ncbi homepage로 이동한다Blast 화면으로 넘어간 화면BLAST의 종류종 류설 명blastp단백질 sequence 데이터베이스(protein sequence database)에 대하여 입력으로 주어진 아미노산 sequence (amino acid query sequence) 을 비교하는 프로그램.blastn뉴클레오타이드 sequence 데이터베이스(nucleotide seq에서는 GI가 46981346 이다. "46981346"또는 Accession Number " AC146540.2"을 sequence 입력 창에 넣어도 nucleotide나 amino acid sequence 를 입력한 것과 동일한 검색을 수행한다. HYPERLINK "http://www.ncbi.nlm.nih.gov/blast/html/blastcgihelp.html" l "get_subsequence" t "BlastHelpWindow" Set subsequence : query data에서 내가 원하고자 하는 서열의 몇 번째부터 몇 번째까지인지 범위를 정하는 곳. 예를 들어서 내가 35부터 125까지라고 하면 from에 35 to에 125를 입력한다. HYPERLINK "http://www.ncbi.nlm.nih.gov/blast/html/blastcgihelp.html" l "nucleotide_databases" t "BlastHelpWindow" Choose database : 내가 원하고자 하는 데이터베이스를 선택할 수 있다. 밑에 각각의 데이터베이스에 대하여서 설명하였다.Nucleotide sequence 용 데이터베이스데이터베이스명데이터베이스 설명Nr모든 non-redundant GenBank+EMBL+DDBJ+PDB sequence (단 EST, STS, GSS, 또는 HTGS sequence은 제외)Month모든 최신/개정판 GenBank+EMBL+DDBJ+PDB sequence (최근 30일이내에 발표된 경우에 한정)Dbest HYPERLINK "http://www.ncbi.nlm.nih.gov/dbEST/index.html" t "_black" EST Divisions 에 있는 GenBank+EMBL+DDBJ sequences의 non-redundant 데이터베이스Dbsts HYPERLINK "http://www.ncbi.nlm.nih.gov/dbSTS/index.html" t "_black" STS Divisions 에 있는Query sequence에서 ALU repeat를 마스크하는데 적합한 REPBASE에 있는 ALU repeat의 translation으로 HYPERLINK "ftp://ncbi.nlm.nih.gov/pub/jmc/alu" t "_blank" ftp://ncbi.nlm.nih.gov/pub/jmc/alu에서 구할 수 있다.자세한 내용은 HYPERLINK "http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?uid=7935834&form=6&db=m&Dopt=b" t "_blank" Claverie and Makalowski, Nature vol. 371, page 752 (1994)에 있는 "Alu alert"를 참조할 것.Eukaryotic Promotor Database ISREC in Epalinges s/Lausanne (Switzerland)GssSingle-pass genomic data, exon-trapped sequences 및 Alu PCR sequences를 포함하는 HYPERLINK "http://www.ncbi.nlm.nih.gov/dbGSS/index.html" t "_blank" Genome Survey SequenceHtgsHigh Throughput Genomic Sequences.: BLAST는 이 프로그램을 실행하는 것이고 나머지 다른 두 개의 TOOLBAR는 다시 reset 시킬 수 있는 것이다.대략적으로 지금까지 한 것을 간단히 요약하자면 다음과 같이 수행 할 수 있다.지정한 BLAST 프로그램과 BLAST 데이타베이스가 올바른지 확인한다.서열 또는 Accession/GI number가 제대도 입력되었는지를 확인한다다음으로는 “Options for advanced blasting”에 대하여 알아보겠다.Limit by Entrez Query : 내가 검색하고자 하는 대상에 대하여 구체적으로 “종”을 선택할 수 있다. 그러므로 원하지 않는 대상을 제외 시킬 수 있으면서 좀 더 효율y 서열과 일직선상으로 된 데이타베이스의 서열의 전체적 개요가 보여준다.각 배열의 점수는 다섯 개의 다른 색으로 표시가 되며 다섯 개의 그룹으로 점수의 범위로 나누어진다. 같은 데이타데이타베이스 서열에서 다양한 배열들은 줄무늬 모양의 선을 클릭하면 그것의 정보를 가진 곳으로 연결한다.정보검색 결과에서 보여지는 맨 위에 있는 것은 내가 원하는 query 와 score이나 정의상 매우 관련 있는 서열이다.NCBI-gi검색 결과에서 보여지는 것과 같이 NCBI gi identifiers나 추가적으로 the accession and/or locus name를 나타나게 한다Database LinkOuts이러한 옵션이 가능하게 하는 것은 BLAST결과로부터 다른 ncbi 특이적 데이타베이스로 연결한다. 만약 내가 원하는 query 가 데이타베이스 서열과 매치되고 그것이 LocusLink or UniGene 에서 발견된다면 결과를 찾은 BLAST로부터 이러한 LocusLink or UniGene 로 링크한다.Sequence RetrievalSequence Retrieval를 할 것 이냐 말 것이냐를 결정Number of 의 항목Descriptions내가 원하는 query 에 대해 데이타베이스에 매치되는 정보에 대한 리스트의 숫자를 정한다ALIGNMENTSHigh-scoring segment pairs (HSPs)용으로 보고될 database sequence의 갯수를 지정된 숫자로 제한한다. 별도의 지정을 하지 않는 경우에는 기본값으로 100한다. ALIGHMENTS 파라메터로 지정한 값보다 많은 database entries가 statistical significance threshold를 만족하는 경우에는 statistical significane가 큰 것부터 주어진 개수 만큼 보고한다.pairwisequery sequence 와 데이타베이스 매치에서의 표준적 BLAST alignmentQuery-anchored with identitiesdatabases alignme 반영하고 있다. 이들 similarity의 regions는 shared domain또는 motif일 수 있다. 이들 lower scoring hits의 본질은 대응하는 alignment를 검사함으로써 좀더 자세히 살펴볼 수 있다. 특별히 관심이 있는 alignment를 바로 볼 수 있도록, 그래픽 내에 있는 각각의 bar와 그래픽 아래에 있는 description line내의 각각의 E value는 대응하는 alignement로 바로 가는 링크가 포함되어 있어. bar또는 E value 부분을 클릭해서 alignment로 바로 이동할 수 있다. 그러나, 포맷팅 옵션에서 디스플레이될 alignments의 수를 description의 개수보다 작게 (예를 들어, 별도의 설정을 하지 않는 경우, 기본적으로 100 descriptions, 50 alignments가 사용된다.)설정하였다면, 모든 링크가 다 연결되지는 않을 수도 있다. description 51-100사이에 있는 alignment를 보고자 한다면, alignement의 갯수를 기본 설정값 50에서 100으로 변경하여야 한다. 새로운 alignment를 보려면 "Format Results" button를 다시 한번 눌러준다.Sequence producing significant alignments"라는 제목 밑에 Description line (또는 definition line라고도 함)이 표시된다. 여기서 "significant"라는 용어는 E value가 threshold보다 작은 hits를 지칭하는 것이며, biological significance를 의미하는 것은 아니다.Description list는 query page에서 지정한 대로 E=1.0에서 잘라졌다. 흥미로운 점은 E value가 기본 설정값 10을 그대로 사용했더라도 description list는 E=1.9에서 잘려졌을 것이라는 점이다. 이는 우리가 보고할 description line의 수를 100으로 제한했기 때문에 발생한 것