🧬 1.1 생물학적 서열 : 표현과 기본 알고리즘

1.1 생물학적 서열 기본 알고리즘

1.1.1. DNA 서열이 유효한지 체크

🧬 validate_dna() 함수 생성
🧬 주어진 염기서열 dna_seq에 염기 A,T,G,C 외에 다른 것이 섞여있다면 유효한 서열이 아님 : False 출력

def validate_dna(dna_seq):
    seqm = dna_seq.upper()
    valid = seqm.count("A") + seqm.count("T") + seqm.count("G") + seqm.count("C")
    if valid == len(seqm): return True
    else: return False
    
print(validate_dna("atagagagatctcg"))
print(validate_dna("ATAGAXTAGAT")) 

>> 
True
False

1.1.2. 서열에서 각 심볼의 빈도 계산

🧬 frequency() 함수 생성
🧬 빈 딕셔너리를 생성하여 서열에서 각 심볼들이 나올때의 개수를 count 해서 key/value 에 접근

def frequency(seq):
    dic = {}
    for s in seq.upper():
        if s in dic: dic[s] += 1
        else: dic[s] = 1
    return dic

print(frequency("atggatcggtacagagcggatggtgaacgaacatatcatacggctagtactagctactga"))
print(frequency("MVVMKKSHHVLHSQSLIK"))

>> 
{'A': 19, 'T': 13, 'G': 17, 'C': 11}
{'M': 2, 'V': 3, 'K': 3, 'S': 3, 'H': 3, 'L': 2, 'Q': 1, 'I': 1}

1.1.3. 입력받은 서열의 심볼 빈도 계산

🧬 서열을 입력받아 frequendy() 함수에서 계산한 빈도를 바탕으로 key와 value에 접근
🧬 개수가 많은 순서대로 정렬함

seq_aa = input("Protein Sequence: ")
freq_aa = frequency(seq_aa)
list_f = sorted(freq_aa.items(), key = lambda x : x[1], reverse = True)

for (k, v) in list_f:
    print("Aminoacid:", k, ":", v)

>>
Protein Sequence: ATGGGATCGTAGTCGTACTAGCTAGCTGATGGTACTCGATAGTCTACGTAGCTAGTGGTACTGGATGGTACTCAGTAACAT
Aminoacid: T : 24
Aminoacid: G : 23
Aminoacid: A : 20
Aminoacid: C : 14

1.1.4.DNA 서열에서 G/C 뉴클레오타이드의 퍼센트 반환

🧬 gc_content() 함수 생성
🧬 염기서열의 심볼이 GCgc 중 하나이면 gc_count의 값 카운트
🧬 전체 길이에 대한 비율을 반환

def gc_content(dna_seq):
    gc_count = 0
    for s in dna_seq:
        if s in "GCgc": gc_count += 1
    return gc_count / len(dna_seq)

print(gc_content("atggatcggtacagagcggatggtgaacgaacatatcatacggctagtactagctactga"))

>> 
0.4666666666666667

1.1.5.중첩되지 않는 k 길이의 부분 서열에 대해 GC퍼센트 반환

🧬 gc_content_subseq() 함수 생성
🧬 주어진 염기서열을 일정한 k 만큼의 사이즈로 나눔
🧬 각 부분 서열에 대해서 gc_content()를 계산하여 반환

def gc_content_subseq(dna_seq, k = 3):
    res = []
    for i in range(0, len(dna_seq)-k+1, k):
        subseq = dna_seq[i:i+k]
        gc = gc_content(subseq)
        res.append(gc)
    return res

print(gc_content_subseq("atagataactcgcatagc"))

>> 
[0.0, 0.3333333333333333, 0.3333333333333333, 0.6666666666666666, 0.3333333333333333, 0.6666666666666666]

💡 Bioinformatics Algorithms(에이콘출판, 2020)를 공부하고 개인 학습용으로 정리한 자료입니다.

Share on

Twitter Facebook LinkedIn

Programin9

🧬 1.1 생물학적 서열 : 표현과 기본 알고리즘

1.1 생물학적 서열 기본 알고리즘

1.1.1. DNA 서열이 유효한지 체크

1.1.2. 서열에서 각 심볼의 빈도 계산

1.1.3. 입력받은 서열의 심볼 빈도 계산

1.1.4.DNA 서열에서 G/C 뉴클레오타이드의 퍼센트 반환

1.1.5.중첩되지 않는 k 길이의 부분 서열에 대해 GC퍼센트 반환

Share on

Leave a comment

You may also enjoy

2023.01.14
🆘 블로그 이전 안내

2023.01.14
🆘 블로그 이전 안내

2023.01.12
🫀심혈관질환 분석 09-패턴분석4

2023.01.11
🫀심혈관질환 분석 08-패턴분석3

Programin9

1.1 생물학적 서열 기본 알고리즘

1.1.1. DNA 서열이 유효한지 체크

1.1.2. 서열에서 각 심볼의 빈도 계산

1.1.3. 입력받은 서열의 심볼 빈도 계산

1.1.4.DNA 서열에서 G/C 뉴클레오타이드의 퍼센트 반환

1.1.5.중첩되지 않는 k 길이의 부분 서열에 대해 GC퍼센트 반환

Share on

Leave a comment

You may also enjoy

2023.01.14 🆘 블로그 이전 안내

2023.01.14 🆘 블로그 이전 안내

2023.01.12 🫀심혈관질환 분석 09-패턴분석4

2023.01.11 🫀심혈관질환 분석 08-패턴분석3

2023.01.14
🆘 블로그 이전 안내

2023.01.14
🆘 블로그 이전 안내

2023.01.12
🫀심혈관질환 분석 09-패턴분석4

2023.01.11
🫀심혈관질환 분석 08-패턴분석3