Tristahong 2010-03-15
Python DNA序列在使用的时候有很多需要我们注意的东西,其实在不断的学习中有很多问题存在,下面我们就详细的看看如何进行相关的技术学校。ms是我师弟的rotation project:给定一堆Python DNA序列,即由字符A, C, G, T组成的字符串,统计所有长度为n的子序列出现的频率。
比如 ACGTACGT,子序列长度为2,于是 AC=2, CG=2, GT=2, TA=1,其余长度为2的子序列频率为0.
最先想到的就是建一个字典,key是所有可能的子序列,value是这个子序列出现的频率。Python DNA序列但是当子序列比较长的时候,比如 n=8,需要一个有65536 (4的8次方) 个key-value pair的字典,且每个key的长度是8字符。这样ms有点浪费内存。。
于是想到,所有的长度为n的子序列是有序且连续的,所以可以映射到一个长度为4的n次方的的list里。令 A=0, C=1, G=2, T=3,则把子序列 ACGT 转换成 0*4^3 + 1*4^2 + 2*4 + 3 = 27, 映射到list的第27位。如此,list的index对应子序列,而list这个index位置则储存这个子序列出现的频率。
i2mD = {0:'A', 1:'C', 2:'G', 3:'T'} m2iD = dict(A=0,C=1,G=2,T=3) # This is just another way to initialize a dictionary
def motif2int(motif): '''convert a sub-sequence/motif to a non-negative integer''' total = 0 for i, letter in enumerate(motif): total += m2iD[letter]*4**(len(motif)-i-1) return total Test: >>> motif2int('ACGT')
def baseN(n,b): '''convert non-negative decimal integer n to equivalent in another base b (2-36)''' return ((n == 0) and '0' ) or ( baseN(n // b, b).lstrip('0') + \ "0123456789abcdefghijklmnopqrstuvwxyz"[n % b]) def int2motif(n, motifLen): '''convert non-negative integer n to a sub-sequence/motif with length motifLen''' intBase4 = baseN(n,4) return ''.join(map(lambda x: i2mD[int(x)],'0'*(motifLen-len(intBase4))+intBase4)) Test: >>> int2motif(27,4) 'ACGT'
以下代码从命令行读入一个存有DNA序列的fasta文件,以及子序列长度,并输出子序列和频率。注意以下代码需要Biopython module。