1.序列比较算法（全局序列比对及局部序列比对的python实现）

科技2022-08-03 145

1.序列比较算法（全局序列比对及局部序列比对的python实现）

前言算法思想介绍实现功能及实现方法运行结果演示源代码遇到的问题及总结

前言

阶段性地完成了DNA序列比较算法，还有很多不足和需要完善的地方有待日后改进。

算法思想介绍

一个很详细完整的算法介绍

双序列全局比对及算法 Needleman-Wunsch 算法：动态规划法输入值：两条序列、替换记分矩阵以确定不同字母间的相似度得分，以及空位罚分

双序列局部比对算法局部比对的计算公式在全局比对的基础上增加了第四个元素“0”。得分矩阵初始值仍是0，但第一行和第一列与全局比对不同，全是0。

实现功能及实现方法

使用已定义的记分矩阵设置需比对的序列、gap大小及要进行的比对选择打印最高得分的序列比对结果方法：倒序查找最终路进行序列比对打印得分矩阵及比对路径方法：使用递归和栈记录最终路径

运行结果演示

双序列全局比对

输入序列：atcggtac；aatcgta 输入序列：atcggt；aacg

双序列局部比对

输入序列：atccga；tcga 输入序列：acgtc；cg

源代码

#!/usr/bin/env python # -*- coding:utf-8 -*- from numpy import * import copy from matplotlib import pyplot as plt from pandas import * #创建全局比对得分矩阵 def GlobalScoreMatrix(m,n,w,replace,s,path,senquence1,senquence2,gap): for i in range(m): for j in range(n): #判断s（0,0）这一特殊情况 if i == 0 and j == 0: s[i][j] = 0 elif i-1 < 0:#判断第一行的特殊情况 s[i][j] = s[i][j - 1] + gap path[i,j,0] = 1 elif j-1 < 0:#判断第一列的特殊情况 s[i][j] = s[i - 1][j] + gap path[i,j,1] = 1 else: #获取最大值 s[i][j] = max(s[i - 1][j - 1] + w[replace[senquence2[i - 1]]][replace[senquence1[j - 1]]], s[i - 1][j] + gap, s[i][j - 1] + gap) #记录最大值来的方向 if s[i - 1][j - 1] + w[replace[senquence2[i - 1]]][replace[senquence1[j - 1]]] == s[i][j]: path[i,j,2] = 1 if s[i - 1][j] + gap == s[i][j]: path[i,j,1] = 1 if s[i][j - 1] + gap == s[i][j]: path[i,j,0] = 1 #创建局部比对得分矩阵 def LocalScoreMatrix(m,n,w,replace,s,path,senquence1,senquence2,gap): for i in range(1,m): #局部矩阵第一行及第一列均为0，不需要再初始化 for j in range(1,n): #获取最大值,与全局比对不同之处在于选取最大值时将0加入选择 s[i][j] = max(0,s[i - 1][j - 1] + w[replace[senquence2[i - 1]]][replace[senquence1[j - 1]]], s[i - 1][j] + gap, s[i][j - 1] + gap) #记录最大值来的方向，若最大值为0则不必记录 if s[i - 1][j - 1] + w[replace[senquence2[i - 1]]][replace[senquence1[j - 1]]] == s[i][j]: path[i,j,2] = 1 if s[i - 1][j] + gap == s[i][j]: path[i,j,1] = 1 if s[i][j - 1] + gap == s[i][j]: path[i,j,0] = 1 #寻找全局序列比对路径 def FindGlobalPath(i,j,path,OnePath,LastGlobalPath): #递归终止条件：回到原点（0，0） if i == 0 and j == 0: OnePath.append((i, j)) #将OnePath进行深拷贝再加入至最终路径列表LastGlobalPath中 LastGlobalPath.append(copy.deepcopy(OnePath)) #将该点出栈 OnePath.pop() else: for k in range(3): #判断每个点来的方向 if path[i,j,k] == 1: #下标0处记录从左来的方向 if k == 0: #将该点入栈 OnePath.append((i,j)) #进行递归记录下一个点 FindGlobalPath(i,j - 1,path,OnePath,LastGlobalPath) #递归返回后将该点出栈，记录另一方向 OnePath.pop() #下标1处记录从上来的方向 elif k == 1: OnePath.append((i, j)) FindGlobalPath(i - 1, j, path,OnePath,LastGlobalPath) OnePath.pop() #下标2处记录从左上来的方向 else: OnePath.append((i, j)) FindGlobalPath(i - 1, j - 1, path,OnePath,LastGlobalPath) OnePath.pop() # 寻找局部序列比对路径 def FindLocalPath(i, j, path, OnePath, LastLocalPath): #递归终止条件：某个没有记录方向的点 if all(path[i][j] == [0, 0, 0]): OnePath.append((i, j)) # 将OnePath进行深拷贝再加入至最终路径列表LastLocalPath中 LastLocalPath.append(copy.deepcopy(OnePath)) # 将该点出栈 OnePath.pop() else: for k in range(3): # 判断每个点来的方向 if path[i, j, k] == 1: # 下标0处记录从左来的方向 if k == 0: # 将该点入栈 OnePath.append((i, j)) # 进行递归记录下一个点 FindLocalPath(i, j - 1, path, OnePath, LastLocalPath) # 递归返回后将该点出栈，记录另一方向 OnePath.pop() # 下标1处记录从上来的方向 elif k == 1: OnePath.append((i, j)) FindLocalPath(i - 1, j, path, OnePath, LastLocalPath) OnePath.pop() # 下标2处记录从左上来的方向 else: OnePath.append((i, j)) FindLocalPath(i - 1, j - 1, path, OnePath, LastLocalPath) OnePath.pop() #输出比对后的序列 def ShowContrastResult(LastPath,senquence1,senquence2): #依次输出每条路径 for k,aPath in enumerate(LastPath): rowS = '' colS = '' #每条路径倒序遍历 for i in range(len(aPath) -1,0,-1): #方向从左边来 if aPath[i][0] == aPath[i - 1][0]: rowS += senquence1[aPath[i - 1][1] - 1] colS += '-' #方向从上面来 elif aPath[i][1] == aPath[i - 1][1]: colS += senquence2[aPath[i - 1][0] -1] rowS += '-' #方向从左上来 else: rowS += senquence1[aPath[i - 1][1] - 1] colS += senquence2[aPath[i - 1][0] - 1] #依次输出每条路的序列比对结果 print("======比对结果",k+1,"======") print("序列1:",rowS) print("序列2:",colS) # 判断是否为最终路径中的点 def judgePath(point, LastPath): for aPath in LastPath: if point in aPath: return True return False # 画出路径图 def ShowPaths(senquence1, senquence2, LastPath): s1 = "0" + senquence1 s2 = "0" + senquence2 # 列索引 col = list(s1) # 行索引 row = list(s2) # 设置画布大小 fig = plt.figure(figsize=(5, 5)) ax = fig.add_subplot(111, frameon=True, xticks=[], yticks=[], ) the_table = plt.table(cellText=s, rowLabels=row, colLabels=col, rowLoc='right', loc='center', cellLoc='bottom right', bbox=[0, 0, 1, 1]) # 设置表格文本字体大小 the_table.set_fontsize(8) # 画出每个点的路径图 for i in range(m): for j in range(n): for k in range(3): if path[i, j, k] == 1: # 画出记录的方向 # 下标0处记录从左来的方向 if k == 0: if judgePath((i, j), LastPath): # 若某点在在最终路径中 # 画出红色箭头 plt.annotate('', xy=(j / n, (2 * m - 2 * i - 1) / (2 * (m + 1))), xytext=((2 * j + 1) / (2 * n), (2 * m - 2 * i - 1) / (2 * (m + 1))), arrowprops=dict(arrowstyle="->", color='r', connectionstyle="arc3")) else: # 未在最终路径中则画出黑色箭头 plt.annotate('', xy=(j / n, (2 * m - 2 * i - 1) / (2 * (m + 1))), xytext=((2 * j + 1) / (2 * n), (2 * m - 2 * i - 1) / (2 * (m + 1))), arrowprops=dict(arrowstyle="->", connectionstyle="arc3")) # 下标1处记录从上来的方向 elif k == 1: if judgePath((i, j), LastPath): plt.annotate('', xy=((2 * j + 1) / (2 * n), (2 * m - 2 * i - 1) / (2 * (m + 1))), xytext=((2 * j + 1) / (2 * n), (m - i) / (m + 1)), arrowprops=dict(arrowstyle="<-", color='r', connectionstyle="arc3")) else: plt.annotate('', xy=((2 * j + 1) / (2 * n), (2 * m - 2 * i - 1) / (2 * (m + 1))), xytext=((2 * j + 1) / (2 * n), (m - i) / (m + 1)), arrowprops=dict(arrowstyle="<-", connectionstyle="arc3")) # 下标1处记录从上来的方向 elif k == 2: if judgePath((i, j), LastPath): plt.annotate('', xy=((2 * j + 1) / (2 * n), (2 * m - 2 * i - 1) / (2 * (m + 1))), xytext=(j / n, (m - i) / (m + 1)), arrowprops=dict(arrowstyle="<-", color='r', connectionstyle="arc3")) else: plt.annotate('', xy=((2 * j + 1) / (2 * n), (2 * m - 2 * i - 1) / (2 * (m + 1))), xytext=(j / n, (m - i) / (m + 1)), arrowprops=dict(arrowstyle="<-", connectionstyle="arc3")) plt.show() #将碱基转换为集合下标 replace = {'A':0,'G':1,'C':2,'T':3} #构造替换计分矩阵 w = [[10,-1,-3,-4],[-1,7,-5,-3],[-3,-5,9,0],[-4,-3,0,8]] #定义需要比对的序列 senquence1 = input("请输入序列1：").upper() senquence2 = input("请输入序列2：").upper() #定义输入的gap gap = int(input("请输入gap：")) choise = int(input("请选择要进行的序列比对(1-全局序列比对 2-局部序列比对) : ")) # 获取序列的长度 m = len(senquence2) + 1 n = len(senquence1) + 1 #构建m*n全0矩阵 s = zeros((m,n)) #记录每个点的方向，下标0处存储从左来的方向，下标1处存储从上来的方向，下标2处存储从左上来的方向 #初始值均为0，若存在从某方向上来则将其对应下标的值置为1 path = zeros((m,n,3)) #记录每条路径 OnePath = [] #记录所有全局序列比对路径 LastGlobalPath = [] #记录所有局部序列比对路径 LastLocalPath = [] if choise == 1:#进行全局序列比对 #构建得分矩阵 GlobalScoreMatrix(m,n,w,replace,s,path,senquence1,senquence2,gap) FindGlobalPath(m-1,n-1,path,OnePath,LastGlobalPath) ShowContrastResult(LastGlobalPath,senquence1,senquence2) ShowPaths(senquence1, senquence2, LastGlobalPath) elif choise == 2:#进行局部序列比对 #构建得分矩阵 LocalScoreMatrix(m, n, w, replace, s, path, senquence1, senquence2, gap) row = where(s == np.max(s))[0] # 获取得分矩阵中最大值的列索引 col = where(s == np.max(s))[1] for i in range(len(row)):#依次寻找不同局部比对的比对路径并输出比对结果 FindLocalPath(row[i], col[i], path, OnePath, LastLocalPath) ShowContrastResult(LastLocalPath, senquence1, senquence2) ShowPaths(senquence1, senquence2, LastLocalPath) else: print("无效选择！")

遇到的问题及总结

思维误区：最初在存储最终路径的问题上，认为在每次路径递归至初始结点时才将其入栈，导致遇到分岔路则无法记录前一条路的完整路径经过高人指点后解决：每次到达一个结点就将其入栈，递归结束后将其出栈

思维误区2：最初以采用存储每个点的前一点坐标为存储方式，导致所有得分矩阵只能存储一条路径再次经过高人指点后解决：改存储方式为存储每个点计算得来的方向

递归终止条件存储最终路径 -涉及问题：list的赋值、浅拷贝、深拷贝 Python List的赋值方法

画出路径矩阵表格 -涉及问题：表格与画布大小不一致且导致无法确定箭头坐标解决方式：使用bbox参数

获取得分矩阵中最大值的索引 - 涉及问题：获取where结果的索引值

局部比对递归终止条件 - 涉及问题：列表比较 any() all()

总结这次的作业因为拖延很晚才开始，遇到的问题也绝不仅仅只有以上几个，最深刻的还是最开始的思维误区，直接卡到崩溃，但其他问题也都耗费了或多或少的时间才解决，更有无数小问题调试了无数遍才得以做出这个半成品。其实还有很多待完善的地方，比如输入的字符判断，比如一致度和相似度的计算，比如图形化界面的编写，写出来的代码也还有很多不成熟的地方，但是因为时间问题，暂时就到这了，有时间再改进咯。

Processed: 0.022, SQL: 9