洛谷P1140 相似基因

点击打开链接

题目背景

大家都知道，基因可以看作一个碱基对序列。它包含了4种核苷酸，简记作A,C,G,T。生物学家正致力于寻找人类基因的功能，以利用于诊断疾病和发明药物。

在一个人类基因工作组的任务中，生物学家研究的是：两个基因的相似程度。因为这个研究对疾病的治疗有着非同寻常的作用。

题目描述

两个基因的相似度的计算方法如下：

对于两个已知基因，例如AGTGATG和GTTAG，将它们的碱基互相对应。当然，中间可以加入一些空碱基-，例如：

这样,两个基因之间的相似度就可以用碱基之间相似度的总和来描述，碱基之间的相似度如下表所示：

那么相似度就是：(-3)+5+5+(-2)+(-3)+5+(-3)+5=9。因为两个基因的对应方法不唯一，例如又有：

相似度为：(-3)+5+5+(-2)+5+(-1)+5=14。规定两个基因的相似度为所有对应方法中，相似度最大的那个。

输入输出格式

输入格式：

共两行。每行首先是一个整数，表示基因的长度；隔一个空格后是一个基因序列，序列中只含A,C,G,T四个字母。1<=序列的长度<=100。

输出格式：

仅一行，即输入基因的相似度。

输入输出样例

输入样例#1：

7 AGTGATG
5 GTTAG

输出样例#1：

问题分析

数据处理：

将字符串转换成数组a[]与b[]，并打出tab[][]表来表示匹配值。用dp[i][j]表示第一个数组的前i行和第二个数组的前j行的相似度。

转移方程：

我们可以选择将a[i]与b[j]直接配对，或者将a[i]或b[j]与空格配对。这样可以得到转移方程dp[i][j]=max(dp[i-1][j-1]+tab[a[i]][b[j]],dp[i-1][j]+tab[a[i]][4],dp[i][j-1]+tab[4][b[j]])。

边界处理：

如果一个串为空，则另一个一定全部对应的是空格，于是可设置dp[0][i]与dp[i][0]的初值。dp[0][0]设为0，因为空格与空格对应为0（很重要）。

代码

#include<bits/stdc++.h>
using namespace std;
const int N=210;
const int tab[5][5]=
{
    {5,-1,-2,-1,-3},
    {-1,5,-3,-2,-4},
    {-2,-3,5,-2,-2},
    {-1,-2,-2,5,-1},
    {-3,-4,-2,-1,0}
};
char x[N],y[N];
int n,m,a[N],b[N],dp[N][N];
int main(){
	freopen("data.in","r",stdin);
	scanf("%d",&n); scanf(" %s",x);
	for(int i=0;i<n;i++)
		if(x[i]=='A') a[i+1]=0;
		else if(x[i]=='C') a[i+1]=1;
		else if(x[i]=='G') a[i+1]=2;
		else if(x[i]=='T') a[i+1]=3;
	scanf("%d",&m); scanf(" %s",y);
	for(int i=0;i<m;i++)
		if(y[i]=='A') b[i+1]=0;
		else if(y[i]=='C') b[i+1]=1;
		else if(y[i]=='G') b[i+1]=2;
		else if(y[i]=='T') b[i+1]=3;
	for(int i=1;i<=n;i++) dp[i][0]=dp[i-1][0]+tab[a[i]][4];
	for(int i=1;i<=m;i++) dp[0][i]=dp[0][i-1]+tab[4][b[i]];
	for(int i=1;i<=n;i++)
		for(int j=1;j<=m;j++){
			dp[i][j]=max(dp[i][j-1]+tab[4][b[j]],dp[i-1][j]+tab[a[i]][4]);
			dp[i][j]=max(dp[i-1][j-1]+tab[a[i]][b[j]],dp[i][j]);
		}
	printf("%d",dp[n][m]);
	return 0;
}