2197. 【中山市选2010】三核苷酸(tri.pas/.cpp)

2197. 【中山市选2010】三核苷酸(tri.pas/.cpp) 
(File IO): input:tri.in output:tri.out

Time Limits: 1000 ms  Memory Limits: 256000 KB  Detailed Limits  

Description

     三核苷酸是组成DNA序列的基本片段。具体来说,核苷酸一共有4种,分别用’A’,’G’,’C’,’T’来表示。而三核苷酸就是由3个核苷酸排列而成的DNA片段。三核苷酸一共有64种,分别是’AAA’,’AAG’,…,’GGG’。给定一个长度为L的DNA序列,一共可以分辨出(L-2)个三核苷酸。现在我们想用一些统计学的方法来进行一些分析,步骤如下:

  1. 1.对于这(L-2)个三核苷酸,我们从左到右给予编号,分别为1到L-2。
    2.从这(L-2)个三核苷酸挑选一对出来,一共有(L-2)*(L-3)/2种可能。如果某一对三核苷酸是一样的,我们就记录他们之间的距离。他们之间的距离定义为他们的编号之差。
    3.根据我们所记录的“样本数据”,我们现在需要计算样本数据的方差。方差的计算公式是S2=[(x1-X) 2+(x2-X) 2+…+(xn-X)2]/n, X=(x1+x2+…+xn)/n。如果样本的大小n=0,那么我们认为S2=X=0。

 
例如,我们要统计DNA序列’ATATATA’:

  1. 1. 为三核苷酸编号. L1: ATA, L2:TAT, L3:ATA, L4:TAT, L5:ATA.
    2.  (L1,L3)=2, (L1,L5)=4, (L3,L5)=2, (L2,L4)=2. 所以样本数据是2,4,2,2.
    3.  样本数据平均值X=(2+4+2+2)/4=2.5.

方差S2=[(2-2.5)2+(4-2.5) 2+(2-2.5)2+(2-2.5)2]/4=0.75.
       给定一个DNA序列,请你计算出它的方差。
       

Input

  输入包含多组测试数据。第一行包含一个正整数T,表示测试数据数目。每组数据包含一个由’A’,’G’,’C’,’T’组成的字符串,代表要统计的DNA序列。DNA序列的长度大于等于3且不会超过100000。

Output

  对每组测试数据,输出一行答案,为一个保留6位精度的实数,代表S2的值。如果你的答案和标准答案的“相对误差”小于1e-8,你的答案会被视为正确的答案。

Sample Input

1
ATATATA

Sample Output

0.750000

Data Constraint

Source / Author: 中山市选2010 tri

拆式子。

S2=[(x1-X) 2+(x2-X) 2+…+(xn-X)2]/n, X=(x1+x2+…+xn)/n = 

...

= sigma(xi^2)  - (  sum(x) ^2  )/n^2

sum(x)容易求。

重要是前面的。

现在要求i对答案的贡献。

贡献 = (i-m1)^2 + (i-m2)^2 + ... + (i- mq)^2 

=q*i^2 + sigma(mi^2) - 2*i*sigma(mi)

前缀和就行了。

#include<bits/stdc++.h>
#define mem(a,b) memset(a,b,sizeof(a))
#define ll long long
#define ld long double
#define now a[i]][a[i+1]][a[i+2] //f[now]
#define mod (ll)(1e11+7)
#define rint register ll
#define N 100010
#define open(x) freopen(x".in","r",stdin);freopen(x".out","w",stdout);
#define INF 2147483647
using namespace std;

ll i,j,T,n;
ld ans,A,B;
ll g[4][4][4],pre1[4][4][4],pre2[4][4][4],f[4][4][4],a[N];
char s[N];

int main()
{
	open("tri");
	scanf("%lld",&T);
	while(T--)
	{
		mem(g,0);mem(f,0);mem(pre1,0);mem(pre2,0);mem(s,0);
		scanf("%s\n",s+1);
		ld len = strlen(s+1);
		n=0;
		//AGCT
		A=B=0;
		for(i=1;i<=len;i++) if(s[i]== 'A') a[i]=0;else if(s[i] == 'G')a[i]=1;else if(s[i]=='C')a[i]=2;else if(s[i]=='T')a[i]=3;
		
		for(i=1;i<=len-2;i++)
		{
			g[now] =  f[now] * i - pre1[now];//=g[k] +f[now] * (i - k);
			
		
			
			A+=f[now] * i * i - 2*i*pre1[now] + pre2[now];
			pre1[now] +=  i;
			pre2[now] +=  i*i;
			
			n += f[now];
			++f[now];
			B+=g[now];
//			if(len==12)printf("%lld %lld %lld\n",pre2[now],f[now],g[now]);
			
		}
		
		if(n==0)printf("0.000000\n");else printf("%.6lf\n",(double)(A/n - B*B/n/n));
	}
}

O(n)

猜你喜欢

转载自blog.csdn.net/Com_man_der/article/details/89285057