【
所有 DNA 都由一系列缩写为 A,C,G 和 T 的核苷酸组成,例如:“ACGAATTCCG”。在研究 DNA 时,识别 DNA 中的重复序列有时会对研究非常有帮助。
编写一个函数来查找 DNA 分子中所有出现超过一次的 10 个字母长的序列(子串)。
示例:
输入:s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
输出:["AAAAACCCCC", "CCCCCAAAAA"]
来源:力扣(LeetCode)
链接:https://leetcode-cn.com/problems/repeated-dna-sequences
著作权归领扣网络所有。商业转载请联系官方授权,非商业转载请注明出处。
】
这道题通过用例31/32,最后一个用例超时。估计用bit位做哈希应该比字符串哈希会省时一些,先记录这个一个用例不通过的版本吧。
这道题刚看到会感觉无从入手。然后看到查找,次数这类字段,想到应该是要用哈希。
那么哈希键值对应关系如何构造呢?思路便是遍历s中的字串,如果没有就记录,如果有就计数加一。即键值是相等的,另外需要增加一个计数数组。
扫描二维码关注公众号,回复:
9186035 查看本文章
这题要用到字符串比较函数strcmp,字符串拷贝函数strncpy和strcpy.
然后很大一部分代码是在malloc申请内存,C语言刷题,这点还是得忍。
int count;
void Checkhash(char *temp, char **hashstr, char *countarr) {
int i;
for (i = 0; i < count; i++) {
if (!strcmp(temp, hashstr[i])) {
countarr[i] = 1; // 找到重复
return;
}
}
strcpy(hashstr[count], temp);
count++;
}
char ** findRepeatedDnaSequences(char * s, int* returnSize){
int i;
char **retarr;
int len = strlen(s);
char **hashstr;
char temp[11] = {0};
char countarr[len + 1];
int retcount = 0;
count = 0;
memset(countarr, 0, (len + 1));
hashstr = (char **)malloc(sizeof(char *) * len);
for (i = 0; i < len; i++) {
hashstr[i] = (char *)malloc(sizeof(char) * 11);
memset(hashstr[i], 0 , sizeof(char) * 11);
}
retarr = (char **)malloc(sizeof(char *) * len);
for (i = 0; i < len; i++) {
retarr[i] = (char *)malloc(sizeof(char) * 11);
}
for (i = 0; i < len - 9; i++) {
strncpy(temp, s + i, 10);
Checkhash(temp, hashstr, countarr);
}
for (i = 0 ; i < count; i++) {
if (countarr[i] > 0) {
strcpy(retarr[retcount], hashstr[i]);
retcount++;
}
}
*returnSize = retcount;
return retarr;
}