C语言解析html网页中的url并打印出来

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接: https://blog.csdn.net/weixin_43138570/article/details/102605781

实例:

#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <regex.h>
#include <stdio.h>
#include <string.h>
#include <stdlib.h>

static const char * HREF_PATTERN = "href=\"\\s*\\([^ >\"]*\\)\\s*\"";

int main(int argc, char** argv){
    int n ,len, count;
    regex_t re;
    const size_t nmatch = 2;
    regmatch_t matchptr[nmatch];
    char *p = NULL;
    char str[1024*1024];

    memset(str, 0, sizeof(str));
    n = 0;
    count = 0;

    //operate file and read contents
    int fd = open(argv[1], O_RDONLY);
    if (fd < 0) {
        printf("file:%s open error\n", argv[1]);
        return -1;
    }
    
    while ((n = read(fd, str+count, 1024)) != 0) {
        if (n == -1) {
            printf("file read error\n");
            return -1;
        }
        
        count += n;

    }
    close(fd);
    printf("\nfile read over! begin URL analyse now...\n");

    p = str;

    if (regcomp(&re, HREF_PATTERN, 0) != 0) {/* compile error */
        printf("compile regex error\n");
    }

    while (regexec(&re, p, nmatch, matchptr, 0) != REG_NOMATCH) {
        len = (matchptr[1].rm_eo - matchptr[1].rm_so);
        p = p + matchptr[1].rm_so;
        char *tmp = (char *)calloc(len+1, 1);
        strncpy(tmp, p, len);
        tmp[len] = '\0';
        p = p + len + (matchptr[0].rm_eo - matchptr[1].rm_eo);
        printf("%s\n", tmp);
    }

    return 0;
}

运行结果:

gcc test.c -o test
./test www.zol.com.cn_webcenter_map.html

file read over! begin URL analyse now...
https://icon.zol-img.com.cn/public/css/global-sitennav.css
https://icon.zol-img.com.cn/mainpage/css/siteMap20150310.css
http://zol.com.cn
http://mobile.zol.com.cn/
http://news.zol.com.cn
http://labs.zol.com.cn/
http://v.zol.com.cn
http://detail.zol.com.cn/
http://try.zol.com.cn/
http://ask.zol.com.cn/
http://bbs.zol.com.cn/
http://zdc.zol.com.cn/
http://zhibo.zol.com.cn/
http://tupian.zol.com.cn/tushuo/
http://tuan.zol.com/?spm=1550.0
http://digi.zol.com.cn/
http://mobile.zol.com.cn
http://nb.zol.com.cn
http://dcdv.zol.com.cn
http://pad.zol.com.cn
http://4g.zol.com.cn
http://lens.zol.com.cn
http://pc.zol.com.cn
http://dv.zol.com.cn
http://ultrabook.zol.com.cn
http://ebook.zol.com.cn
http://teach.zol.com.cn
http://pf.zol.com.cn
http://speaker.zol.com.cn
http://smart.zol.com.cn
http://dvd.zol.com.cn
http://hifi.zol.com.cn
http://mid.zol.com.cn
http://pj.zol.com.cn
http://diy.zol.com.cn/
http://mouse.zol.com.cn
http://cpu.zol.com.cn
http://lcd.zol.com.cn
http://vga.zol.com.cn
http://sound.zol.com.cn
http://power.zol.com.cn
http://mb.zol.com.cn
http://ssd.zol.com.cn
http://memory.zol.com.cn
http://headphone.zol.com.cn
http://mst.zol.com.cn
http://minipower.zol.com.cn
http://diy.zol.com.cn
http://cooler.zol.com.cn
//webcam.zol.com.cn
http://mouse.zol.com.cn/subcate_32.html
http://zj.zol.com.cn
http://pio.zol.com.cn
http://esports.zol.com.cn
http://3d.zol.com.cn
http://oa.zol.com.cn/
http://oa.zol.com.cn
http://projector.zol.com.cn
http://oa.zol.com.cn/lmp.html
http://oa.zol.com.cn/mfp.html
http://oa.zol.com.cn/printer.html
http://aio.zol.com.cn
http://game.zol.com.cn/
http://soft.zol.com.cn
http://game.zol.com.cn
http://youxi.zol.com.cn
http://sj.zol.com.cn/
http://desk.zol.com.cn
http://jd.zol.com.cn/
http://jd.zol.com.cn
http://smartv.zol.com.cn
http://hd.zol.com.cn
http://ht.zol.com.cn
http://3dtv.zol.com.cn
http://washer.zol.com.cn
http://water.zol.com.cn
http://tv.zol.com.cn
http://xjd.zol.com.cn
http://air.zol.com.cn
http://home.zol.com.cn
http://icebox.zol.com.cn
http://cmmb.zol.com.cn
http://ac.zol.com.cn
http://news.zol.com.cn/
http://news.zol.com.cn
http://zdc.zol.com.cn
http://labs.zol.com.cn
http://tupian.zol.com.cn
http://try.zol.com.cn
http://zhibo.zol.com.cn
http://www.zol.com.cn/brand.html
http://active.zol.com.cn
http://auto.zol.com.cn/
http://smartwear.zol.com.cn
http://sh.zol.com.cn
http://auto.zol.com.cn
http://lanya.zol.com.cn
http://gps.zol.com.cn
http://biz.zol.com.cn/
http://biz.zol.com.cn
http://net.zol.com.cn
http://server.zol.com.cn
http://security.zol.com.cn
http://epc.zol.com.cn
http://stor.zol.com.cn
http://safe.zol.com.cn
http://cloud.zol.com.cn
http://led.zol.com.cn
http://cio.zol.com.cn
http://display.zol.com.cn
http://jishu.zol.com.cn
http://caifu.zol.com.cn
http://detail.zol.com.cn/price_cate_10.html
http://detail.zol.com.cn/cell_phone_index/subcate57_list_1.html
http://detail.zol.com.cn/digital_camera_index/subcate15_list_1.html
http://detail.zol.com.cn/notebook_index/subcate16_list_1.html
http://detail.zol.com.cn/tablepc/
http://detail.zol.com.cn/price_cate_35.html
http://detail.zol.com.cn/price_cate_10.html
http://detail.zol.com.cn/price_cate_61.html
http://detail.zol.com.cn/digital_tv/
http://detail.zol.com.cn/price_cate_73.html
http://detail.zol.com.cn/icebox/
http://detail.zol.com.cn/washer/
http://detail.zol.com.cn/air-condition/
http://detail.zol.com.cn/price_cate_52.html
http://detail.zol.com.cn/price_cate_61.html
http://detail.zol.com.cn/price_cate_53.html
http://detail.zol.com.cn/price_cate_3.html
http://detail.zol.com.cn/price_cate_3.html
http://detail.zol.com.cn/price_cate_17.html
http://detail.zol.com.cn/price_cate_68.html
http://detail.zol.com.cn/price_cate_48.html
http://detail.zol.com.cn/price_cate_51.html
http://detail.zol.com.cn/price_cate_5.html
http://detail.zol.com.cn/price_cate_56.html
http://detail.zol.com.cn/price_cate_63.html
http://detail.zol.com.cn/price_cate_72.html
http://detail.zol.com.cn/price_cate_1.html
http://detail.zol.com.cn/motherboard/
http://detail.zol.com.cn/vga/
http://detail.zol.com.cn/cpu/
http://detail.zol.com.cn/memory/
http://detail.zol.com.cn/hard_drives/
http://detail.zol.com.cn/case/
http://detail.zol.com.cn/power/
http://detail.zol.com.cn/cooling_product/
http://detail.zol.com.cn/solid_state_drive/
http://detail.zol.com.cn/dvdrw/
http://detail.zol.com.cn/sound_card/
http://detail.zol.com.cn/price_cate_66.html
http://detail.zol.com.cn/lcd/
http://detail.zol.com.cn/speaker/
http://detail.zol.com.cn/keyboards_mouse/
http://detail.zol.com.cn/mice/
http://detail.zol.com.cn/keyboard/
http://detail.zol.com.cn/mouse_dian/
http://detail.zol.com.cn/mouse_dianjiao/
http://detail.zol.com.cn/webcams/
http://detail.zol.com.cn/maikefeng/
http://detail.zol.com.cn/shouxiehuihua/
http://detail.zol.com.cn/speaker_accessories/
http://detail.zol.com.cn/price_cate_58.html
http://detail.zol.com.cn/game/
http://detail.zol.com.cn/zsyxj/
http://detail.zol.com.cn/gamepad/
http://detail.zol.com.cn/wheel/
http://detail.zol.com.cn/yspxc/
http://detail.zol.com.cn/play_around/
http://www.zol.com
http://tuan.zol.com/
http://shouji.zol.com
http://diy.zol.com
http://z.zol.com.cn/
http://www.e-fix.cn/
http://dealer.zol.com.cn/
http://bbs.zol.com.cn/
http://bbs.zol.com.cn/sjbbs/
http://bbs.zol.com.cn/nbbbs/
http://bbs.zol.com.cn/dcbbs/
http://bbs.zol.com.cn/diybbs/
http://bbs.zol.com.cn/padbbs/
http://bbs.zol.com.cn/sjbbs/d544.html
http://bbs.zol.com.cn/quanzi/
http://try.zol.com.cn/
http://bbs.zol.com.cn/huodong/
http://ask.zol.com.cn/
http://price.zol.com.cn/
http://price.zol.com.cn/
http://shanghai.zol.com.cn/
http://tianjin.zol.com.cn/
http://chongqing.zol.com.cn/
http://haerbin.zol.com.cn/
http://shenyang.zol.com.cn/
http://changchun.zol.com.cn/
http://shijiazhuang.zol.com.cn/
http://huhehaote.zol.com.cn/
http://lanzhou.zol.com.cn/
http://xian.zol.com.cn/
http://taiyuan.zol.com.cn/
http://wulumuqi.zol.com.cn/
http://chengdu.zol.com.cn/
http://kunming.zol.com.cn/
http://guizhou.zol.com.cn/
http://changsha.zol.com.cn/
http://wuhan.zol.com.cn/
http://zhengzhou.zol.com.cn/
http://jinan.zol.com.cn/
http://hefei.zol.com.cn/
http://nanjing.zol.com.cn/
http://hangzhou.zol.com.cn/
http://gz.zol.com.cn/
http://nanning.zol.com.cn/
http://nanchang.zol.com.cn/
http://fuzhou.zol.com.cn/
http://tianjin.zol.com.cn/
http://www.sditol.com/
http://www.itsogo.net/
http://www.sxdn.com.cn/
http://www.zol.com.cn/
http://www.zzit.com.cn/
http://wuhan.zol.com.cn/
http://changsha.zol.com.cn/
http://www.ah3c.com/
http://nanjing.zol.com.cn/
http://hangzhou.zol.com.cn/
http://sz.zol.com.cn/
http://roodoo.net/
http://gz.zol.com.cn/
http://cd.zol.com.cn/
http://chongqing.zol.com.cn/
http://www.ynit580.com/
http://xa.zol.com.cn/
http://www.365it.com.cn/
http://lanzhou.zol.com.cn/
http://www.zol.com.cn/
http://www.zol.com.cn/
http://shenyang.zol.com.cn/
http://www.zol.com.cn/help/index.html
http://top.zol.com.cn/
http://zj.zol.com.cn/
http://vga.zol.com.cn/soc/
http://mobile.zol.com.cn/soc/
http://rss.zol.com.cn/
http://service.zol.com.cn/complain/
http://www.zol.com.cn/marketing/marketing_zol.html
http://service.zol.com.cn/user/login.php?type=reg
http://zhaopin.zol.com.cn/
http://www.zol.com.cn/marketing/milestone.html
http://www.zol.com.cn/marketing/promotion.html
http://www.zol.com.cn/marketing/case.html
http://www.zol.com.cn/brand.html
http://link.zol.com.cn/
http://www.zol.com.cn/marketing/customer_service.html

猜你喜欢

转载自blog.csdn.net/weixin_43138570/article/details/102605781