深入搜索引擎--机器学习方法 - 代码天地

深入搜索引擎--机器学习方法

编程语言 2018-05-13 10:56:36 阅读次数: 2

机器学习方法在搜索引擎、计算广告中简直是无处不在。

spider模块，我们需要分析一个URL需要多长时间抓取一次？
   URL的域名的重要性；URL的目录深度；URL中字符串；

这个URL是否需要重复抓取？重复抓取的时间是多少?
   抓取过几次；网页内部有多少新的链接数量？

一个网站多长时间抓取页面合适？

一个网站的重要性是多少？

一个网页的权重是多少？PageRank

分析网页，需要知道那些部分是重要部分，那些部分是框架部分？
分类问题

对网页的文本提取，TF-IDF算法，首先需要分词。
   分词需要训练模型，一般使用HMM 或者CRF模型。

新闻网页分类
   如果是新闻网页，我们需要知道这个网页是什么主题，需要分类。Topic Model 是非常常见的。

网页是否重复，需要聚类。
   提取重要的bag word，然后聚类。

这个网站是否是垃圾站？
   分析网页的原创性；索引后被点击的数量；需要分类模型。

Query 分类问题

   Query分类，决定是否给出一些垂直的应用。

   百度对常见的产品搜索结果都做了改进。直接给出网站的导航页面。

网站的导航
   某些网站是否要给出导航信息。

Query的纠错问题

Query和网页的相关性
   需要相关性模型。

网页的排序
   也需要回归模型。

广告是否被点击，需要回归模型。
   搜索广告、推荐广告、行为广告的场景不同，使用完全不同的模型。

猜你喜欢

转载自poson.iteye.com/blog/1450592

深入搜索引擎--机器学习方法

机器学习基础——倒排索引与搜索引擎

深入搜索引擎--查询（Query）

深入搜索引擎原理

禁止搜索引擎收录的方法

搜索引擎的测试方法

搜索引擎相关学习计划

实时搜索引擎Elasticsearch学习

学习之--搜索引擎

Internet学习记录：搜索引擎

搜索引擎

Elasticsearch-初识搜索引擎_search结果深入解析（学习笔记）

搜索引擎学习（一）：搜索引擎学习

分布式搜索引擎2——深入elasticsearch

怎么学习搜索引擎优化?kafeiv搜索引擎优化SEO基础原理

搜索引擎搜索特定网站的方法 :site

搜索引擎机器人-附下载链接

搜索引擎学习（五）Lucene操作索引

搜索引擎——新闻搜索引擎

搜索引擎语法

搜索引擎资源

全文搜索引擎

开源搜索引擎

搜索引擎选择

搜索引擎总结

搜索引擎的升级

搜索引擎的区别

主要搜索引擎

关于搜索引擎

搜索引擎 Nutch

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)