Google用户数据采集揭秘

摘要: SEMWatch 的特约评论员谢永钱,来为大家揭秘 Google 对用户进行数据采集的详细情况。 点击跟踪 Google logs 把全部用户在其服务产品上的引导点击(广告,行动,功能点击等等)都记录起来。 形式 -随着用户输入数据的形式直接进入(用户名,密码…

点击跟踪

Google logs 把全部用户在其服务产品上的引导点击(广告,行动,功能点击等等)都记录起来。

形式 -随着用户输入数据的形式直接进入(用户名,密码等),Google 记录了时间和日期以及提交的位置。

注册 Google 帐号时的表单

  1. 输入类型是隐藏的,使用户不会看到或进入特定领域的数据
  2. 向用户发送后提交 (隐藏) 的位置
  3. 输入类型是隐藏的,所以用户不会看到或进入到特定数据里头。
  4. 用户使用引用数据,并通过表格获得怎样才把”注册”放在什么位置用户会点击

Cookies

Google 把它所有网站属性的 Cookie 都用上了,此外,他还留下了广告 Cookie 来跟踪用户在网站上的行为。通过这种方法,Google 就可以在有 doubleclick 和AdSense 广告的网站下跟踪该网站上任何一个用户的网站行为。

存储的cookies列表

存储在日志文件的服务器请求

每一个向 Google 服务器发出的请求都存储在日志文件里头,而存储的内容取决于发出请求的类型。

日志文件

URL – http://www.google.com/search?hl=en&q=seomoz&ie=UTF-8

  1. 从用户付出的请求而获得的 IP 地址,可以根据这个IP 地址定位该用户的具体地理位置。
  2. 日期,时间和时区偏移的用户
  3. 用户的语言
  4. 用户的操作系统
  5. 用户的浏览器
  6. 其他信息就没有那么重要但是必须具体的描述向服务器发出的请求,服务器的响应和转译引擎。

Javascript

Google 有小部分的 JavaScript 已经嵌入到互联网上众多的网站上面。当用户的浏览器执行背景中的脚本时候,Google 就能够知道很多关于这个用户浏览习惯等重要信息(地理位置,操作系统,浏览器类型和版本等)

网站信标

Google 向很多结算屏幕嵌入小尺寸的透明 gif 图片,就好像 JavaScript 一样,一个用户下载隐形的图片并且向 Google 发送他们的电脑信息。

网站信标样例(什么?你看不到?这才是重点)

了解一下 Google 是怎样处理这些数据

存储

Google 使用一个内部数据库叫 BigTable 扩展到近乎 100W 个服务器

Google Data In 2006
Data Size (TB)
Crawl Index 800
Google Analytics 200
Google Base 2
Google Earth 70
Orkut 9
Personalized Search 4

(Source: Bigtable: A Distributed Storage System for Structured Data)

这压缩的数据的大小接近 TB(1024GB)。而 Google 透露的数据大小超过 1PB(1048576GB)。这甚至不需要考虑 AdSense,Gmail,Google Map,街景,Google图片,或者其他私有数据库。并且这些数据都是超过2年前的。

大量的数据分析

这就有点像 Charlie and the Chocolate Factory (电影《查理与巧克力工厂》)。我们都知道有很多数据都进入到 Google 那里,我们也知道有大量处理好的数据会导出来。我们就只是不知道两者之间是发生了什么,是怎么转换的。

我们也知道 Google 本身有很多运算法则组织他的数据,Page Rank 就是最出名的了。据说,Google 也有很多复杂的 spam 的过滤系统,内容复制过滤系统,类型侦查运算法则,自然语言解析程序,图像识别软件,和其他大量的复杂的软件。

永久备份

Google 上的数据最终的栖息地可能会在永久存储。Google 的隐私政策提示某些用户数据永远都不会完全被删除,因为已经被永久的备份。

理解Google收集特定用户的数据情况

以下都是一些当用户与很多网站交互的时候 Google 收集到的用户的资料的清单列表。这意味着其实有更多的数据被 Google 收集而却又没有公开的。不过其实无知就是幸福,当你看完之后,你或许会感觉很不爽:

Google用户数据收集情况汇总(以下内容过长,可直接下载阅读)

Cookies 和日志都是 Google用来跟踪用户的方法

Google(一般搜索)

  • 搜索引擎结果页面
  • 国家代码域名
  • 查询
  • IP地址
  • 语言
  • 结果的数量
  • 安全搜索
  • 附加的参数包括:
    • 街道地址
    • 城市
    • 邮政编码
  • 服务器日志
    • 查询
    • URL
    • IP地址
    • Cookie
    • 浏览器
    • 日期
    • 时间
  • 点击

Google 的个性化搜索

  • 每个被网站访问日志作为一个谷歌搜索结果
  • 被访问网站的内容分析

Google 账号

  • 作为收集独立个人用户信息的资源
  • 注册
    • 注册日期
    • 用户名
    • 密码
    • 备用电子邮件
    • 定位(国家)
  • 个人照片
  • 使用
    • 朋友
    • Google 服务使用
    • 登陆的次数

Toolbar

  • 全部被访问的网站
  • 唯一应用数量
  • 发送访问 404 页面信息给 Google
  • 工具栏同步功能
    • 用 Google 账号存储自动填写信息
    • 发送网站的结构形式信息给 Google
  • 安全浏览
    • 存储响应到安全警告
  • 存储自动填写数据
  • 拼写检查将数据发送到谷歌服务器

网站历史

  • Every website visited from Google SERP
  • 日期
  • 时间
  • 搜索查询
  • 广告点击
  • 服务种类

翻译

• 发送到 Google 服务器的文本内容

Google财经

  • 股票投资组合
    • 用户的股票
    • 股份的数量
    • 日期/时间的购买
    • 购买的价格

Google Checkout

  • 购买者
    • 充分的法律名称
    • 信用与数字
    • 卡到期的日期
    • 卡的审核编号(CVN)
  • 账单地址
  • 电话号码
  • 邮件地址
  • 销售者
  • 银行账号
  • 个人地址
  • 商业目录
    • 政府颁发的身份证号码
    • 社会安全号码
    • 纳税人身份证号码

销售容量

  • 交易量
  • 来自 Dun&Bradstreet 的商业数据
  • 交易
    • 数量
    • 产品描述
    • 销售者名称
    • 购买者名称
    • 支付使用的类型
  • 用户趋势数据
  • 网站信标
  • 推介数据

Youtube

  • Youtube SERP的数据
  • 注册用户数据
  • 上传的视频
  • 发表的评论
  • 视频标记
  • 订阅
  • 频道
  • 群组
  • 最爱
  • 联系
  • 已看的视频
  • 频繁的数据转换
  • 数据转换的大小
  • 点击位置数据
  • 信息陈列数据
  • 电子邮件
  • 跟踪网站信标
    • 打开或者摒弃的邮件
    • 基础账户
  • EMAIL
  • 密码
  • 用户名
  • 位置
  • 邮编
  • 生日日期
  • 性别

Gmail

存储,过程,维护全部信息

账户行为

  • 存储使用情况
  • 登陆的次数
  • 显示的数据
  • 点击的链接
  • 存储所有电子邮件
  • 联系人列表
  • 垃圾邮件趋势
  • Gtalk 聊天记录
    • 所有的对话和涉及到的人
    • 使用服务的时候
    • 联系列表的大小
    • 联系沟通
      • 频繁的数据转换
      • 数据转换的大小
      • 点击

Google Calendar

  • 姓名
  • 默认语言
  • 时区
  • 使用策略
    • 服务使用时间长度
    • 数据转移频率
    • 数据转移大小
    • 事件数量
    • 日历数量
    • 点击
    • 每90天删除情况
  • 所有事件
    • 参加者
    • 被邀请者
    • 评价
    • 描述
    • 日期
    • 时间

iGoogle

  • Cookies中存储的设定
  • 帐号联系的设定

Blogger

  • 用户照片
  • 生日
  • 位置
  • 数据传送频率
  • 数据传送大小
  • 点击
  • 移动博客
    • 号码
    • 捆绑的 Google 帐号
    • 设备标识符
    • 硬件标识符

Google Docs

  • E-mail 地址
  • 登陆数量
  • 行为记录
  • 存储内容使用
  • 点击
  • 所有协同合作者
  • 所有文本
  • 所有图片
  • 所有改变

Groups

  • E-mail密码
  • 帖子内容
  • 自定义页面内容
  • 外部存储内容
  • 帐号活动
    • 所加入的 Groups 情况
    • 所管理的 Groups 情况
    • 成员列表
    • 被邀请者列表
    • 等级情况
    • 首选设定

Picasa

朋友图片

最喜爱的列表

点击(几乎所有 Google 服务都跟踪点击)

  • 所有照片
  • geotags (Exif data)
  • 订阅照片者信息

Mobile

  • 电话号码
  • 设备种类
  • 响应类型
  • 携带者
  • 携带着ID
  • 响应内容
  • Mobile地图
    • 地理位置信息 (GPS)
    • 地址
  • 用户查询后的目标网站信息
  • 声音指令

Web 加速

  • Web响应
  • 缓存

Double Click/Adwords

  • 广告点击
  • 年龄
  • 性别
  • 位置
  • 被访问网站趋势
  • IP 地址

Notebook

  • 存储、处理和维护
    • 所有内容
    • 昵称
    • 存储使用情况
    • 登陆次数

以下没有单独隐私说明的服务(说明直接采集数据了)

网站管理员工具

  • Google Analytics
  • AdWords
  • AdSense
  • Alerts
  • Reader
  • Earth
  • FeedBurner (技术上说有一个隐私说明,但基本没用)

垂直搜索

  • 图片搜索
  • 地图搜索
  • 博客搜索
  • 图书搜索
  • 新闻搜索
  • 专利搜索
  • 产品搜索
  • 学者搜索
  • 特殊搜索
  • 视频搜索
  • 代码搜索
来源:http://semwatch.org/2009/11/evil-of-google-data

猜你喜欢

转载自blackbaby.iteye.com/blog/898763