必看,淘宝数据采集回来如何验证数据准确率及覆盖率

有数据采集需求的朋友们应该都在网上将大大小小的数据公司都了解了一遍,了解过程中无非就是数据准确性,数据覆盖率,价格,时效以及是否能按照要求定制等问题。价格和时效都是直观的,而且可以商量的,但是对于数据而言准确率和覆盖率是最重要的,同时也是最不好验证的,往往这个时候只能任凭数据公司表达他们的采集能力。不好验证,并不代表不能验证。下面分享下antuodata专业的数据验证经验,教大家如何验证采集回来的数据。

验证一:数据覆盖率。我个人觉得如果覆盖率都达不到要求,尤其是高销量/评价的URL严重缺失,那么用数据分析出来的行业报告也就不准确了。所以覆盖率的验证为首要验证。天猫家电商数据为例

步骤1.品类产品URL抽查,将手上的家电数据随机筛选出一个产品A看下 URL数,然后再淘宝平台用关键词搜索产品A,点击“天猫”平台,用销量排序、综合排序、价格排序等方式分别随机抽取10-20条链接,看看这些链接是否在表格中;

步骤2.品类产品品牌URL抽查,在网页分别搜索几个家电产品,点击排名靠前的品牌,然后随机抽取10-20条链接,查看这些链接是否存在在表格中;

步骤3.品类产品型号URL抽查,在网页分别搜索几款家电热销型号,随机抽取10-20条链接,查看这些链接是否存在在表格中;

步骤4.品类产品品牌抽查,在网页随机搜索几个家电产品,尤其是大家电,搜索后,查看页面排名前10的品牌表格中是否都包含了。

京东还可以根据页面搜索某个产品显示的总URL数量与手中URL总数量进行对比,查看是否相差很大。

经过以上多维度的抽查,你手上数据的覆盖率怎么样也就知道个大概了。

验证二:数据准确性。这里说的准确性不包含覆盖率,只是单纯页面信息与手上信息对比。大概可以从以下几个地方着手验证。商品价格维度:售价;满减券后价。检查售价是否与网页一致,满减券后价计算是否准确;商品信息维度:型号、品牌、款式、颜色、促销活动等采集回来的数据是否与页面一致;销量、评价量维:采集回来的数据销量和评价量是否与页面一致;店铺信息维度:店铺名、旺旺名、店铺ID、店铺等级等是否与页面一致。简而言之,就是采集回来的全部字段数据是否与页面一致,这个是采集刚需,如果这些信息都不准确,那么数据也就没什么意义了。

数据验证过程是一个重复且及其无聊的过程,讲究方法方式,还需要细心还和耐心。希望以上经验能帮助大家为数据质量把关。

猜你喜欢

转载自blog.csdn.net/antuodata/article/details/79850969