Tiago Aguiar的照片,公共领域。

照片作者Tiago Aguiar,公共域/cc0。

维基媒体基金会的分析团队兴奋地为我们的社区和世界发布必威买球了一个新的数据集:必威体育 betway app必威买球独特设备.这是一种新的方法,我们可以估计有多少人每月和每天在网上阅读维基媒体项目。必威买球我们的措施是因为我们计数装置,而不是游客,有些人使用多个设备访问网络(手机和桌面,例如)有些人共享计算机。虽然独特的设备不等于独特的访客,它是一个很好的指标代理,这意味着独特设备数量的大幅增加很可能是由于访客数量的增加。

在开发这个数据集时,我们批判性地研究了以前用来测量距离的方法。我们知道我们想要统计独特的读者,并且我们希望以一种将用户隐私和安全作为优先事项的方式来实现这一点。作为回应,我们想出了一部小说,为维基媒体项目估算独特设备数量的轻量级方法。必威买球在这篇文章中,我们将分享我们如何评估独特的读者,为什么我们需要改变,我们现在是怎么做的。

我们邀请您探索新数据集希望对维基媒体社区更好地理解我们的项目有帮助。必威体育 betway app必威买球这些数据可以帮助衡量维基媒体项目在网络上的覆盖范围有多大。必威买球例如,仅在英语维基百科(添加桌面和移动设备)上,我们估计2016年1月就有超过6亿台独特的设备。我们预计这一数字会随季节变化很大,因为11月的数字约为4.4亿。仍然,英语维基百科是最大的项目,设备数量是下一个最受欢迎项目的三倍,西班牙语维基百科。

努里亚·鲁伊兹的照片,CC BSA SA 3。
努里亚·鲁伊兹的照片,CC BSA SA 3。

我们如何计算独特的Web阅读器

维基媒体项目的用户必威买球无需登录即可访问内容,与其他主要网站不同,我们不能通过帐户计算唯一的读者。自2009以来,维基媒体必威买球基金会使用comSc必威买球ore报告有关访问者的数据。这段关系是公益性的,我们从对我们的流量和排名的评估中获益。2016年1月,然而,我们决定停止报告因为某些原因方法的局限性.

comscore的优势在于从桌面上测量流量,我们发现这个移动设备的数据不太准确,这是维基媒体流量的重要组成部分。必威买球这可以通过在我们的网站上安装跟踪信标来解决,这些信标将数据流回到comscore,但我们没有这样做,因为我们的目标是保护用户隐私和安全,和,我们不会与不符合相同标准的第三方共享用户数据。

使用唯一的设备数据集,我们已经能够量化所有项目向移动化的转变。几乎所有的维基媒体项目,必威买球我们一半以上独特设备正在使用移动网站访问内容.这意味着在使用方面,手机代表了维基媒体项目总使用量的一半以上,必威买球这使得准确的移动流量测量成为一项重要的工作。在一些项目中,移动接入的比例要高得多。例如,印度尼西亚维基百科85%的使用发生在移动网站而不是桌面上。

我们现在如何计算独特的读者。设计隐私。

发展我们自己的计数方法,使我们能够确定数字背后的含义,为了了解这种方法在实践中的效果,与更广泛的社区分享高水平的数字。必威体育 betway app我们开始时的目标是从使用数据中获取更大的价值,同时降低数据滥用的风险(即隐私风险。

假设我们想计算一个月内一个医生拥有的病人数量,而不披露特定病人就诊的敏感数据。要做到这一点,一种侵入性的方法是保存一份当月到医生办公室的用户列表。例如:

  1. 艾丽西亚
  2. 苏珊娜
  3. 玛丽亚

这样的列表包含很多个人信息。艾丽西娅可能不太喜欢所有知道她于2016年3月去看医生的人。另一种在保持匿名的同时计算患者数量的方法是列出如下列表:

  1. 第一患者
  2. 第二病人
  3. 第三例患者

然而,在这种情况下,一旦第一个和第三个病人离开医生的办公室,就无法区分他们。问题是,我们要计算在给定时间段内(例如,一个月)但我们不想单独识别患者。同时,我们需要知道那个月谁来过办公室,这样我们就不会把他们数到两次了。

我们的工作:当病人离开医生的办公室时,我们递给他们打印他们上一次来办公室的日期的便条。在我们的例子中,纸条上写着:“上次访问时间:2月17日”。这有什么用?比方说,我们正在统计3月份医生办公室的独特病人:任何没有时间单进入医生办公室的人都是一个月的新病人(他们以前根本没有到过医生办公室)。我们正在给每个人发纸条)。当我们在3月份的时候,任何带着写着“上次就诊时间:2月17日”的单子的人也应该被算作3月份唯一的病人,就像他们去年2月份在医生办公室一样。为了使我们的计数准确,我们需要更新时间信息,以注意我们已经在3月份见过这个病人,所以在病人离开之前,我们更新了他们的单子,给他们一张新的单子,上面写着“上次就诊时间:3月15日”。

细心的读者会注意到,我们不需要在Timeslip上打印日期来计算每月用户数,只需打印月份就足够了。现在,打印日期更精确地允许我们用同样的方法计算每日的唯一性。如果我们数数,说,3月15日的病患人数,凡没有时间单而来的病患,均须计入每日收费(病患以前从未到过医生办公室)。任何在3月15日之前有日期的人也应该被计算在内。如果病人在3月15日两次来办公室,我们不会把他们计算两次,因为我们每天只更新一次他们的时间表,病人第二次出现时,纸条上已经写着“上次就诊时间:3月15日”。

使用这个策略,我们成功地实现了定期的独特设备计数以一种优先考虑用户隐私和安全的方式.我们相信设计时考虑到隐私和安全,我们可以开发有利于用户的产品和服务,社区和工必威体育 betway app作人员。

局限性

和任何方法一样,独特的设备有一些局限性。它只计算用于访问维基百科的唯一设备的数量。这给复制留下了空间:当用户在桌面和手机上查看维基百科页面时,我们将计算两个设备。

机器人
当我们试图实现这个最初的想法时,事情变得有点复杂。我们在每个进入维基媒体项目的浏览器请求中设置了一个cookie,其值为我们的时间条:“上次访问时间:2月17日”。必威买球cookie设置为每30天过期一次,并且在每个请求中刷新其值。当我们开始计数时,我们意识到没有cookie的请求的数量似乎太多了。事后诸葛亮,这是有道理的。维基百科有很多不接受cookie的自动机器人流量。在我们上面的类比中,机器人是那些不带时间卡进入医生办公室的人。用我们的方法,我们不能告诉医生的病人和刚走进办公室的其他人,说,递送包裹。考虑到我们的bot检测框架有点“原始”,解决最后一个问题并不容易。我们使用的技术解决方案详细记录在案。在这里在这里.

小型项目
我们查看了所有维基媒体项目的独特设备的数据,很明显,对于小型项目(那些每天的唯一设备少于1000个的项必威买球目),我们发现每日统一数据为太稀疏,没有意义.因此,我们的公共数据集只包含具有1000个以上唯一性的项目的数据。

弊端
虽然我们的计数方法减少了数据滥用的风险,从分析的角度来看,它有一些缺点。例如,我们不能使用这种方法来分割A/B测试的用户群。我们也(有目的地)不统计那些关闭cookie浏览维基媒体项目的用户。必威买球最后,我们的方法略低于报告数字,但我们同意。

我想使用相同的方法来计算我站点上的唯一性。我可以吗?

你当然可以。设置cookie的代码被部署到我们的Varnish缓存服务器上,而不是Mediawiki代码,而且有些干燥。你可以找到它吉瑟布论.现在,在PHP/python/java/您的名称中实现相同的逻辑应该很容易。

Nuria Ruiz软件工程师
玛德胡米塔·维斯瓦纳坦,软件工程师
Aaron Halfaker高级研究科学家
必威买球维基媒体基金会必威买球