- 2023/4/6 15:17:28
- 类型:转载
- 来源:网络
- 网站编辑:阿卡
网络抓取或公开网络数据搜集在私营部门的决策制定过程中起着越来越重要的作用。如今,替代数据行业的产值接近 70 亿美元(大约 48 亿元)。虽然一些专家赞同网络抓取仍然远未实现真正的潜力,但最近的 Oxylabs 研究表明,超过 52% 的英国金融公司使用自动化过程来采集数据。大部分研究参与者(63%)采用替代数据来获得有竞争力的商业洞察。
尽管非传统数据来源在各种企业得到积极利用,但公共部门和学术界仍在还没有跟上脚步。法律障碍和复杂的公共采购程序可能是束缚公共部门的主要原因,但学术圈的自由度却高得多。那么,为什么大学校园有这么多学生和研究人员对网络抓取可能性和工具知之甚少?
科学领域的网络抓取应用
分析来自替代来源的大数据有助于测试和验证现有假说及提出新假说。这样可带来比传统数据来源广泛得多、在某些情况下偏见更少的视角。但是,如果您试图搜索关于网络抓取在科学领域应用的信息,很快就会注意到,这主要是数据科学家关心的事情,很少会延伸到其他领域。
尽管缺乏认知度,替代网络数据分析在社会学、经济学或心理学研究中的可能性是无止境的。例如,日本银行一直在积极采用替代数据来制定明智的货币政策。它使用移动性数据,例如东京选定区域的夜间人口,以及基于信用卡消费的休闲和零售趋势,借以评估经济活动。
在新冠疫情期间,病毒学和心理学研究也从替代网络数据中获取了有价值的洞察:本地化 Google 搜索趋势可以预测疫情爆发,准确性高于其他指标,而抓取公开 Twitter 数据的方法被用于了解公众对远程工作的态度和经历。使用替代数据开展科学研究的其他主要示例包括:基于公开社交媒体活动的抑郁症和人格研究,研究肥胖相关文章下的读者评论中的体重耻辱,等等。
网络抓取的优势可以在营销与电商研究中轻松观察到。科学家可以自动收集特定商品(例如电子产品、住房和食品)的价格,计算消费者价格指数。营销研究人员可以跟踪在不同条件(例如,打折价格)下售出的相同产品,估算特定因素对非理性的行为者可能造成的影响。
最后,对公开数据进行网络抓取,对于人工智能(AI)和机器学习(ML)的研究至关重要。AI 和 ML 研究现在十分热门,几乎任何一所大型高校都开设了与 AI 和 ML 相关的研究课程。学生在这些课程中常常面临的挑战是缺乏恰当的数据集来训练 AI/ML 算法。公开数据抓取知识能够帮助 AI 和 ML 学生构建优质数据集,实现更高效的机器学习。
调查性报道
公开网络数据采集在一个领域是无法避免的,那就是调查性报道和政治研究。这些类型的研究高度依赖无偏见的小众数据,这些数据很复杂,往往无法通过传统数据来源完整获得。
调查记者和政治科学家可以使用爬虫来研究各种各样的问题:从调查政府大楼的访客记录来跟踪游说者的影响,到监控公开社交媒体平台和论坛中被禁止的政治广告和激进组织。可以说,网络抓取对于解决社会问题至关重要,因而有利于民主政体本身的正常运转和维护法治。
认知度缺口
网络抓取并不是所有科学弊端的灵丹妙药。它对物理或生命科学做实验基本上帮不了什么忙,但可以为社会学、政治学以及一些情况下的临床研究带来数据的“圣杯”。自动化大数据采集是许多科学家多年来梦寐以求的大突破。然而,它在多个方面被人误解。
在社会科学领域,学术界有时依赖实验或调查数据,仅仅是因为这种类型的证据似乎比起搜集网络数据来说更容易收集。即使学生设法在线找到必要信息,但如果没有受过网络抓取的正规教育,他们通常会采用手动数据录入的办法(著名的“复制粘贴”大法),这样做既耗时,也容易出错。
学术研究数据的热门来源是公共组织或政府机构拥有的大型数据库,以及企业提供的数据集。遗憾的是,这种方法看似简单,却是有代价的。政府数据收集起来很缓慢,可能很快会过时,很难带来新鲜的洞察,因为相同的数据点会被成千上万的科学家(过度)分析。私有组织机构提供的数据可能是有偏见的。如果信息很敏感,企业可能坚持要看研究的最终结果,常常带来所谓的结果报告偏见。
利用网络上无数的免费替代数据来源,可以开展原本无法实现的独特研究。这就像拥有一个无限的数据集,可以使用几乎任何信息进行更新。虽然网络抓取肯定需要掌握特定知识,但如今的数据采集解决方案允许用户在仅具备基本编程技能的情况下提取海量替代数据。这些解决方案可以实时返回数据,更准确地做出科学预测,而传统数据收集方法常常存在很长的时间延迟。
需要注意的是,学术界很少有合适的理由(包括时间和资源方面)从头开始创建自己的数据爬虫和解析器。第三方供应商可以轻松处理代理管理、验证码解决或创建唯一指纹和解析管道,这样科学家就可以把时间完全用在数据分析和研究上。
对法律障碍的担忧
网络抓取牵涉到各种各样的法律顾虑,这也让一些研究人员不敢在研究中利用公开大数据。由于该行业相对年轻,并且对各种各样的参与者开放,确实存在一些不专业的活动。但是,任何数字工具都可能被用于正面和负面的用途。
网络抓取并不存在不合规范的固有性质,因为它只是自动执行人们原本手动执行的活动。我们都知道最著名的网络爬虫 Googlebot,并且每天依赖它进行搜索。网络抓取还被广泛用于电商行业,例如,大型航班比较网站会抓取成千上万个航空公司的网站,采集公开的定价数据。要找出飞往纽约市的航班的最优惠价格,就需要依赖公开网络数据采集技术。
由于网络抓取牵涉到一些风险,学术界常常选择完全摒弃该技术,回到传统数据来源,或者东抓一点数据,西抓一点数据,寄希望于没人察觉。摆脱法律障碍的最佳办法是在开展重大数据搜集项目之前咨询法律从业人员。回答以下问题可能也有助于研究人员评估可能的风险:
• 公开数据是从人类主体积累的吗?如果是,它是否可能受隐私法律(例如 GDPR)约束?
• 网站是否提供了 API?
• 网站的服务条款是否禁止网络检索或抓取?
• 网站的数据是否有明确版权或受到知识产权保护?
• 网站的数据是否付费提供(即需要订阅才能获取)?
• 所需数据是否锁定在登录界面背后?
• 项目是否牵涉到非法或欺诈性的数据使用?
• 有否通读 robots.txt 文件并相应调整爬虫?
• 检索和抓取是否会对网站或托管网站的服务器造成实质损害?
• 抓取或检索是否会显著影响目标网站的服务质量(例如速度)?
为了提升合规数据采集实践与行业范围的标准,Oxylabs 联合其他著名 DaaS 公司一起创建了合规网络数据收集倡议。该联盟旨在打造围绕网络抓取的信任,培训更广泛的技术社区,宣传大数据的可能性。
Project 4β 用于提供免费网络数据
围绕网络抓取的认知度缺口很可能是学术界没有利用这项技术的最主要原因。为了填补这一缺口并帮助学术界使用网络抓取工具采集大数据,Oxylabs 推出了称为 “Project 4β” 的公益性计划。该计划旨在传授 Oxylabs 多年来积累的技术专业知识,让大学和非政府组织能够免费访问数据抓取工具,支持关于大数据的重要研究。“Project 4β” 也是一个安全的空间,可供学术界根据过去 20 年来形成的法律先例,探讨哪些行动是恰当、合规的。
通过 “Project 4β”,Oxylabs 已经与密歇根大学、西北大学和 CODE - 应用科学大学的教授和学生开展合作,分享关于合规网络抓取面临的挑战的知识。我们提供的一些教育资源现已整合到研究生课程中。
此外,过去几年来,Oxylabs 一直积极致力于通过由 AI 和 ML 驱动的解决方案推动网络抓取技术的前沿发展。为了激励大家分享专门知识,公司建立了 AI 和 ML 顾问委员会,其中包括五名杰出的学术和行业领导人。与学术界开展更积极的协作,能够带来更广泛的网络抓取可能性,应对重要的社会挑战。
结束语
公众和学术界尚未把网络抓取看成香饽饽。但是,随着每年庞大的网络数据量呈指数级增加,大数据分析将逐渐成为科学研究不可或缺的一环。如今哪怕是在社会科学校园,讲授 SPSS 基础知识也是司空见惯的事,让学生熟悉网络抓取实践也应当是很正常的。
诚然,网络抓取的确会牵涉到特定风险和合规考量,但实验室的科学实验也是如此。尽管组织机构应当总是在抓取之前咨询法律专业人士,但已经存在一些行业最佳做法,只要加以遵守,就能尽可能低降低与公开网络数据收集相关的大部分风险。
作者:Juras Jursenas,Oxylabs.io 首席运营官
Copyright © 2006-2021 电脑报官方网站 版权所有 渝ICP备10009040号-1