加载中

跨境电商系列 | 电商行业的爬虫识别与管理

吴赟(Akamai 高级技术顾问) 2021/09/29 17:04

【编者按】数字化服务商一直以来都是电商生态不可或缺的重要组成,但又因过于熟悉而被忽视。我们似乎不该忘记,电商每一次迭代和进化,数字化都充当了技术先驱与应用场景的搭建者。我们认为,在大数据、人工智能、算法驱动的未来商业,数字化的价值不可或缺。为了更详细的展现电商的面貌与能力,亿邦动力特别推出数字化实战案例。通过每一期的案例拆解,为电商从业者找到最为实用的行业级解决方案。并在每一次的创新应用中,找到一丝未来的曙光。

当今数字化时代,几乎每个行业都意识到“流量”的重要性。以电商为例,流量意味着曝光量,意味着客户感知度,意味着口碑,意味着潜在客户,也意味着商机……

然而您所获得的全部流量,真的就都是有益的,都能对业务产生积极影响吗?那也未必!

爬虫,流量获取之路上一个绕不过的坎儿

作为全球领先的IT技术和服务提供商,Akamai致力于通过智能边缘平台为全球企业提供安全、流畅的数字化体验。凭借遍及全球135个国家/地区的庞大规模与丰富服务。Akamai目前已承载了30%的全球互联网流量。经分析发现,这其中只有约60%的流量是真实用户产生的,其余40%的流量都来自于各种爬虫。

爬虫又是什么?简单来说,爬虫是一种自动运行,在互联网上检索各类信息(这一过程也叫做“爬取”)的程序。例如每个人可能都会使用的搜索引擎,就是事先由搜索引擎的爬虫程序爬取全网的网页,了解不同网页包含了哪些信息,随后才能为我们提供搜索结果。

具体到电商领域而言,根据Akamai统计,电商行业所产生的流量中,来自真实用户以及来自爬虫的流量几乎处于对半分的状态。也就是说,电商IT系统所处理的流量,约有50%都来自于各类爬虫程序。

其中包括来自搜索引擎、广告平台、社交媒体、测试平台等商家真正需要的爬虫(可称为“善意爬虫”);当然,不可避免地会有竞争对手爬取商品价格库存等信息,或恶意人员开展撞库攻击的,商家不需要并且希望尽可能避免的爬虫(此类可叫做“恶意爬虫”)。

恶意爬虫的影响,往往是多方面的

从IT的视角来看,如果50%的电商流量都是爬虫产生的,那么其中源自各类恶意爬虫的流量占比也不会小。这意味着企业为应对业务增长而准备的IT容量中,很大一部分都被各类不需要的恶意爬虫流量消耗了。换句话说,恶意爬虫流量在影响Web系统性能的同时,也进一步增加了基础设施和运维等各方面成本。

从业务视角来看影响更大。竞争对手恶意爬取价格、库存等信息,会直接削弱商家竞争力;“黄牛党”和“羊毛党”利用爬虫干扰正常新品首发或促销活动,导致失去销售机会甚至影响到商家与客户的关系;发起撞库攻击的爬虫甚至会导致用户账号、账户余额、积分失窃等更严重后果,导致商家声誉受到影响,甚至在某些情况下造成不合规或罚款。

因此对于爬虫管理,我们可以首先明确这样一个最基本原则:区分爬虫的类型和作用,随后针对不同爬虫,有针对性地加以处理,在不影响善意爬虫正常运行的前提下,尽可能阻止恶意爬虫生效。

传统爬虫管理方法早已难以为继

目前市面上已经有很多爬虫管理解决方案,但这些产品大多使用了一种较为传统的,已无法迎合最新技术趋势的方法:根据User Agent信息或IP地址识别出爬虫程序,然后“一刀切”地直接拒绝访问。

短期内,这类解决方案可能会产生一定效果。但从长期范围来看,这只会导致爬虫不断演化和完善,让商家和爬虫运营者陷入“识别阻止,改进完善,重新识别阻止,再次改进完善”的无限拉锯战中。

为规避检测,爬虫运营者只需简单修改代码即可改变爬虫User Agent信息或具体行为;而更换IP地址?借助越来越普及的公有云服务,这完全是小菜一碟。只要传统爬虫管理解决方案成功阻止了某种爬虫,就会引起运营者警觉并将爬虫继续完善,进一步增大了被成功检测出来的难度。

Bot Manager帮您构建反爬虫安全体系

Akamai Bot Manager建立在Akamai Intelligent Edge Platform之上,该平台在130多个国家/地区拥有约300,000台服务器,可提供出色的规模、恢复能力和性能。Bot Manager能在边缘检测、识别和管理爬虫程序,从而仅将干净的流量转发至源站,并通过智能AI算法,根据合法和恶意流量趋势进行调整,以此更好地检测、分类、管理不同类型的爬虫流量。

爬虫检测方面,除了传统的浏览器特征分析、IP速率限制、网络报头分析等技术外,Bot Manager还全面采用了更先进、智能的用户行为分析、浏览器指纹、HTTP异常检测等技术,借此更准确地区分真实用户流量与爬虫流量。

以下图为例,对比了在浏览网页时,真实用户和爬虫模拟的鼠标轨迹。真实用户的鼠标轨迹几乎是随机的、无序的,而爬虫模拟的鼠标轨迹往往“横平竖直”,很有目的性。借助类似这样的方式,Bot Manager能更准确地区分哪些流量来自真实用户。不仅如此,Bot Manager还能结合用户/爬虫在网页上键入信息时的键盘敲击节奏和速度、触控操作的行为模式,甚至手机和平板等移动设备的陀螺仪方位变化等诸多因素,进一步提高检测和识别的准确率。

通过检测成功区分来自真实用户和爬虫的流量后,还需要根据其他特征对爬虫流量进行进一步的分类。Bot Manager已针对超过1,500种已知爬虫创建了一个目录,并且还在不断扩充中。借此该解决方案可自动根据不同类型爬虫对业务或IT可能造成的影响。

随后在恶意爬虫流量的管理方面,Bot Manager并不像其他解决方案那样采取“一刀切”的阻止措施,而是会根据实际情况更智能地酌情进行处理。例如,对于依然无法有效区分的流量,可显示验证码帮助验证是否为真实人类流量;发起撞库攻击的爬虫,可直接阻止;爬取价格信息的爬虫,可提供虚假数据;其他类型的爬虫,可人为造成延迟,降低响应速度,或进一步进行更密切的监视……

所有这一切,都是为了在尽量不让爬虫运营者警觉的情况下,尽可能减少恶意爬虫对IT基础设施和业务产生消极影响。

借助智能、强大的检测、分类、管理和报表分析能力,Akamai Bot Manager为企业提供了爬虫检测和控制能力,帮助企业在保护自身运营,维系更良好的客户关系同时,还能在如下几方面获得收益:

提升可信度:了解哪些互动是合理合法的,减少给用户造成的摩擦,同时保护用户,使其免受欺诈活动的影响,进而促进消费者、合作伙伴和您之间的相互信任关系。

减轻补救措施造成的负担:降低因检查遭入侵帐户、更换被盗帐户、处理用户投诉和其他爬虫程序攻击不良影响而产生的资金成本和资源消耗。

提高运营控制能力:提高效率、降低业务风险和财务风险、控制IT支出,并对合作伙伴爬虫程序进行有策略的管理。

制定由数据驱动的、更好的决策:详尽的分析和报告可帮您对客户旅程、安全态势、风险承受能力和IT运营做出有创造性、有效的选择。

文章来源:亿邦动力

微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭