IT门户, 中国互联网人工智能物联网行业资讯平台--公众IT
新闻来源:互联网资料整理       发布时间:2023/4/5 17:29:50       共计:5164 浏览

我是Python集结号,目前从事Python网站开发和爬虫工作。我们有一句顺口溜,“爬虫爬得欢,监狱要坐穿;数据玩得溜,牢饭吃个够!

爬虫本身作为一种技术,不存在违法的问题,关键是用爬虫爬什么,以及怎么爬。

哪些类爬虫是违法的呢

1. 为违法违规组织提供爬虫相关服务

比如验证码识别服务贩卖,破解APP,如淘宝支付宝之类。要记住识别验证码不违法,但是用来谋利就可能违法。曾经有一个程序员为公司开发极验破解某网站,结果公司被查,自己也锒铛入狱。所以在做爬虫的时候,需要对自己的爬虫应用到哪方面有个了解。

2. 个人隐私数据的抓取与贩卖

比如手机号、身份证、家庭地址等。有些网站并没有对用户数据做很好的隐藏,使其暴露在网站上。你千万不要认为,浏览器上能看到的数据,都是公开数据,爬取了没问题。只要你进行谋利,那就要负法律责任。

3.侵犯商业版权,即抓取无版权的数据

比如有一些资料网站,你在上面看到一些文章,这是文章作者授权给网站使用的,而你是没有版权的,如果你抓取这些数据,并且进行贩卖谋利,都是要负法律责任的。以前经常有人问我,能不能抓取裁判文书网或者天眼查的数据,我都是坚决拒绝的。政府网站绝对不碰,这是我的原则。

4.利用爬虫攻击网站

说起来这一点,很多人不太理解,爬虫怎么能攻击网站呢?我们做爬虫的时候会用到多线程,多进程和分布式,主要就是为了提高我们的爬取效率,但是当我们的效率提高以后,对服务器的请求也会增大,如果不加限制的爬取,可能近乎于DDoS攻击,造成网站瘫痪,这时就不是爬虫了,就变成网络攻击了。还有就是做爬虫经常会与反爬虫做斗争,但是也要注意不要突破的太厉害,比如网站限制IP访问频率,你就更换IP无限制请求。最好是网站限制一秒钟访问一次,你提高到0.5秒一次就可以了。

以上就是爬虫可能违法的四种情况,除了最后一种,前面三种在不谋利的情况下个人做,还是没有多少限制的。就怕不知不觉变成第四种。我们做爬虫有一个词叫做:爬虫道德。就是在做爬虫的时候,也要考虑目标网站的压力。

上面介绍了爬虫的违法情况,那么爬虫会违反那些法律条款呢

1. 侵犯公民个人信息罪

《刑法》修正案(九)中将刑法第二百五十三条进行了修订,明确规定违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,构成犯罪;在未经用户许可的情况下,非法获取用户的个人信息,情节严重的也将构成“侵犯公民个人信息罪”。

2. 非法获取计算机信息系统数据罪

根据《中华人民共和国刑法》第二百八十五条规定,非法获取计算机信息系统数据、非法控制计算机信息系统罪,是指违反国家规定,侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,情节严重的行为。刑法第 285 条第 2 款明确规定,犯本罪的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

3. 非法侵入计算机信息系统罪

《刑法》第二百八十六条规定,违反国家规定,对计算机信息系统功能进行删除、修改、增加、干扰,造成计算机信息系统不能正常运行,后果严重的,构成犯罪,处五年以下有期徒刑或者拘役;后果特别严重的,处五年以上有期徒刑。

4. 侵犯商业秘密罪

《反不正当竞争法》第九条,以不正当手段获取他人商业秘密的行为即已经构成侵犯商业秘密。而后续如果进一步利用,或者公开该等信息,则构成对他人商业秘密的披露和使用,同样构成对权利人的商业秘密的侵犯。这一条之前有个“车来了”涉嫌偷窃数据,被警方立案调查。

结语

说了这么写,会不会吓到想要入行的朋友?其实只要你没有非常大规模的采集、获利,没有设计隐私敏感信息,比如实名信息,基本上就不用担心爬虫违法。希望我的能令你满意

这里讨论的是网络爬虫技术本身,爬虫技术的手法可以用来抓群数据,还可以做其它事情,比如登录社交账号自动发帖,比如刷搜索排名等等。

《刑法》对网络爬虫的定罪依据

《刑法》第 285 条,非法获取计算机信息系统数据罪。

获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,

处三年以下有期徒刑或者拘役,并处或者单处罚金; 最高处七年有期徒刑并处罚金。

《刑法》第285条是对爬取数据的主要定罪依据,有兴趣可以去查下中华人民共和国刑法。

从已有案例来看有以下几种情况会进行定罪:

1.数据拥有者有证据能够举证你的数据是抓取来的。

2.抓取用户社交数据,尤其是用户隐私相关。

3.用爬虫技术扰乱对方网站经营规则,且牟利。

所以抓取的数据最好不要直接商用,涉及社交信息/用户信息要谨慎。

在数据抓取这方面,美国也有一个判决案例,美国一家小公司向法院起诉Linkedin,理由是Linkedin通过技术手段阻止他抓取Linkedin上的数据,而且法院判定这家公司胜诉,裁定Linkedin不准屏蔽这家公司的抓取行为。

目前我国法律是偏向数据拥有者的,如果数据拥有者有证据向法院起诉的话,抓取数据的一方多半会败诉。

另外在抓取过程中,如果破解/反编译对方客户端、软件,破解加密算法,比如你抓某APP数据,去反编译他的客户端,这绝对是犯法,这是破坏计算机信息系统罪。

爬虫有风险,开爬要谨慎。

不是所有网站都希望自己被爬虫访问,所以会写robot.txt,一般爬虫需要先访问这个文件确定可以被访问的范围,再以不会影响网站正常访问的前提下进行爬虫。

有些朋友可能不太清楚所谓的“爬虫”是什么意思,通俗点说,爬虫就好比是一只网络上的小虫子,专门用来搜集网页上的信息或数据,然后把搜集到的数据搬运到特定的数据库里。爬虫不生产数据,只做数据的搬运工。

现在锁着python越来越火,很多行业都需要用到爬虫。在爬虫行业里有句顺口溜:“爬虫玩的溜,牢饭吃个够”。虽然是一句玩笑话,但每年因为这个被处罚金甚至锒铛入狱进了局子的人也不在少数,让不少爬虫选手心头都是战战兢兢的。

在我国《刑法》285条中,是关于非法获取计算机信息系统数据罪的定义:

获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,

处三年以下有期徒刑或者拘役,并处或者单处罚金; 最高处七年有期徒刑并处罚金。

大部分因为爬虫进去了的人,都是触犯了该条法律。

善意爬虫和恶意爬虫

网络爬虫分为善意爬虫和恶意爬虫,最常见的百度搜索引擎就是善意爬虫,俗称“百度蜘蛛”。善意爬虫严格遵守Robots协议规范爬取网页数据,它的存在能够增加网站的曝光度,给网站带来流量;而恶意爬虫不同,它会向目标网站投放大量的爬虫,如果是在同一时间进行访问的话,很容易造成网站服务器负载过大而崩溃,和网络攻击已经没什么区别了。而且恶意爬虫还会试图获取网站中有一些不愿意公开的秘密信息。比方说12306就是恶意爬虫的受害者。它们对12306网站的票务信息进行暴力爬取,不断的对网站提出刷新请求,于是12306网站时常因负载过大而崩溃,对我们的网络购票造成了严重的影响。

如何在进行爬虫时避免碰到红线?

遵循Robots协议,善意的爬虫行为是不受影响,但只要涉及到一下行为的爬虫,都属于恶意爬虫。

  1. 侵犯个人隐私

  2. 违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统;

  3. 构成不正当竞争

  4. .侵犯商业秘密

另外,爬虫大家还是用来做学习用吧,不要想着拿数据去牟利目前我国法律是偏向数据拥有者的,加入数据拥有者在有证据的情况下向法院起诉的话,抓取数据的一方几乎不会胜诉。

爬墙有风险,且爬且谨慎。

(都看到最后了,麻烦点个赞和关注吧,谢谢~)

版权说明:
本网站凡注明“公众IT 原创”的皆为本站原创文章,如需转载请注明出处!
本网转载皆注明出处,遵循行业规范,如发现作品内容版权或其它问题的,请与我们联系处理!
您可以扫描右侧微信二维码联系我们。
网站首页 关于我们 联系我们 合作联系 会员说明 新闻投稿 隐私协议 网站地图