当前位置：公众IT > 技术文章 > Python爬虫存在的法律风险有哪些？怎样在法律许可范围内应用爬虫技术？

Python爬虫存在的法律风险有哪些？怎样在法律许可范围内应用爬虫技术？

新闻来源：互联网资料整理发布时间：2023/4/5 17:29:50 共计：5367 浏览

我是Python集结号，目前从事Python网站开发和爬虫工作。我们有一句顺口溜，“爬虫爬得欢，监狱要坐穿；数据玩得溜，牢饭吃个够！”
爬虫本身作为一种技术，不存在违法的问题，关键是用爬虫爬什么，以及怎么爬。
哪些类爬虫是违法的呢
1. 为违法违规组织提供爬虫相关服务
比如验证码识别服务贩卖，破解APP，如淘宝支付宝之类。要记住识别验证码不违法，但是用来谋利就可能违法。曾经有一个程序员为公司开发极验破解某网站，结果公司被查，自己也锒铛入狱。所以在做爬虫的时候，需要对自己的爬虫应用到哪方面有个了解。
2. 个人隐私数据的抓取与贩卖
比如手机号、身份证、家庭地址等。有些网站并没有对用户数据做很好的隐藏，使其暴露在网站上。你千万不要认为，浏览器上能看到的数据，都是公开数据，爬取了没问题。只要你进行谋利，那就要负法律责任。
3.侵犯商业版权，即抓取无版权的数据
比如有一些资料网站，你在上面看到一些文章，这是文章作者授权给网站使用的，而你是没有版权的，如果你抓取这些数据，并且进行贩卖谋利，都是要负法律责任的。以前经常有人问我，能不能抓取裁判文书网或者天眼查的数据，我都是坚决拒绝的。政府网站绝对不碰，这是我的原则。
4.利用爬虫攻击网站
说起来这一点，很多人不太理解，爬虫怎么能攻击网站呢？我们做爬虫的时候会用到多线程，多进程和分布式，主要就是为了提高我们的爬取效率，但是当我们的效率提高以后，对服务器的请求也会增大，如果不加限制的爬取，可能近乎于DDoS攻击，造成网站瘫痪，这时就不是爬虫了，就变成网络攻击了。还有就是做爬虫经常会与反爬虫做斗争，但是也要注意不要突破的太厉害，比如网站限制IP访问频率，你就更换IP无限制请求。最好是网站限制一秒钟访问一次，你提高到0.5秒一次就可以了。
以上就是爬虫可能违法的四种情况，除了最后一种，前面三种在不谋利的情况下个人做，还是没有多少限制的。就怕不知不觉变成第四种。我们做爬虫有一个词叫做：爬虫道德。就是在做爬虫的时候，也要考虑目标网站的压力。
上面介绍了爬虫的违法情况，那么爬虫会违反那些法律条款呢
1. 侵犯公民个人信息罪
《刑法》修正案（九）中将刑法第二百五十三条进行了修订，明确规定违反国家有关规定，向他人出售或者提供公民个人信息，情节严重的，构成犯罪；在未经用户许可的情况下，非法获取用户的个人信息，情节严重的也将构成“侵犯公民个人信息罪”。
2. 非法获取计算机信息系统数据罪
根据《中华人民共和国刑法》第二百八十五条规定，非法获取计算机信息系统数据、非法控制计算机信息系统罪，是指违反国家规定，侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统或者采用其他技术手段，获取该计算机信息系统中存储、处理或者传输的数据，情节严重的行为。刑法第 285 条第 2 款明确规定，犯本罪的，处三年以下有期徒刑或者拘役，并处或者单处罚金；情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。
3. 非法侵入计算机信息系统罪
《刑法》第二百八十六条规定，违反国家规定，对计算机信息系统功能进行删除、修改、增加、干扰，造成计算机信息系统不能正常运行，后果严重的，构成犯罪，处五年以下有期徒刑或者拘役；后果特别严重的，处五年以上有期徒刑。
4. 侵犯商业秘密罪
《反不正当竞争法》第九条，以不正当手段获取他人商业秘密的行为即已经构成侵犯商业秘密。而后续如果进一步利用，或者公开该等信息，则构成对他人商业秘密的披露和使用，同样构成对权利人的商业秘密的侵犯。这一条之前有个“车来了”涉嫌偷窃数据，被警方立案调查。
结语
说了这么写，会不会吓到想要入行的朋友？其实只要你没有非常大规模的采集、获利，没有设计隐私敏感信息，比如实名信息，基本上就不用担心爬虫违法。希望我的能令你满意

这里讨论的是网络爬虫技术本身，爬虫技术的手法可以用来抓群数据，还可以做其它事情，比如登录社交账号自动发帖，比如刷搜索排名等等。
《刑法》对网络爬虫的定罪依据
《刑法》第 285 条，非法获取计算机信息系统数据罪。
获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，
处三年以下有期徒刑或者拘役，并处或者单处罚金; 最高处七年有期徒刑并处罚金。
《刑法》第285条是对爬取数据的主要定罪依据，有兴趣可以去查下中华人民共和国刑法。
从已有案例来看有以下几种情况会进行定罪：
1.数据拥有者有证据能够举证你的数据是抓取来的。
2.抓取用户社交数据，尤其是用户隐私相关。
3.用爬虫技术扰乱对方网站经营规则，且牟利。
所以抓取的数据最好不要直接商用，涉及社交信息/用户信息要谨慎。
在数据抓取这方面，美国也有一个判决案例，美国一家小公司向法院起诉Linkedin，理由是Linkedin通过技术手段阻止他抓取Linkedin上的数据，而且法院判定这家公司胜诉，裁定Linkedin不准屏蔽这家公司的抓取行为。
目前我国法律是偏向数据拥有者的，如果数据拥有者有证据向法院起诉的话，抓取数据的一方多半会败诉。
另外在抓取过程中，如果破解/反编译对方客户端、软件，破解加密算法，比如你抓某APP数据，去反编译他的客户端，这绝对是犯法，这是破坏计算机信息系统罪。
爬虫有风险，开爬要谨慎。

不是所有网站都希望自己被爬虫访问，所以会写robot.txt，一般爬虫需要先访问这个文件确定可以被访问的范围，再以不会影响网站正常访问的前提下进行爬虫。

有些朋友可能不太清楚所谓的“爬虫”是什么意思，通俗点说，爬虫就好比是一只网络上的小虫子，专门用来搜集网页上的信息或数据，然后把搜集到的数据搬运到特定的数据库里。爬虫不生产数据，只做数据的搬运工。
现在锁着python越来越火，很多行业都需要用到爬虫。在爬虫行业里有句顺口溜：“爬虫玩的溜，牢饭吃个够”。虽然是一句玩笑话，但每年因为这个被处罚金甚至锒铛入狱进了局子的人也不在少数，让不少爬虫选手心头都是战战兢兢的。
在我国《刑法》285条中，是关于非法获取计算机信息系统数据罪的定义：
获取该计算机信息系统中存储、处理或者传输的数据，或者对该计算机信息系统实施非法控制，
处三年以下有期徒刑或者拘役，并处或者单处罚金; 最高处七年有期徒刑并处罚金。
大部分因为爬虫进去了的人，都是触犯了该条法律。
善意爬虫和恶意爬虫
网络爬虫分为善意爬虫和恶意爬虫，最常见的百度搜索引擎就是善意爬虫，俗称“百度蜘蛛”。善意爬虫严格遵守Robots协议规范爬取网页数据，它的存在能够增加网站的曝光度，给网站带来流量;而恶意爬虫不同，它会向目标网站投放大量的爬虫，如果是在同一时间进行访问的话，很容易造成网站服务器负载过大而崩溃，和网络攻击已经没什么区别了。而且恶意爬虫还会试图获取网站中有一些不愿意公开的秘密信息。比方说12306就是恶意爬虫的受害者。它们对12306网站的票务信息进行暴力爬取，不断的对网站提出刷新请求，于是12306网站时常因负载过大而崩溃，对我们的网络购票造成了严重的影响。
如何在进行爬虫时避免碰到红线？
遵循Robots协议，善意的爬虫行为是不受影响，但只要涉及到一下行为的爬虫，都属于恶意爬虫。
侵犯个人隐私
违反规定侵入国家事务、国防建设、尖端科学技术领域的计算机信息系统；
构成不正当竞争
.侵犯商业秘密
另外，爬虫大家还是用来做学习用吧，不要想着拿数据去牟利目前我国法律是偏向数据拥有者的，加入数据拥有者在有证据的情况下向法院起诉的话，抓取数据的一方几乎不会胜诉。
爬墙有风险，且爬且谨慎。
（都看到最后了，麻烦点个赞和关注吧，谢谢~）