当前位置：公众IT > 技术文章 > 爬虫技术合法吗(爬虫违法吗)

爬虫技术合法吗(爬虫违法吗)

新闻来源：互联网资料整理发布时间：2023/4/6 0:27:52 共计：4736 浏览

先说结论，技术无罪，有罪的是人。爬虫技术本身是不违法的，但是如果利用爬虫技术做损害他人利益的事情就是违法的了。
具体的法律条文，我也记不大清了，目前对于爬虫技术的使用界限没有一个特别明确的规定，按照我之前咨询律师得到答案，大概就是关乎这三个方面：采集途径、采集行为、使用目的。
通过什么途径爬取数据，这个是最需要重视的一点。总体来说，未公开、未经许可、且带有敏感信息的数据，不管是通过什么渠道获得，都是一种不合法的行为。
采集行为上使用技术手段应该懂得克制，一些容易对服务器和业务造成干扰甚至破坏的行为，容易违法
还有就是使用目的，就算你通过合法途径采集的数据，如果对数据没有正确的使用，同样会存在不合法的行为。一种情况是公开收集的数据，但没有遵循之前告知的使用目的。比如有些网站上标明内容不得用于商业行为，还有未经授权不得转载的，些都是有法律明文保护，所以要注意使用。
最后，结合实际情况，给几点建议吧
1、爬虫访问频次要控制，别把对方服务器搞崩溃了
虽然你爬取的信息都是公开的，也不涉及公民隐私，爬取的数据也不用于违法获利，只是自己弄着玩，但是如果你的爬虫太疯狂了，一分钟请求1万次，导致对方服务器应接不暇，不能处理正常业务了，对不起，你这种属于违法行为，这种爬虫等同于进行黑客攻击了，你让人家不能正常工作了，损害了对方的利益
2、涉及到个人隐私的信息你不能爬
其实这很好理解，你希望你自己的电话号，身份证号，家庭住址，工作单位，行踪轨迹这些隐私信息被别人用爬虫抓取么？当然不希望，别人抓了你的这些信息，你肯定想去报警对不对，让警察去抓那个坏蛋，ok，你不要去做那个坏蛋。
3、突破网站的反爬措施，后果很严重
正规的网站都会在根目录下放置 robots.txt，这里就规定了哪些能爬，哪些不能爬，谁可以爬，比如知乎的robots.txt，人家希望搜索引擎来爬它，其他的，一概不接受
不过呢，知乎并没有做特别严厉的反爬措施，这就是说，如果你偷偷的爬一点东西，不影响它的正常服务，它也懒得找你麻烦，但对于那种反爬特别严重的，例如淘宝，你最好别去爬，如果你真的利用你的高智商突破了淘宝的反爬措施，那么恭喜你，你已经违法了
4、不要用爬取的数据做不正当竞争
比如你把大众点评的评论数据都爬下来了，然后自己搞了一个xx点评，这肯定不行，人家辛辛苦苦的积累的数据，你轻轻松松的弄下来，直接拿来主义，跟人家搞竞争，你不违法谁违法。
5、付费内容，你不要抓
既然是付费内容，说明这东西价值很高，付费才能看，你弄下来了，你想干啥？你私自传播，就对网站造成了潜在损失。
6、最后一条，突破网站反爬措施的代码，最好不要上传到网上
你技术很牛逼，能突破网站的反爬措施，你把这些代码发布到网上，比如github，你自己没做啥坏事，可是想做坏事的人利用了你的代码，入侵了网站，那么，这种情况下，你也是有责任的，这个听起来有点冤，但确实存在这样的风险，所以，最好还是不要这么干

说实话，互联网上确实这两年出现了很多爬虫违法，爬虫被抓的事情。
关于爬虫是否违法，我们先从一个案例开始分析。
据海淀法院官网消息，近期，海淀法院审结了一起利用 “爬虫” 技术侵入计算机信息系统抓取数据的刑事案件。该案系全国首例利用 “爬虫” 技术非法入侵其他公司服务器抓取数据，进而实施复制被害单位视频资源的案件。大概事情是这样的：使用爬虫技术的公司于 2016 年至 2017 年间采用技术手段抓取被害单位北京某网络技术有限公司服务器中存储的视频数据，并由被告人破解北京某网络技术有限公司的防抓取措施，使用 “tt_spider” 文件实施视频数据抓取行为，造成被害单位北京某网络技术有限公司损失技术服务费人民币 2 万元。经鉴定，“tt_spider” 文件中包含通过分类视频列表、相关视频及评论等接口对被害单位服务器进行数据抓取，并将结果存入到数据库中的逻辑。在数据抓取的过程中使用伪造 device_id 绕过服务器的身份校验，使用伪造 UA 及 IP 绕过服务器的访问频率限制。
通过上述的案例，我们可以看出：
这个案例中被告人使用伪造 device_id 绕过服务器的身份校验，使用伪造 UA 及 IP 绕过服务器的访问频率限制进行爬虫说明是违背了内容提供者意愿的。
说实话，做过爬虫的都知道，常用的反爬虫手段基本上都是这样的，限制 IP 的访问次数，检查判断是否有同一个设备在频繁不断请求（也就是检查 device_id）。
说白了最常见的反爬虫手段有三种：
通过分析用户请求的 Headers 信息进行反爬虫。
通过判断同一个 IP 或者同一个设备，在短时间内是否频繁访问对应网站等进行分析；
通过动态页面增加爬取的难度，达到反爬虫的目的。

对于爬虫者来讲，可以非常方便的获取别人辛辛苦苦收集和整理的信息，内容等，但是大量的爬虫也可能会给内容提供者的网站和服务器造成重大的压力，因为有些暴力爬虫者，不管三七二十一，频繁请求别人的服务器，导致服务器压力过大。

我们一起来看看爬虫和反爬虫的攻与防，以及给别人的服务器带来的压力和损失。
所以，作为技术人来讲，爬虫要讲究规则和方法的，一定要善用爬虫，慎用爬虫，爬虫虽好，但是一定不要侵权，尤其是盗取别人的原创内容和知识，更不要传播具有版权的内容和产品。
在这起案件中，法官认为：
在信息时代，“爬虫” 技术是一种常见的数据抓取技术，最常用的领域是搜索引擎，该技术的有效使用有利于数据的共享和分析、造就了互联网生态的繁荣，但并不意味该技术的使用没有边界。法官在此提醒互联网行业的从业人员，必须在法律的框架之内合理使用该技术，违反法律规定利用该技术非法获取数据可能构成犯罪。
所以这起案件给我们的提示和警醒就是：
要善用爬虫，不要爬虫具有版权和原创的知识，内容，产品，更不要传播。
要慎用爬虫，不要使用爬虫技术去获取违背内容提供者意愿的信息。
要对用爬虫，不要暴力使用爬虫技术，给别人的服务器造成压力和损害。

尤其是利用爬虫技术获取信息去获利，去商用的人和企业，尤其是同行之间竞争的人，要小心了，一旦被抓到，这个案例就是一个很好的例子。

然后我最近在读极客时间的专栏，在专栏《白话法律》中，律师是这么说的，总结下来：
第一，如果你爬取信息，严格遵守“Robots 协议”，没有任何越权的行为，搜集的也是公开可以查询的非隐私级的信息。那么，你的行为基本不会违法。其实很多网站也很希望数据被抓取，比如被百度或者 Google 的爬虫采集。
另外，需要强调的是，“Robots 协议”本身并没有法律效力，但在行业内大家基本都会遵守，法院的判案也越发看重这一点。所以这类爬虫不难理解，没有恶意，也并不攫取非公开类的信息，虽然有时会遭到反感，但是并不违法，也是互联网发展必须的技术。

第二，如果你爬取信息，是为了证明被爬公司的数据造假，其获取的数据也都是通过公开渠道可以查询的，那么，在获取信息后公布于众的行为并不违法，也不侵犯被爬公司的民事权益。但是，如果你爬取公开免费的信息，是用来进行违法操作，比如造假、诽谤等，就有隐患了。

第三，如果你利用爬虫获取其他公司的公开信息数据，用于自身公司的经营。而被爬公司的信息是投入了大量人力、财力，经过常年积累获得的，并且被爬公司本身也采取了反爬措施。这种情况下，虽然信息是公开的，但信息本身具有较高的商业价值，能够给使用者带来商业利益，此时的爬虫也是违法的。

第四，如果你未经平台授权，强行突破反爬措施，导致被爬网站的运行受到严重影响，这种行为明显是违法的，这里涉及的就是我们上一个技术篇讲到的破解犯罪了。

第五，如果你是第三方应用，想要通过开放平台获取用户信息时，更要注意授权问题。从用户对平台的授权、平台对第三方的授权、再到用户对第三方的授权，三重关卡都要通过才合法。

所以，其实爬虫技术本身并不违法，违法的是你爬虫的数据是否侵犯了别人的隐私，版权，是否爬人家的数据用于获利了等，这样的情况下属于违法。

关注「非著名程序员」，每天分享有价值的科技内容，也欢迎大家在底下留言，一起交流分享，另外不易，请点赞支持。感谢！

搜索引擎不就是爬网页然后对其中的内容建索引吗？如果爬虫技术天生违法，那么搜索引擎就都是非法的了。显然这与事实相违背。
事实上一种技术本身谈不上违法，基于这种技术的应用才有合法违法之分。搜索引擎是一种应用，为什么不违法，是基于几个前提：一是利益交换前提，在网页泛滥的时代，网站需要流量，而被搜到然后访问是一个很好的流量来源，所以被搜索引擎爬是有好处的。第二是授权的前提，网页被公开访问，默认可以被搜索引擎爬，但也可以通过robot协议约束搜索引擎可爬的范围。robot协议更多是一种软性的约束，是属于约定俗成，正规的搜索引擎会根据这个来爬被允许访问的页面，如无约束则默认都爬。
那么什么样的爬虫应用是违法的呢？第一是未经授权将别人的网站或者应用里的数据爬过来，这属于窃取信息的性质。第二是将爬来的信息进行直接售卖或者为己所用获利。第三是泄露爬到的信息里的个人隐私，无论是否获利，均涉嫌泄露个人信息罪。