爬虫是违法的么

栏目：古籍资讯发布：2023-08-05浏览：18收藏

爬虫是违法的么,第1张

一、爬虫是违法的么

1、爬虫是否违法需要根据以下情况判断：

（1）爬虫本身不违法；

（2）如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯****、住址、账号密码、财产状况、行踪轨迹等个人信息，并将之用于非法途径的，则肯定构成非法获取公民个人信息的违法行为。

2、法律依据：《中华人民共和国民法典》第一千零三十二条

自然人享有隐私权。任何组织或者个人不得以刺探、侵扰、泄露、公开等方式侵害他人的隐私权。

隐私是自然人的私人生活安宁和不愿为他人知晓的私密空间、私密活动、私密信息。

第一千零三十三条

除法律另有规定或者权利人明确同意外，任何组织或者个人不得实施下列行为：

（一）以电话、短信、即时通讯工具、电子邮件、传单等方式侵扰他人的私人生活安宁；

（二）进入、拍摄、窥视他人的住宅、宾馆房间等私密空间；

（三）拍摄、窥视、窃听、公开他人的私密活动；

（四）拍摄、窥视他人身体的私密部位；

（五）处理他人的私密信息；

（六）以其他方式侵害他人的隐私权。

二、非法获取公民个人信息要怎么处罚

非法获取公民个人信息的处罚措施如下：

1、向他人出售或者提供公民个人信息，情节严重的，处三年以下有期徒刑或者拘役，并处或者单处罚金。情节特别严重的，处三年以上七年以下有期徒刑，并处罚金。

2、将在履行职责或者提供服务过程中获得的公民个人信息，出售或者提供给他人的，依照前款的规定从重处罚。

3、窃取或者以其他方法非法获取公民个人信息的，依照第一款的规定处罚。

如果大量频繁爬取造成对方的计算机系统负载过高，影响对方的系统正常运行，这是违法了。

爬虫现在严打的，最危险的是设计个人用户隐私的数据。无论做什么目的，设计个人隐私的一定要避开。对于产品的价格走势的话，做数据分析还是可以做的。

因为你通过技术或者非技术手段获取到信息，这个信息是不是可能通过另一种形式获取到，如果也能，那我认为是没问题的。

而且爬虫只要是不遵守对方网站的robots协议，对方网站都保有起诉你的权力。

robots协议也叫robotstxt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。

因为一些系统中的URL是大小写敏感的，所以robotstxt的文件名应统一为小写。robotstxt应放置于网站的根目录下。

法律规定：

《刑法》第二百五十三条之一，侵犯公民个人信息罪。

《刑法》第二百八十五条其中三款。

非法侵入计算机信息系统罪（对国家事务、国防建设、尖端科学技术领域的计算机信息系统安全的特殊保护）。

非法获取计算机信息系统数据罪（侵入非上述几种特定领域的计算机信息系统获取数据）。

提供侵入、非法控制计算机信息系统的程序、工具罪。

《刑法》第二百八十六条破坏计算信息系统罪。

没有的事，如果是这样的话，百度，谷歌这些搜索引擎公司也是犯法的了。他们也是爬取别人的网站，获取信息，给用户用的。其实搜索引擎就是一种爬虫。

如果网站本身不做鉴别，网站会认为爬虫和一般的浏览器的行为是一样的。

网络爬虫涉及的法律问题可从信息层、策略层、数据层进行分析。在信息层，当抓取到具有著作权、个人信息等内容时，可能侵犯知识产权、人格权等法律法规；在策略层，当爬虫技术涉及突破、绕开反爬虫策略、协议时，可能犯有提供侵入非法控制计算机信息系统程序工具罪或破坏计算机信息系统罪；在数据层，当爬虫活动的关联行为涉及破解客户端、加密算法等，可能犯有非法获取计算机信息系统数据罪等。

一般爬虫界有一个默认协议《Robots协议》（也称为爬虫协议、机器人协议等），全称是“网络爬虫排除标准”（RobotsExclusionProtocol）。一般网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。是网络资源提供者与搜索引擎之间的道德约定。

《Robots协议》的实施主要依赖一个文件：

robotstxt，

网站会将该文件置于根目录下。举个例子，当爬虫访问一个网站（比如/xyz/robotstxt这个文件，如果爬虫找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

但正如上文所讲，该协议只是“道德约定”，并没有法律保障。也并不是遵循了这个协议就一定能避开一开始所讲的法律问题。

因此我建议使用爬虫以图商业目的的朋友首先要识别数据性质，是公开数据、半公开数据还是内部系统数据，对于内部系统数据，严格禁止侵入；爬取数据时避免获取个人信息、明确的著作权作品、商业秘密等；限定数据的应用场景，如遇涉及侵害他人的商业利益和竞争秩序的场景，要思之再三再做决策。

最后再谈谈如何避免踩雷。第一点，同业竞争者的数据最好不要爬，官司很容易上身；第二点，被公司定性为有商业价值的数据不要爬，有个案例是百度爬了美团的有价数据，结果被告得很惨；第三点，爬虫机器人千万别扰乱对方的正常运营，万一搞崩了别人的网站，后果很严重。

法律参考：

《刑法》第285条，非法获取计算机信息系统数据罪。最高处七年有期徒刑。

《刑法》第286条，破坏计算机信息系统罪。最高处五年以上。比如为了抓取数据，破解登陆密码，反编译APP。

《网络安全法》，倒卖隐私数据链条上的一环。你把抓取的数据倒卖给坏人，坏人拿数据做了坏事，你就是这其中一环。

法律分析：爬虫本身不违法，但是通过账号登录后获取它人信息本身就属于违法行为，因为本身这些数据就不对游客公开，单方面仅授权内部会员查看权和浏览权，但肯定没有给你赋有转发权。

法律依据：《中华人民共和国网络安全法》

第七条国家积极开展网络空间治理、网络技术研发和标准制定、打击网络违法犯罪等方面的国际交流与合作，推动构建和平、安全、开放、合作的网络空间，建立多边、民主、透明的网络治理体系。

第八条国家网信部门负责统筹协调网络安全工作和相关监督管理工作。国务院电信主管部门、公安部门和其他有关机关依照本法和有关法律、行政法规的规定，在各自职责范围内负责网络安全保护和监督管理工作。县级以上地方人民政府有关部门的网络安全保护和监督管理职责，按照国家有关规定确定。

在我没接触这一行时这个问题困扰了我很长时间，让我十分的不理解到底什么是爬虫，它难道是一种实体工具？，直到我学习python 深入分析了解以后才揭开了它神秘的面纱。

爬虫是什么呢？爬虫有简单的爬虫和复杂的爬虫。实际上简单的爬虫是一种脚本，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

脚本就是粗糙的，但往往非常实用的小程序（一般来说不会超过几千行，有时候也就几百几十行的代码构成）。举个简单的例子，你现在要从一个学生租房的网站上读取关于出租的学生公寓的信息。你一条一条去抄写肯定是不现实的。所以就要用爬虫。可以把一个信息类网站上几千条信息一次全部扒下来。百度，谷歌这类的搜索引擎你也可以认为是一种爬虫，只不过这类的技术十分的复杂，不是简单的脚本。

搜索引擎是如何工作的？其实就是通过网络爬虫技术，将互联网中数以百亿计的网页信息保存到本地，形成一个镜像文件，为整个搜索引擎提供数据支撑。

这样的技术首先就会涉及到一个十分重要并且人人关注的问题——是否违法？

仔细探究后总结出了如下观点：

1遵守 Robots 协议，但有没有 Robots 都不代表可以随便爬，

2限制你的爬虫行为，禁止近乎 DDOS 的请求频率，一旦造成服务器瘫痪，约等于网络攻击；

3对于明显反爬，或者正常情况不能到达的页面不能强行突破，否则是 Hacker 行为；

4审视清楚自己爬的内容，绝不能触碰法律的红线。

至此你应该明白，爬虫本身并不违法，而是要看你使用的方式和目的，还要看其商业用途。