Page 1 of 1

个性化的解决方案,那么在短时间内自己创建一个机器人或找到

Posted: Tue Dec 17, 2024 5:13 am
by tanjimaju
网络抓取的缺点
不幸的是,网络抓取也有其缺点:

如果我们的需求需要非常现成的解决方案可能会超出我们的意愿或能力,
收集数据的机器人通常需要对所收集数据的正确性进行监控(特别是在信息获取的初始阶段)。机器人的初始版本可能无法涵盖所有​​情况,因此机器人迟早有可能会遇到无法正确处 马来西亚的号码 理的结构。监测主要适用于需要收集多天、数周、数月甚至数年数据的项目,
一些网站“不喜欢”被抓取并试图阻止可疑活动 - 这是创建网络抓取工具时最成问题的因素之一,但不断开发新的解决方案来绕过安全性。目前,使用代理服务器池是很常见的,因此可以在获取数据的过程中使用中间服务器,并且根据假设,这不应引起有价值数据所在服务器的怀疑。
网络抓取合法吗?
互联网上数据的高可用性创造了将其用于商业用途的诱惑。很容易看出,通过这种方式获得的数据可以用来创建各种比价网站。尽管此类数据广泛向公众开放,但其重复使用(通常用于商业目的)是否合法仍存在问题。

Image

出于内部或外部目的收集和处理从互联网下载的数据是否完全合法?在我们开始收集和存储数据之前,应考虑某些规定。尽管网络抓取似乎完全合法,但仍然存在一些法律风险。如果数据库受到特殊法律的保护,即数据库的所有者为了创建或获取数据库的内容而进行了大量投资(并且能够证明这一点),我们就无法获取该数据库的全部或重要部分。来自这样一个数据库的内容。然而,在开始自动数据收集之前,值得熟悉以下法律行为:

公共信息获取法
开放数据和公共部门信息再利用法
版权及相关权法
数据库保护法
刑法第三十三章
准备网络爬虫的整个项目可能会毫无意义,因为我们感兴趣的数据可能在某个地方可用,例如在Dane.gov.pl和Danepubliczne.imgw.pl等政府网站上。

另一个问题是法规,每个网站都有各自的规定。例如,opineo.pl网站的规定明确规定,Opineo禁止使用允许自动下载和聚合网站内容的自动化IT解决方案。该法规还禁止使用机器人和其他类似解决方案破坏网站的稳定性。此时,值得顺利转移到如何不让自己接触服务以及如何以不会对其操作产生负面影响的方式获取数据的主题。

网络抓取有害吗?
不幸的是,网络抓取被认为是有害的。为了不损害存储数据的服务器,值得遵循几个重要规则:

机器人应遵循robots.txt文件中包含的规则- 在该文件中,网站创建者可以指定机器人不应下载哪些资源。还值得尊重Crawl-delay指令,该指令的值决定了我们在给定时间单位内可以执行的最大查询数量 - 超过此值通常会导致服务器响应通知查询过多(响应代码 429) ,即请求过多)。
如果网站提供了API,那么使用这种获取数据的方式肯定是更好的,这样对服务器的负载比我们下载整个HTML结构时要少得多。在某些情况下,API 提供的功能可能比网站界面向用户提供的功能更多(例如下载更多产品)。
最好在服务器负载最少的时间进行抓取 - 通常是在晚上。此时服务器将为更少的真实用户提供服务。
不要使用超出常识的资源——如果部分资源是从CDN服务器下载的,那么破坏网站的风险就会低得多。
服务器现在效率更高,并且拥有更多 RAM 和处理器能力等资源,但维护 HTTP(S) 连接仍然是一个很好的做法,因为建立连接本身需要相对较长的时间。维护用于下载许多不同资源的连接是首选选项,因为这样可以更快地下载资源。
仅获取公开信息,不处理个人数据。有关此主题的更多信息可以在上面列出的法律行为中找到。
想要了解更多技术问题的人应该会对本文的其余部分感兴趣。