2.04 亿封电子邮件、174 万张 Instagram 照片、420 万个 Facebook 点赞、20 万张 Facebook 照片、347,222 条推文和 300 小时的 Youtube 视频上传是社交平台每分钟产生的数据。更多的数据来自其他主要来源,例如来自物联网设备的机器数据和来自业务交易的交易数据。以结构化、半结构化和非结构化形式实时处理此类数据需要强大的系统和框架。
Spark 和 Hadoop 等流行框架被开发用于处理海量数据集,拥有Hadoop 认证等资质的专业人员更有机会被招聘来处理这些系统。
Hadoop 在大数据中的重要性
内容[显示]
传统数据库管理系统只有在处理较小的 澳洲华人华侨数据 数据集时才有效。大数据出现后,它们的处理能力变得有限,容量也太小。由于有太多应用程序生成数据,企业无法从中获取见解、发现隐藏模式并做出重要决策,因此需要一个能够以不同形式存储数据并根据需要进行处理的系统。
Hadoop 对于通过其三个主要 V(即容量、种类和速度)以多种方式处理大数据非常重要。
可扩展性。Hadoop 是一个分布式框架,因此可以根据需求快速轻松地进行扩展。它能够存储和处理大量数据,这些数据大多来自社交网络和物联网设备。
高计算能力。HDFS 与 MapReduce 模型相结合,可实现快速实时分析,从而获得更好的见解和决策。只需添加计算机节点即可提高处理能力。
适应多样性。Hadoop 的存储可以容纳结构化(例如数字、日期和地址)、半结构化(例如 JSON 和 XML 文件)和非结构化(例如文档、音频和视频)格式的数据。存储很简单,无需更改数据以适应任何预定义的模式,并且可以从同一数据集中提取一系列见解。
容错性。在 Hadoop 中,存储在节点中的数据会复制到其他节点,这样如果某个节点发生故障,数据可以在集群中的其他节点上进行处理。这可以保护数据和进程免受硬件故障和其他系统问题的影响,从而实现容错性。
经济高效。Hadoop 是一个开源框架,因此可供用户免费使用。它还使用低成本的商品服务器,这意味着用户在采用 Hadoop 时不会产生高昂的初始成本。