有一个简单的方法可以查看它。即使多年来硬盘驱动器的存储容量大幅提高,访问速度(从驱动器读取数据的速率)仍然与以前相同。 例如,在 90 年代,特定驱动器可以存储 1,370 MB 数据,传输速率为 4.4MB/s。因此,人们可以在大约五分钟内读取该驱动器中的所有数据。在 2010 年代,一个典型的驱动器可以存储 1 TB 的数据,传输速率约为 100 MB/s HDFS 解释 第一个问题是 –硬件故障率很高(由于数据存储在唯一的单个设备中,因此设备的硬件发生故障的机会 富人人数数据 相当高)。避免数据丢失的常见方法是对系统中的数据进行备份。这样,在发生故障时,还有另一个可用的数据副本。这就的工作原理,但 分布式文件系统)采用了略有不同的方法。 Map-Reduce编程模型 第二个问题是大多数分析技术需要能够以某种方式组合数据。例如,磁盘 1 中的数据可能需要与磁盘 4 上的数据组合,而 散装铅 磁盘 4 上的数据又可能需要与磁盘 9 和 12 上的数据结合使用。在分析过程中动态组合来自不同磁盘的数据可能是一项具有挑战性的任务Map-Reduce 提供了一种编程模型,可以轻松组合来自所有驱动器的数据。