
存储大文件。上G、T甚至P。
一次写入,多次读取。并且每次作业都要读取大部分的数据。
搭建在普通商业机群上就可以了。虽然会经常宕机,但HDFS有良好的容错机制。
HDFS不适合做:
实时数据获取。如果有这个需求可以用HBase。
很多小文件。因为namenode要存储HDFS的metadata(比如目录的树状结构,每个文件的文件名、ACL、长度、owner、文件内容存放的位置等等信息),所以HDFS上文件的数目受到namenode内存的限制。

存储大文件。上G、T甚至P。
一次写入,多次读取。并且每次作业都要读取大部分的数据。
搭建在普通商业机群上就可以了。虽然会经常宕机,但HDFS有良好的容错机制。
HDFS不适合做:
实时数据获取。如果有这个需求可以用HBase。
很多小文件。因为namenode要存储HDFS的metadata(比如目录的树状结构,每个文件的文件名、ACL、长度、owner、文件内容存放的位置等等信息),所以HDFS上文件的数目受到namenode内存的限制。