本文共 1223 字,大约阅读时间需要 4 分钟。
核心技术:存储与处理
特点:数据量大,数据类型繁多,处理速度快,价值密度低(4V)
计算模式:
Iaas(infrastructure as a serive)
Paas Saas万物互联
如何存储:分布式文件系统
如何处理:分布式计算分布式系统=分布式硬件+分布式控制+分布式数据
分布式系统目标
分布式系统要解决的问题
分布式系统基本准则
分布式存储系统
分布式计算系统
分布式管理系统
web搜索
大型多人在线游戏 金融交易是Apache软件基金会旗下的
核心是分布式文件系统HDFS和MapReduce
特性
一个能够对大量数据进行分布式系统处理的软件框架写数据(forward)
读数据
容错过程
node故障
datanodenamenode
网络故障
脏故障
系统故障之后数据恢复和容错处理
4. 多份复制并且分布到物理位置的不同服务器 5. 数据校验功能 6. 心跳包故障类型
HDFS数据读写过程
https://blog.csdn.net/qq_38377523/article/details/83302654?utm_source=app&app_version=4.5.5
package结构与定义web搜索的简单模型:crawler和indexer
web检索方式
map:从web page到local index的部分当作是map阶段
reduce:从local index 汇聚到global index阶段
MapReduce的核心就是把复杂的分布式MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商品机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。
加快查找
计算密集
I/O密集 数据密集