Ceph

发表于2017年2月28日由kaisin

原文：https://www.ustack.com/blog/build-block-storage-service/

打造高性能高可靠块存储系统

分布式存储有出色的性能，可以扛很多故障，能够轻松扩展，所以我们UnitedStack使用Ceph构建了高性能、高可靠的块存储系统，并使用它支撑UnitedStack公有云和托管云的云主机、云硬盘服务。

由于使用分布式块存储系统，避免了复制镜像的过程，所以云主机的创建时间可以缩短到10秒以内，而且云主机还能快速热迁移，方便了运维人员对物理服务器上硬件和软件的维护。

用户对于块存储系统最直观的感受来源于云硬盘服务，现在我们的云硬盘的特点是：

每个云硬盘最大支持 6000 IOPS和170 MB/s的吞吐率，95%的4K随机写操作的延迟小于2ms 。
所有数据都是三副本，强一致性，持久性高达10个9。
创建、删除、挂载、卸载都是秒级操作。
实时快照。
提供两种云硬盘类型，性能型和容量型。

软硬件配置

经过多轮的选型和测试，并踩过无数的坑之后，我们选择了合适我们的软件和硬件。

软件

点击查看原图

硬件

从SATA磁盘到SSD，为了提高IOPS和降低Latency。
从消费级SSD到企业级SSD，为了提高可靠性。
从RAID卡到HBA卡，为了提高IOPS和降低Latency。

最小部署架构

随着软硬件的升级，需求的调整，我们的部署架构也不断在演进，力求在成本、性能、可靠性上达到最佳平衡点。

点击查看原图

最小规模部署中有12个节点，每个节点上有3块SSD。节点上有2个万兆口和1个千兆口，虚拟机网络和存储网络使用万兆口，管理网络使用千兆口。每个集群中都有3个Ceph Monitor节点。

轻松扩展

云计算的好处是极强的扩展性，作为云计算的底层架构，也需要有快速的Scale-out能力。在块存储系统的部署架构中，可以以12台节点为单位进行扩展。

点击查看原图

改造OpenStack

原生的OpenStack并不支持统一存储，云主机服务Nova、镜像服务Glance、云硬盘服务Cinder的后端存储各不相同，造成了严重的内耗。我们把这三大服务的后端统一起来，进行高效管理，解决了虚拟机创建时间长和镜像风暴等问题，还能让虚拟机随便漂移。

原生的OpenStack

点击查看原图

改造后的OpenStack

点击查看原图

使用原生的OpenStack创建虚拟机需要1~3分钟，而使用改造后的OpenStack仅需要不到10秒钟时间。这是因为nova-compute不再需要通过HTTP下载整个镜像，虚拟机可以通过直接读取Ceph中的镜像数据进行启动。

我们还增加两个OpenStack没有的功能: QoS 和共享云硬盘。云计算的另外一个好处是租户资源隔离，所以必备QoS。共享云硬盘可以挂载给多台云主机，适用于数据处理的场景。

我们还使用了OpenStack的multi-backend功能，支持多种云硬盘类型，现在我们的云硬盘类型有性能型、容量型，可以满足数据库和大文件应用。

此条目发表在storage分类目录，贴了ceph标签。将固定链接加入收藏夹。