综合
软件系统根据存储结构的分类
关于NoSQL,看过一张图,挺形象:“1970,We have no SQL”->“1980,Know SQL”->“2000,NoSQL”->“2005,Not only SQL”->“2015,No,SQL”。目前,一些新型数据库,同时具备了NoSQL的扩展性和关系型数据库的很多特性。
关系型和NoSQL数据库的选型。考虑几个指标,数据量、并发量、实时性、一致性要求、读写分布和类型、安全性、运维性等。根据这些指标,软件系统可分成几类。
- 管理型系统,如运营类系统,首选关系型。
- 大流量系统,如电商单品页的某个服务,后台选关系型,前台选内存型。
- 日志型系统,原始数据选列式,日志搜索选倒排索引。
- 搜索型系统,指站内搜索,非通用搜索,如商品搜索,后台选关系型,前台选倒排索引。
- 事务型系统,如库存、交易、记账,选关系型+缓存+一致性协议,或新型关系数据库。
- 离线计算,如大量数据分析,首选列式,关系型也可以。
- 实时计算,如实时监控,可以选时序数据库,或列式数据库。
NOSQL出现的历史原因
关系数据库经过几十年的发展后已经非常成熟,强大的 SQL 功能和 ACID 的属性,使得关系数据库广泛应用于各式各样的系统中,但这并不意味着关系数据库是完美的,关系数据库存在如下缺点。
- 关系数据库存储的是行记录,无法存储数据结构
- 以微博的关注关系为例,“我关注的人”是一个用户 ID 列表,使用关系数据库存储只能将列表拆成多行,然后再查询出来组装,无法直接存储一个列表。
- 关系数据库的 schema 扩展很不方便
- 关系数据库的表结构 schema 是强约束,操作不存在的列会报错,业务变化时扩充列也比较麻烦,需要执行 DDL(data definition language,如 CREATE、ALTER、DROP 等)语句修改,而且修改时可能会长时间锁表(例如,MySQL 可能将表锁住 1 个小时)。
- 关系数据库在大数据场景下 I/O 较高
- 如果对一些大量数据的表进行统计之类的运算,关系数据库的 I/O 会很高,因为即使只针对其中某一列进行运算,关系数据库也会将整行数据从存储设备读入内存。
- 关系数据库的全文搜索功能比较弱
- 关系数据库的全文搜索只能使用 like 进行整表扫描匹配,性能非常低,在互联网这种搜索复杂的场景下无法满足业务要求。
针对上述问题,分别诞生了不同的 NoSQL 解决方案,这些方案与关系数据库相比,在某些应用场景下表现更好。但世上没有免费的午餐,NoSQL 方案带来的优势,本质上是牺牲 ACID 中的某个或者某几个特性,因此我们不能盲目地迷信 NoSQL 是银弹,而应该将 NoSQL 作为 SQL 的一个有力补充,NoSQL != No SQL,而是 NoSQL = Not Only SQL。
常见的 NoSQL 方案分为 4 类。
- K-V 存储:解决关系数据库无法存储数据结构的问题,以 Redis 为代表。
- 文档数据库:解决关系数据库强 schema 约束的问题,以 MongoDB 为代表。
- 列式数据库:解决关系数据库大数据场景下的 I/O 问题,以 HBase 为代表。
- 全文搜索引擎:解决关系数据库的全文搜索性能问题,以 Elasticsearch 为代表。
PRO RTO
RPO(Recovery Point Objective)定义
RPO 是业务连续性和灾难恢复领域的一个关键指标,它代表恢复点目标。具体而言,RPO 是指企业在发生灾难或故障后,数据可以恢复到的时间点。例如,如果 RPO 是 1 小时,那么在灾难发生后,企业的数据最多丢失 1 小时内的数据更新。
RPO = 0 意味着在任何故障情况下,数据都不能有丢失。这要求数据必须实时或接近实时地进行备份或复制,以确保在发生故障时能够完整地恢复到故障发生前的状态。例如,在金融交易系统中,为了保证交易数据的完整性和准确性,往往要求 RPO = 0,因为任何一笔交易数据的丢失都可能导致严重的财务问题。
在存储系统中,同步复制技术会在主存储设备接收到写入请求并完成写入操作后,等待备份存储设备也完成相同数据的写入,才会向应用程序返回写入成功的信号。这样可以保证主备存储的数据在任何时刻都是完全一致的。
RTO(Recovery Time Objective)定义
RTO 是业务连续性和灾难恢复领域中的一个重要指标,代表恢复时间目标。它是指在发生灾难或故障后,信息系统或业务流程从停止运行到恢复运行所允许的最长时间。例如,若企业规定某关键业务系统的 RTO 为 4 小时,这意味着在该系统出现故障后,必须在 4 小时内恢复其运行,以将业务中断的影响控制在可接受的范围内。