跳到主要内容

ClickHouse

Clickhouse是Yandex开源的一个用于实时数据分析的数据库,一开始就用在yandex内部的多个数据分析业务上。要介绍clickhouse,还是需要先介绍一下yandex。Clickhouse为什么会出现,其实和yandex的业务关系非常大。Yandex是俄罗斯最大的搜索引擎,会有很多数据分析的业务,其中数据量最大的业务,就是Yandex.Metrica,这是一个和百度统计类似的网站数据分析服务,数据量也仅次于google analysis。自从Clickhouse开源后,在国内外的很多公司的线上业务都已经开始使用。

概述

Clickhouse是极其适合OLAP(联机分析处理)问题的一个数据库。这类问题有如下一些特点:

  • 请求以读为主,数据添加、更新一般以批量的形式进行;
  • 表可以很宽,但是实际查询时只会用到有限的几列;
  • 列值较小,一般是数字或者短字符串;
  • 查询结果集的大小显著小于源数据;
  • 事务处理需求较弱