CaiXinQiWorld 2019-12-21
2015 年和 2016 年,InfoQ 都做过大数据领域的技术盘点,我们可以看到当时 Hadoop 和 Spark 正值盛年,且在不断完善细节;流式处理逐渐成为趋势。今年,我被一系列融资新闻所震惊,所以整理了十个融资事件,这些融资的特殊之处在于这些企业均是建立在大数据”软件“之上。与其说 15、16 年是大数据发展之年,那么 19 年则是大数据黄金收割之年。我们也能从这些融资事件里看出 Spark、Flink 的强劲状态,以及 Hadoop 的岌岌可危之态。如果你有更多想法,欢迎留言讨论。
今年 1 月 8 日,阿里巴巴以 9000 万欧元的价格接管了总部位于柏林的创业公司 Data Artisans 。
Data Artisans 由开源流处理框架 Apache Flink 的创建者 Kostas Tzoumas 等于 2014 年创建,使用它为企业部署大规模的数据处理解决方案,以便他们能够即时响应数据,并做出更好,更快的业务决策。它的 dA 平台由 Apache Flink 和 dA 应用程序管理器组成,包括与容器编制、CI/CD、日志、指标和状态存储的即时集成,并为公司提供所有流处理应用程序的单一视图。包括 ING,Netflix 和 Uber 在内的全球公司使用 Data Artisans 的平台 Apache Flink 为大规模应用程序提供实时分析,机器学习,搜索和内容排名以及欺诈检测。
1 月 24 日,开源 Apache Kafka 项目背后的公司 Confluent 在官方博客宣布进行了 D 轮融资,价值约为 1.25 亿美元,公司总估值高达 25 亿美元。
Confluent 是最新的一家利用免费开源技术来提供服务、支持和管理工具并实现数千万美元营收的开源独角兽公司。Confluent 是在 Kafka 项目的基础上成立的,而 Kafka 是这家公司创始人在 2011 年担任 LinkedIn 工程师期间与几位同道一起研发的数据处理软件。
与帮助工程师和应用程序查询数据库的系统不同,Kafka 将所有业务数据放在持续流动的事件流中。每次用户登录设备或按下按钮,事件记录就会在几毫秒内流到相连的每个应用程序或数据库。这意味着拥有大量数据的企业,或者由于竞争原因而需要近乎实时反应的企业,能够通过 Kafka 大规模加快其应用程序的反应速度。
美国时间 2 月 5 日,由 Apache Spark 创始成员成立的人工智能初创公司 Databricks 宣布完成 E 轮融资,本轮融资由美国私人风投公司 Andreessen Horowitz 领投,微软、NEA、Battery Ventures 等跟投,融资金额达到 2.5 亿美元。该公司目前估值已经超过 27.5 亿美元!
Databricks 的知名早期项目 Apache Spark 起源于加州大学伯克利分校。虽然 Spark 仍然是 Databricks 的一个关键产品,但现在只是 Databricks 所做众多事情中的一小部分。Databricks 已将重点转向机器学习,它的机器学习开源项目 MLFlow 的下载量已经超过 100,000 次。
2 月 20 日,Redis Labs 宣布完成 6000 万美元 E 轮融资,由私募股权公司美国弗朗西斯科伙伴公司(Francisco Partners)领投。
Redis Labs 是一家初创公司,围绕 Redis 内存数据存储提供商业服务(其中 Redis 创始人和首席开发人员 Salvatore Sanfilippo 是员工之一)。该公司宣布已经筹集了由私募股权公司 Francisco Partners 领投的 6000 万美元 E 轮融资。
3 月 28 日,中国上海 Kyligence —— 由开源大数据 OLAP 项目 Apache Kylin 的核心团队创建的大数据创业公司,宣布完成 2500 万美元的 C 轮融资。本轮融资由著名科技对冲基金 Coatue Management 领投,原有股东红点创投中国基金、顺为资本和斯道资本等跟投。随着这轮融资的完成,Coatue 合伙人 Daniel Senft 先生也正式加入 Kyligence 董事会。同时,美国最大理财软件公司 Intuit 平台副总裁,前 eBay 平台副总裁 Debashis Saha 先生加入公司担任董事会顾问。
C 轮的成功融资进一步支持了 Kyligence 在 AI 增强数据分析市场的创新。未来,公司将持续在核心技术及产品研发上进行投资,让数据分析变得更简单、快速和高效,实现与其他云计算、大数据、商业智能供应商集成,为全球各地的客户提供灵活性。
8 月 7 日,CockroachDB 母公司 Cockroach Labs 刚刚获得了 5500 万美元的 C 轮融资。此轮融资由高度计资本 (Altimeter Capital)、老虎环球 (Tiger Global) 和现有投资者 GV 牵头,参与方包括基准投资( Benchmark)、指数风险投资(Index Ventures)、红点风险投资( Redpoint Ventures)、FirstMark 资本和 Work-Bench。
Cockroach Labs 联合创始人兼首席执行官 Spencer Kimball 表示:“为了与行业巨头竞争,公司正在建立一个现代化的数据库。CockroachDB 最初就被设计为是云原生数据库,从根本上说,这意味着它是分布式的,不仅是跨单个数据中心的节点,而且可以跨数据中心。”
美国时间 10 月 22 日,由 Apache Spark 创始成员成立的大数据初创公司 Databricks 宣布完成 4 亿美元 F 轮融资,本轮融资由美国私人风投公司 Andreessen Horowitz 领投,微软、Alkeon Capital Management、BlackRock 等跟投。本轮融资后,Databricks 最新估值高达 62 亿美元,与今年 2 月份完成 E 轮融资时的估值相比已经翻了不止一倍!除了大数据领域赫赫有名的开源项目 Spark,Databricks 在 2018 年 6 月、2019 年 4 月先后又开源了全流程机器学习平台 MLflow 和存储层 Delta Lake,均在业内引起热烈反响。在过去一年中,Databricks 的年度经常性收入(ARR)增长了 2.5 倍以上,在本轮融资前,Databricks 刚刚宣布其 2019 年第三季度营收达到 2 亿美元,而四年前他们几乎还没有任何收入。
10 月 29 日,Datameer 是一家总部位于旧金山、拥有 10 年历史的公司,它正在开发一个用于数据准备和分析生命周期管理的端到端平台,该公司今天宣布获得了由 ST Telemedia(STT)牵头的 4000 万美元融资。
Datameer 最初的解决方案是基于开源项目 Hadoop 的。Datameer 的联合创始人包括 Ajay Anand,曾是雅虎的云计算和 Hadoop 的产品经理。另外一位创始人是 Stefan Groschupf ,原 Lucene 开源分布式索引项目 Katta 的创始人。公司首席执行官 Christian Rodatus 表示,公司的最初使命是使 Hadoop 更易于为数据科学家、业务分析师等所使用。现在他们开始用云原生产品 DatameerX 重建原始产品,新产品将基于 Spark 而不是 Hadoop。Datameer 表示这项工作大约完成了三分之二。最新的这笔融资,会聘请更多的工程师推进新产品,也就是说这笔钱将用来摆脱他们的 Hadoop 根源。
另外国内同类型的星环科技在 10 月 24 日宣布获得 5 亿人民币的 D2 轮融资。
12 月 10 日,实时分析公司 Imply 宣布再次获得 3000 万美元融资。加上原始股权融资,公司的总资金达到 4530 万美元。融资将用于加速产品开发和公司的市场推广。
Imply 成立于 2015 年,专注于大规模事件流(event stream)的高性能数据分析。Imply 的共同创始人、CEO 杨仿今同时也是 Apache Druid 的核心开发者。Druid 是一个开源数据存储系统,旨在快速摄取大量的事件数据并提供低延迟查询。此前,杨仿今曾任 Metamarkets(被 Snapchat 收购)和 Cisco 的工程主管,毕业于加拿大滑铁卢大学计算机工程专业。
12 月 17 日,由 Ray 团队创建的 Anyscale 公司,在 A 轮融资中筹集了 2060 万美元,由 NEA,Intel Capital,蚂蚁金服等领投。
Anyscale 具有一定的信誉度,因为它是由加利福尼亚大学伯克利分校计算机科学教授 Ion Stoica 和 UC Berkeley 教授 Michael Jordan 共同创立。Stoica 也是 Databricks,Conviva 的共同创始人,同时也是 Apache Spark 的最初开发者之一。Anyscale 基于一个名为 Ray 的开源框架,该框架也是在 Stoica 共同领导的实验室中开发的。
Stoica 在接受采访时说,Ray 的出现意义重大,因为它旨在解决行业中一个日益严重的问题。一方面,开发人员正在编写越来越多的应用程序 (例如 AI 和 ML 驱动的应用程序),这些应用程序对数据处理的需求越来越强烈。根据 OpenAI 的数据,自 2012 年以来,最大的人工智能应用程序的计算量每 3 到 4 个月就翻一番——这是一个惊人的指数速度。另一方面,处理这些数据所需的底层硬件的能力正在下降。因此,应用程序开发人员被迫在数千个 CPU 和 GPU 核心上“分发”他们的应用程序,以使硬件能够满足他们的需求,从而减少处理工作量。这个过程是复杂和劳动密集型的。公司不得不雇佣专门的工程师来构建这个架构,将 AWS 或 Azure 云实例与 Spark 和 Kubernetes 等分发管理工具连接起来。