开源Apache Kafka是一项高效的大数据策略中日益重要的核心部分,本文解释了个中原委。

【51CTO.com快译】开源Apache Kafka是一项高效的大数据战略中日益重要的中心部分,本文解说了个中原委。

Apache Kafka怎么让流数据进入干流(kafka实时流处理)  流数据 Kafka 第1张

Apache Kafka是源自大数据潮流的最激动人心的开源项目之一。Kafka开始起源于领英(LinkedIn),现在是广泛的开源开发社区中日益干流的一部分。实践上,Kafka已进入到了关键时刻,因为它被用作一种办理企业安排流数据的中心渠道,包含:金融服务业的物联网操作、诈骗和安全,零售业的商铺库存盯梢以及其他职业的运用场合。

Kafka这个比方表明晰领英怎么成为护卫内部代码进入到充满活力的开源社区方面的一个模范。

内哈·纳克赫德(Neha Narkhede)是Confluent的联合创始人兼***技术官,他之前是领英数据流基础设施的负责人,近来承受了TechRepublic的采访,畅谈了企业选用Kafka的状况以及办理流数据的***办法。

TechRepublic:Apache Kafka是怎么进入企业干流环境的?

纳克赫德:据Kafka社区最近展开的一项查询显现,68%的Kafka用户计划在未来6个月至12个月整合更多的数据流处理技术;因为运用Kafka的运用程序数量越来越多,承受查询的企业安排中65%计划在未来12个月招聘具有Kafka技术的职工。

在最近的Kafka峰会上,咱们听到优步、网飞、Dropbox、HomeAway、高盛及更多的公司都在运用Kafka,实时做出事务决议计划。

比方说,优步完善了其数据流处理体系,以便处理优步商场(Uber Marketplace)中的许多运用场景,而Kafka在构建一条牢靠、高效的数据管道方面扮演了重要人物。最广为人知的比方之一便是动态定价战略(surge pricing)。想象一下:获取一切数据来实时进行定价:从用户需求到路面上车辆的数量,做出决议:每一分钟的价格应该是多少。

这个典例表明晰实时数据管道的实践运用。

HomeAway是另一个典例。作为休假租借职业的***,它有100多万个房源(并且在不断增多)。凭借Kafka,HomeAway衔接不同的数据源,能够支撑很多的运用场景,包含服务等级协议(SLA)监控、A/B测验、访客细分、诈骗检测、实时ETL及更多。

Confluent是我脱离领英后与别人兴办的公司,它专心于凭借Confluent渠道来扩展Apache Kafka,以满意需求大规划办理数据、并且重视速度的企业的要求。这包含下列东西:Kafka Streams、Kafka Connect以及Control Center,然后供给了一种新的可见性,以便了解大规划的Kafka集群,并保证运营正常。

TechRepublic:在什么状况下,Kafka肯定是最适合的一种结构?哪种运用场合?

纳克赫德:Kafka最常见的运用场合是用于实时数据传输、集成和实时数据流处理。

至于数据传输和集成,用户运用Kafka Connect将数据衔接到运用程序,那样一切体系都能够拜访***的数据。这包含这些数据:日志数据、数据库改变、传感器及设备的数据、监控数据流、呼叫中心记载和股票行情录入器数据。

至于实时数据流处理,Kafka Streams是Kafka中心的扩展部分,它让运用程序开发人员能够编写继续查询、转化、事情触发的警报和相似功用,并不需求一种专门的数据流处理结构。这些功用常常用于安全监控、实时操作(比方优步)和异步运用(比方零售商的库存查看)。

TechRepublic:运转这些类型的实时数据管道时,数据局部性有多重要?我大致传闻的是,假如在DC/OS上运转,Kafka就能在Kafka和Cassandra之间本地读取数据。有鉴于职业正在向Mesosphere DC/OS完成的笼统跨进,你会怎么描绘在同一集群上运转互补结构的时机?

纳克赫德:在数据中心规划下办理服务带来了许多优化时机,假如你单个办理每项服务极难取得这样的时机。尽管能够把相关服务放在同一个当地是显着的优点,可是在有些状况下这并不合理;相反,你需求的是能够为有状况的运用程序分配专用资源,以便阻隔。后者正是你在布置有状况的运用程序(比方Kafka和Cassandra)时需求的,而Mesos已增添了表明满意这类高档布置需求的功用,办理大规划有状况的运用程序需求这种功用。

咱们保证在需求的场合下,Mesos布置Confluent渠道坚持了数据局部性。 咱们的组件:Kafka REST Proxy和Schema Registry实践上是无状况的,能够在那些类型的结构中运转,而像Kafka署理这些有状况的服务能够以不同的方法来办理。可是整个Confluent渠道需求这两种类型的服务。经过支撑完好渠道,它能够为客户带来更大的灵活性。

TechRepublic:Mesosphere DC/OS的两级调度程序有何重要性?为何它就有才能招引协作伙伴/生态体系的支撑(比方来自Confluent/DataStax集体)?

纳克赫德:不同的服务在集群资源和布置方面有不同的需求。两级调度程序能够满意有状况的运用程序(比方Kafka)的布置要求,那种场合下需求针对数据局部性进行优化,然后尽可能地节约网络和输入/输出带宽。这为客户供给了一种好的操作体会,又不献身Kafka供给的功能。

原文标题:How Apache Kafka takes streaming data mainstream,作者:Matt Asay

【51CTO译稿,协作站点转载请注明原文译者和出处为51CTO.com】

转载请说明出处
知优网 » Apache Kafka怎么让流数据进入干流(kafka实时流处理)

发表评论

您需要后才能发表评论