这5种必知的大数据处理结构技能，你的项目应该运用哪种？（大数据处理数据时的数据结构有那种数据结构）-大数据-知优网

本文将介绍大数据系统一个最基本的组件：处理框架。处理框架负责对系统中的数据进行计算，例如处理从非易失存储中读取的数据，或处理刚刚摄入到系统中的数据。数据的计算则是指从大量单一数据点中提取信息和见解的过程。

本文将介绍大数据体系一个最根本的组件：处理结构。处理结构担任对体系中的数据进行核算，例如处理从非易失存储中读取的数据，或处理刚刚摄入到体系中的数据。数据的核算则是指从许多单一数据点中提取信息和见地的进程。

下文将介绍这些结构：

仅批处理结构：

Apache Hadoop

仅流处理结构：

Apache Storm

Apache Samza

混合结构：

Apache Spark

Apache Flink

大数据处理结构是什么?

处理结构和处理引擎担任对数据体系中的数据进行核算。尽管“引擎”和“结构”之间的差异没有什么威望的界说，但大部分时分能够将前者界说为实践担任处理数据操作的组件，后者则可界说为承当相似效果的一系列组件。

例如Apache Hadoop能够看作一种以MapReduce作为默许处理引擎的处理结构。引擎和结构一般能够彼此替换或一起运用。例如另一个结构Apache Spark能够归入Hadoop并替代MapReduce。组件之间的这种互操作性是大数据体系灵敏性如此之高的原因之一。

尽管担任处理生命周期内这一阶段数据的体系一般都很杂乱，但从广义层面来看它们的方针是十分共同的：经过对数据履行操作进步了解才能，提醒出数据包含的办法，并针对杂乱互动取得见地。

为了简化这些组件的评论，咱们会经过不同处理结构的规划意图，依照所处理的数据状况对其进行分类。一些体系能够用批处理办法处理数据，一些体系能够用流办法处理接二连三流入体系的数据。此外还有一些体系能够一起处理这两类数据。

在深化介绍不同完结的目标和定论之前，首要需求对不同处理类型的概念进行一个简略的介绍。

批处理体系

批处理在大数据国际有着悠长的前史。批处理首要操作大容量静态数据集，并在核算进程完结后回来成果。

批处理办法中运用的数据集一般契合下列特征...

有界：批处理数据集代表数据的有限调集

耐久：数据一般一直存储在某种类型的耐久存储方位中

许多：批处理操作一般是处理极为海量数据集的仅有办法

批处理十分合适需求拜访全套记载才干完结的核算作业。例如在核算总数和平均数时，有必要将数据集作为一个全体加以处理，而不能将其视作多条记载的调集。这些操作要求在核算进行进程中数据保持自己的状况。

需求处理许多数据的使命一般最合适用批处理操作进行处理。不管直接从耐久存储设备处理数据集，或首要将数据集载入内存，批处理体系在规划进程中就充分考虑了数据的量，可供给足够的处理资源。因为批处理在应对许多耐久数据方面的体现极为超卓，因而经常被用于对前史数据进行剖析。

许多数据的处理需求支付许多时刻，因而批处理不合适对处理时刻要求较高的场合。

Apache Hadoop

Apache Hadoop是一种专用于批处理的处理结构。Hadoop是***在开源社区取得极大注重的大数据结构。根据谷歌有关海量数据处理所宣布的多篇论文与经历的Hadoop从头完结了相关算法和组件仓库，让大规模批处理技能变得更易用。

新版Hadoop包含多个组件，即多个层，经过合作运用可处理批数据：

HDFS：HDFS是一种分布式文件体系层，可对集群节点间的存储和仿制进行和谐。HDFS确保了无法防止的节点毛病发生后数据仍然可用，可将其用作数据来历，可用于存储中心态的处理成果，并可存储核算的终究成果。

YARN：YARN是Yet Another Resource Negotiator(另一个资源办理器)的缩写，可充任Hadoop仓库的集群和谐组件。该组件担任和谐并办理底层资源和调度作业的运转。经过充任集群资源的接口，YARN使得用户能在Hadoop集群中运用比以往的迭代办法运转更多类型的作业负载。

MapReduce：MapReduce是Hadoop的原生批处理引擎。

批处理办法

Hadoop的处理功用来自MapReduce引擎。MapReduce的处理技能契合运用键值对的map、shuffle、reduce算法要求。根本处理进程包含：

从HDFS文件体系读取数据集

将数据集拆分红小块并分配给全部可用节点

针对每个节点上的数据子集进行核算(核算的中心态成果会从头写入HDFS)

从头分配中心态成果并依照键进行分组

经过对每个节点核算的成果进行汇总和组合对每个键的值进行“Reducing”

将核算而来的终究成果从头写入 HDFS

优势和约束

因为这种办法严峻依靠耐久存储，每个使命需求屡次履行读取和写入操作，因而速度相对较慢。但另一方面因为磁盘空间一般是服务器上最丰厚的资源，这意味着MapReduce能够处理十分海量的数据集。一起也意味着比较其他相似技能，Hadoop的MapReduce一般能够在廉价硬件上运转，因为该技能并不需求将全部都存储在内存中。MapReduce具有极高的缩放潜力，出产环境中从前呈现过包含数万个节点的运用。

MapReduce的学习曲线较为峻峭，尽管Hadoop生态体系的其他周边技能能够大幅下降这一问题的影响，但经过Hadoop集群快速完结某些运用时仍然需求留意这个问题。

环绕Hadoop现已形成了广阔的生态体系，Hadoop集群本身也经常被用作其他软件的组成部件。许多其他处理结构和引擎经过与Hadoop集成也能够运用HDFS和YARN资源办理器。

总结

Apache Hadoop及其MapReduce处理引擎供给了一套久经考验的批处理模型，最合适处理对时刻要求不高的十分大规模数据集。经过十分低本钱的组件即可树立完好功用的Hadoop集群，使得这一廉价且高效的处理技能能够灵敏运用在许多事例中。与其他结构和引擎的兼容与集成才能使得Hadoop能够成为运用不同技能的多种作业负载处理渠道的底层根底。

流处理体系

流处理体系会对随时进入体系的数据进行核算。比较批处理办法，这是一种天壤之别的处理办法。流处理办法无需针对整个数据集履行操作，而是对经过体系传输的每个数据项履行操作。

流处理中的数据集是“无鸿沟”的，这就发生了几个重要的影响：

完好数据集只能代表到现在现已进入到体系中的数据总量。

作业数据集或许更相关，在特定时刻只能代表某个单一数据项。

处理作业是根据事情的，除非清晰中止不然没有“止境”。处理成果马上可用，并会跟着新数据的抵达继续更新。

流处理体系能够处理简直***量的数据，但同一时刻只能处理一条(真实的流处理)或很少数(微批处理，Micro-batch Processing)数据，不同记载间只保持最少数的状况。尽管大部分体系供给了用于保持某些状况的办法，但流处理首要针对副效果更少，愈加功用性的处理(Functional processing)进行优化。

功用性操作首要侧重于状况或副效果有限的离散进程。针对同一个数据履行同一个操作会或略其他要素发生相同的成果，此类处理十分合适流处理，因为不同项的状况一般是某些困难、约束，以及某些状况下不需求的成果的结合体。因而尽管某些类型的状况办理一般是可行的，但这些结构一般在不具有状况办理机制时更简略也更高效。

此类处理十分合适某些类型的作业负载。有近实时处理需求的使命很合适运用流处理办法。剖析、服务器或运用程序过错日志，以及其他根据时刻的衡量目标是最合适的类型，因为对这些范畴的数据改变做出呼应关于事务功用来说是极为要害的。流处理很合适用来处理有必要对改变或峰值做出呼应，而且注重一段时刻内改变趋势的数据。

Apache Storm

Apache Storm是一种侧重于极低推迟的流处理结构，或许是要求近实时处理的作业负载的***挑选。该技能可处理十分许多的数据，经过比其他解决计划更低的推迟供给成果。

流处理办法

Storm的流处理可对结构中名为Topology(拓扑)的DAG(Directed Acyclic Graph，有向无环图)进行编列。这些拓扑描绘了当数据片段进入体系后，需求对每个传入的片段履行的不同转化或进程。

拓扑包含：

Stream：一般的数据流，这是一种会继续抵达体系的无鸿沟数据。

Spout：坐落拓扑边际的数据流来历，例如能够是API或查询等，从这儿能够发生待处理的数据。

Bolt：Bolt代表需求耗费流数据，对其运用操作，并将成果以流的办法进行输出的处理进程。Bolt需求与每个Spout树立衔接，随后彼此衔接以组成全部必要的处理。在拓扑的尾部，能够运用终究的Bolt输出作为彼此衔接的其他体系的输入。

Storm背面的主意是运用上述组件界说许多小型的离散操作，随后将多个组件组成所需拓扑。默许状况下Storm供给了“至少一次”的处理确保，这意味着能够确保每条音讯至少能够被处理一次，但某些状况下假如遇到失利或许会处理屡次。Storm无法确保能够依照特定次序处理音讯。

为了完结严厉的一次处理，即有状况处理，能够运用一种名为Trident的笼统。严厉来说不运用Trident的Storm一般可称之为Core Storm。Trident会对Storm的处理才能发生极大影响，会添加推迟，为处理供给状况，运用微批办法替代逐项处理的朴实流处理办法。

为防止这些问题，一般主张Storm用户尽或许运用Core Storm。但是也要留意，Trident对内容严厉的一次处理确保在某些状况下也比较有用，例如体系无法智能地处理重复音讯时。假如需求在项之间保持状况，例如想要核算一个小时内有多少用户点击了某个链接，此刻Trident将是你仅有的挑选。尽管不能充分发挥结构与生俱来的优势，但Trident进步了Storm的灵敏性。

Trident拓扑包含：

流批(Stream batch)：这是指流数据的微批，可经过分块供给批处理语义。

操作(Operation)：是指能够对数据履行的批处理进程。

优势和约束

现在来说Storm或许是近实时处理范畴的***解决计划。该技能能够用极低推迟处理数据，可用于期望取得***推迟的作业负载。假如处理速度直接影响用户体会，例如需求将处理成果直接供给给访客翻开的网站页面，此刻Storm将会是一个很好的挑选。

Storm与Trident合作使得用户能够用微批替代朴实的流处理。尽管借此用户能够取得更大灵敏性打造更契合要求的东西，但一起这种做法会削弱该技能比较其他解决计划***的优势。话虽如此，但多一种流处理办法总是好的。

Core Storm无法确保音讯的处理次序。Core Storm为音讯供给了“至少一次”的处理确保，这意味着能够确保每条音讯都能被处理，但也或许发生重复。Trident供给了严厉的一次处理确保，能够在不同批之间供给次序处理，但无法在一个批内部完结次序处理。

在互操作性方面，Storm可与Hadoop的YARN资源办理器进行集成，因而能够很便利地融入现有Hadoop布置。除了支撑大部分处理结构，Storm还可支撑多种言语，为用户的拓扑界说供给了更多挑选。

总结

关于推迟需求很高的朴实的流处理作业负载，Storm或许是最合适的技能。该技能能够确保每条音讯都被处理，可合作多种编程言语运用。因为Storm无法进行批处理，假如需求这些才能或许还需求运用其他软件。假如对严厉的一次处理确保有比较高的要求，此刻可考虑运用Trident。不过这种状况下其他流处理结构或许更合适。

Apache Samza

Apache Samza是一种与Apache Kafka音讯体系严密绑定的流处理结构。尽管Kafka可用于许多流处理体系，但依照规划，Samza能够更好地发挥Kafka共同的架构优势和确保。该技能可经过Kafka供给容错、缓冲，以及状况存储。

Samza可运用YARN作为资源办理器。这意味着默许状况下需求具有Hadoop集群(至少具有HDFS和YARN)，但一起也意味着Samza能够直接运用YARN丰厚的内建功用。

流处理办法

Samza依靠Kafka的语义界说流的处理办法。Kafka在处理数据时触及下列概念：

Topic(论题)：进入Kafka体系的每个数据流可称之为一个论题。论题根本上是一种可供耗费方订阅的，由相关信息组成的数据流。

Partition(分区)：为了将一个论题涣散至多个节点，Kafka会将传入的音讯区分为多个分区。分区的区分将根据键(Key)进行，这样能够确保包含同一个键的每条音讯能够区分至同一个分区。分区的次序可取得确保。

Broker(署理)：组成Kafka集群的每个节点也叫做署理。

Producer(生成方)：任何向Kafka论题写入数据的组件能够叫做生成方。生成方可供给将论题区分为分区所需的键。

Consumer(耗费方)：任何从Kafka读取论题的组件可叫做耗费方。耗费方需求担任保持有关自己分支的信息，这样即可在失利后知道哪些记载现已被处理过了。

因为Kafka相当于永恒不变的日志，Samza也需求处理永恒不变的数据流。这意味着任何转化创立的新数据流都可被其他组件所运用，而不会对开端的数据流发生影响。

优势和约束

乍看之下，Samza对Kafka类查询体系的依靠似乎是一种约束，但是这也能够为体系供给一些共同的确保和功用，这些内容也是其他流处理体系不具有的。

例如Kafka现已供给了能够经过低推迟办法拜访的数据存储副本，此外还能够为每个数据分区供给十分易用且低本钱的多订阅者模型。全部输出内容，包含中心态的成果都可写入到Kafka，并可被下流进程独立运用。

这种对Kafka的严密依靠在许多方面相似于MapReduce引擎对HDFS的依靠。尽管在批处理的每个核算之间对HDFS的依靠导致了一些严峻的功用问题，但也防止了流处理遇到的许多其他问题。

Samza与Kafka之间严密的联系使得处理进程本身能够十分松散地耦合在一起。无需事前和谐，即可在输出的任何进程中添加恣意数量的订阅者，关于有多个团队需求拜访相似数据的安排，这一特性十分有用。多个团队能够悉数订阅进入体系的数据论题，或恣意订阅其他团队对数据进行过某些处理后创立的论题。这全部并不会对数据库等负载密集型根底架构形成额定的压力。

直接写入Kafka还可防止回压(Backpressure)问题。回压是指当负载峰值导致数据流入速度超越组件实时处理才能的状况，这种状况或许导致处理作业中止并或许丢掉数据。依照规划，Kafka能够将数据保存很长时刻，这意味着组件能够在便利的时分继续进行处理，并可直接重启动而无需忧虑形成任何成果。

Samza能够运用以本地键值存储办法完结的容错检查点体系存储数据。这样Samza即可取得“至少一次”的交给确保，但面临因为数据或许屡次交给形成的失利，该技能无法对汇总后状况(例如计数)供给准确康复。

Samza供给的高档笼统使其在许多方面比Storm等体系供给的基元(Primitive)更易于合作运用。现在Samza只支撑JVM言语，这意味着它在言语支撑方面不如Storm灵敏。

总结

关于现已具有或易于完结Hadoop和Kafka的环境，Apache Samza是流处理作业负载一个很好的挑选。Samza本身很合适有多个团队需求运用(但彼此之间并不必定严密和谐)不同处理阶段的多个数据流的安排。Samza可大幅简化许多流处理作业，可完结低推迟的功用。假如布置需求与当时体系不兼容，或许并不合适运用，但假如需求极低推迟的处理，或对严厉的一次处理语义有较高需求，此刻仍然合适考虑。

混合处理体系：批处理和流处理

一些处理结构可一起处理批处理和流处理作业负载。这些结构能够用相同或相关的组件和API处理两种类型的数据，借此让不同的处理需求得以简化。

如你所见，这一特性首要是由Spark和Flink完结的，下文将介绍这两种结构。完结这样的功用要点在于两种不同处理办法怎么进行一致，以及要对固定和不固定数据集之间的联系进行何种假定。

尽管侧重于某一种处理类型的项目会更好地满意详细用例的要求，但混合结构意在供给一种数据处理的通用解决计划。这种结构不只能够供给处理数据所需的办法，而且供给了自己的集成项、库、东西，可担任图形剖析、机器学习、交互式查询等多种使命。

Apache Spark

Apache Spark是一种包含流处理才能的下一代批处理结构。与Hadoop的MapReduce引擎根据各种相同准则开发而来的Spark首要侧重于经过完善的内存核算和处理优化机制加速批处理作业负载的运转速度。

Spark可作为独立集群布置(需求相应存储层的合作)，或可与Hadoop集成并替代MapReduce引擎。

批处理办法

与MapReduce不同，Spark的数据处理作业悉数在内存中进行，只在一开端将数据读入内存，以及将终究成果耐久存储时需求与存储层交互。全部中心态的处理成果均存储在内存中。

尽管内存中处理办法可大幅改进功用，Spark在处理与磁盘有关的使命时速度也有很大进步，因为经过提早对整个使命集进行剖析能够完结更完善的全体式优化。为此Spark可创立代表所需履行的悉数操作，需求操作的数据，以及操作和数据之间联系的Directed Acyclic Graph(有向无环图)，即DAG，借此处理器能够对使命进行更智能的和谐。

为了完结内存中批核算，Spark会运用一种名为Resilient Distributed Dataset(弹性分布式数据集)，即RDD的模型来处理数据。这是一种代表数据集，只坐落内存中，永恒不变的结构。针对RDD履行的操作可生成新的RDD。每个RDD可经过世系(Lineage)回溯至父级RDD，并终究回溯至磁盘上的数据。Spark可经过RDD在无需将每个操作的成果写回磁盘的前提下完结容错。

流处理办法

流处理才能是由Spark Streaming完结的。Spark本身在规划上首要面向批处理作业负载，为了补偿引擎规划和流处理作业负载特征方面的差异，Spark完结了一种叫做微批(Micro-batch)*的概念。在详细战略方面该技能能够将数据流视作一系列十分小的“批”，借此即可经过批处理引擎的原生语义进行处理。

Spark Streaming会以亚秒级增量对流进行缓冲，随后这些缓冲会作为小规模的固定数据集进行批处理。这种办法的实践效果十分好，但比较真实的流处理结构在功用方面仍然存在缺乏。

优势和约束

运用Spark而非Hadoop MapReduce的首要原因是速度。在内存核算战略和先进的DAG调度等机制的协助下，Spark能够用更快速度处理相同的数据集。

Spark的另一个重要优势在于多样性。该产品可作为独立集群布置，或与现有Hadoop集群集成。该产品可运转批处理和流处理，运转一个集群即可处理不同类型的使命。

除了引擎本身的才能外，环绕Spark还树立了包含各种库的生态体系，可为机器学习、交互式查询等使命供给更好的支撑。比较MapReduce，Spark使命更是“众所周知”地易于编写，因而可大幅进步出产力。

为流处理体系选用批处理的办法，需求对进入体系的数据进行缓冲。缓冲机制使得该技能能够处理十分许多的传入数据，进步全体吞吐率，但等候缓冲区清空也会导致推迟增高。这意味着Spark Streaming或许不合适处理对推迟有较高要求的作业负载。

因为内存一般比磁盘空间更贵，因而比较根据磁盘的体系，Spark本钱更高。但是处理速度的进步意味着能够更快速完结使命，在需求依照小时数为资源付费的环境中，这一特性一般能够抵消添加的本钱。

Spark内存核算这一规划的另一个成果是，假如布置在同享的集群中或许会遇到资源缺乏的问题。比较Hadoop MapReduce，Spark的资源耗费更大，或许会对需求在同一时刻运用集群的其他使命发生影响。从实质来看，Spark更不合适与Hadoop仓库的其他组件共存一处。

总结

Spark是多样化作业负载处理使命的***挑选。Spark批处理才能以更高内存占用为价值供给了***的速度优势。关于注重吞吐率而非推迟的作业负载，则比较合适运用Spark Streaming作为流处了解决计划。

Apache Flink

Apache Flink是一种能够处理批处理使命的流处理结构。该技能可将批处理数据视作具有有限鸿沟的数据流，借此将批处理使命作为流处理的子集加以处理。为全部处理使命采纳流处理为先的办法会发生一系列风趣的副效果。

这种流处理为先的办法也叫做Kappa架构，与之相对的是愈加被广为人知的Lambda架构(该架构中运用批处理作为首要处理办法，运用流作为弥补并供给前期未经提炼的成果)。Kappa架构中会对全部进行流处理，借此对模型进行简化，而这全部是在最近流处理引擎逐步老练后才可行的。

流处理模型

Flink的流处理模型在处理传入数据时会将每一项视作真实的数据流。Flink供给的DataStream API可用于处理无尽的数据流。Flink可合作运用的根本组件包含：

Stream(流)是指在体系中流通的，永恒不变的无鸿沟数据集

Operator(操作方)是指针对数据流履行操作以发生其他数据流的功用

Source(源)是指数据流进入体系的进口点

Sink(槽)是指数据流脱离Flink体系后进入到的方位，槽能够是数据库或到其他体系的衔接器

为了在核算进程中遇到问题后能够康复，流处理使命会在预订时刻点创立快照。为了完结状况存储，Flink可合作多种状况后端体系运用，详细取决于所需完结的杂乱度和耐久性等级。

此外Flink的流处理才能还能够了解“事情时刻”这一概念，这是指事情实践发生的时刻，此外该功用还能够处理会话。这意味着能够经过某种风趣的办法确保履行次序和分组。

批处理模型

Flink的批处理模型在很大程度上仅仅是对流处理模型的扩展。此刻模型不再从继续流中读取数据，而是从耐久存储中以流的办法读取有鸿沟的数据集。Flink会对这些处理模型运用完全相同的运转时。

Flink能够对批处理作业负载完结必定的优化。例如因为批处理操作可经过耐久存储加以支撑，Flink能够不对批处理作业负载创立快照。数据仍然能够康复，但惯例处理操作能够履行得更快。

另一个优化是对批处理使命进行分化，这样即可在需求的时分调用不同阶段和组件。借此Flink能够与集群的其他用户更好地共存。对使命提早进行剖析使得Flink能够检查需求履行的全部操作、数据集的巨细，以及下流需求履行的操作进程，借此完结进一步的优化。

优势和约束

Flink现在是处理结构范畴一个共同的技能。尽管Spark也能够履行批处理和流处理，但Spark的流处理采纳的微批架构使其无法适用于许多用例。Flink流处理为先的办法可供给低推迟，高吞吐率，近乎逐项处理的才能。

Flink的许多组件是自行办理的。尽管这种做法较为稀有，但出于功用方面的原因，该技能可自行办理内存，无需依靠原生的Java废物收回机制。与Spark不同，待处理数据的特征发生改变后Flink无需手艺优化和调整，而且该技能也能够自行处理数据分区和主动缓存等操作。

Flink会经过多种办法对作业进行分许从而优化使命。这种剖析在部分程度上相似于SQL查询规划器对联系型数据库所做的优化，可针对特定使命确认***效的完结办法。该技能还支撑多阶段并行履行，一起可将受阻使命的数据调集在一起。关于迭代式使命，出于功用方面的考虑，Flink会测验在存储数据的节点上履行相应的核算使命。此外还可进行“增量迭代”，或仅对数据中有改动的部分进行迭代。

在用户东西方面，Flink供给了根据Web的调度视图，借此可轻松办理使命并检查体系状况。用户也能够检查已提交使命的优化计划，借此了解使命终究是怎么在集群中完结的。关于剖析类使命，Flink供给了相似SQL的查询，图形化处理，以及机器学习库，此外还支撑内存核算。

Flink能很好地与其他组件合作运用。假如合作Hadoop 仓库运用，该技能能够很好地融入整个环境，在任何时分都只占用必要的资源。该技能可轻松地与YARN、HDFS和Kafka 集成。在兼容包的协助下，Flink还能够运转为其他处理结构，例如Hadoop和Storm编写的使命。

现在Flink***的约束之一在于这仍然是一个十分“年幼”的项目。实践环境中该项意图大规模布置尚不如其他处理结构那么常见，关于Flink在缩放才能方面的约束现在也没有较为深化的研讨。跟着快速开发周期的推动和兼容包等功用的完善，当越来越多的安排开端测验时，或许会呈现越来越多的Flink布置。

总结

Flink供给了低推迟流处理，一起可支撑传统的批处理使命。Flink或许最合适有极高流处理需求，并有少数批处理使命的安排。该技能可兼容原生Storm和Hadoop程序，可在YARN办理的集群上运转，因而能够很便利地进行评价。快速发展的开发作业使其值得被我们注重。

定论

大数据体系可运用多种处理技能。

关于仅需求批处理的作业负载，假如对时刻不灵敏，比其他解决计划完结本钱更低的Hadoop将会是一个好挑选。

关于仅需求流处理的作业负载，Storm可支撑更广泛的言语并完结极低推迟的处理，但默许装备或许发生重复成果而且无法确保次序。Samza与YARN和Kafka严密集成可供给更大灵敏性，更易用的多团队运用，以及更简略的仿制和状况办理。

关于混合型作业负载，Spark可供给高速批处理和微批处理办法的流处理。该技能的支撑更完善，具有各种集成库和东西，可完结灵敏的集成。Flink供给了真实的流处理并具有批处理才能，经过深度优化可运转针对其他渠道编写的使命，供给低推迟的处理，但实践运用方面还为时过早。

最合适的解决计划首要取决于待处理数据的状况，对处理所需时刻的需求，以及期望得到的成果。详细是运用全功用解决计划或首要侧重于某种项意图解决计划，这个问题需求稳重权衡。跟着逐步老练并被广泛承受，在评价任何新呈现的创新式解决计划时都需求考虑相似的问题。