• nijsbanner

Tsjinst

Spark Streaming gegevensreinigingsmeganisme
(I) DStream en RDD
Lykas wy witte, is Spark Streaming-berekkening basearre op Spark Core, en de kearn fan Spark Core is RDD, dus Spark Streaming moat ek relatearre wêze oan RDD. Spark Streaming lit brûkers lykwols net direkt RDD brûke, mar abstraheart in set DStream-konsepten, DStream en RDD binne ynklusive relaasjes, jo kinne it begripe as it dekoraasjepatroan yn Java, dat wol sizze, DStream is in ferbettering fan RDD, mar it gedrach is fergelykber mei RDD.
DStream en RDD hawwe beide ferskate betingsten.
(1) hawwe ferlykbere transformaasjeaksjes, lykas map, reduceByKey, ensfh., mar ek guon unike, lykas Window, mapWithStated, ensfh.
(2) hawwe allegear Aksje-aksjes, lykas foreachRDD, count, ensfh.
It programmearmodel is konsekwint.
(B) Yntroduksje fan DStream yn Spark Streaming
DStream befettet ferskate klassen.
(1) Gegevensboarneklassen, lykas InputDStream, spesifyk lykas DirectKafkaInputStream, ensfh.
(2) Konverzjeklassen, typysk MappedDStream, ShuffledDStream
(3) útfierklassen, typysk lykas ForEachDStream
Ut it boppesteande wurdt de gegevens fan it begjin (ynfier) ​​oant it ein (útfier) ​​dien troch it DStream-systeem, wat betsjut dat de brûker normaal net direkt RDD's kin generearje en manipulearje, wat betsjut dat de DStream de kâns en ferplichting hat om ferantwurdlik te wêzen foar de libbensduur fan RDD's.
Mei oare wurden, Spark Streaming hat inautomatyske skjinmeitsjenfunksje.
(iii) It proses fan RDD-generaasje yn Spark Streaming
De libbensstream fan RDD's yn Spark Streaming is rûch as folget.
(1) Yn InputDStream wurde de ûntfongen gegevens omset yn RDD, lykas DirectKafkaInputStream, dy't KafkaRDD genereart.
(2) dan fia MappedDStream en oare gegevenskonverzje, wurdt dizze tiid direkt RDD neamd, wat oerienkomt mei de kaartmetoade foar konverzje
(3) Yn 'e útfierklasse-operaasje kinne jo de brûker allinich as de RDD bleatsteld is, de oerienkommende opslach, oare berekkeningen en oare operaasjes útfiere litte.