• xəbərlər_banneri

Xidmət

Spark Streaming məlumatların təmizlənməsi mexanizmi
(I) DStream və RDD
Bildiyimiz kimi, Spark Streaming hesablaması Spark Core-a əsaslanır və Spark Core-un nüvəsi RDD-dir, ona görə də Spark Streaming RDD ilə də əlaqəli olmalıdır.Bununla belə, Spark Streaming istifadəçilərə birbaşa RDD-dən istifadə etməyə imkan vermir, lakin bir sıra DStream konsepsiyalarını mücərrəd edir, DStream və RDD inklüziv əlaqələrdir, siz bunu Java-da bəzək nümunəsi kimi başa düşə bilərsiniz, yəni DStream RDD-nin təkmilləşdirilməsidir, lakin davranış RDD-yə bənzəyir.
DStream və RDD hər ikisinin bir neçə şərti var.
(1) map, reduceByKey və s. kimi oxşar transformasiya hərəkətlərinə malikdir, həm də Window, mapWithStated və s. kimi unikaldır.
(2) hamısının foreachRDD, count və s. kimi Fəaliyyət hərəkətləri var.
Proqramlaşdırma modeli ardıcıldır.
(B) Spark Streaming-də DStream-in tətbiqi
DStream bir neçə sinifdən ibarətdir.
(1) DirectKafkaInputStream kimi xüsusi InputDStream kimi verilənlər mənbəyi sinifləri və s.
(2) Dönüşüm sinifləri, adətən MappedDStream, ShuffledDStream
(3) çıxış sinifləri, adətən ForEachDStream kimi
Yuxarıda göstərilənlərdən əvvəldən (girişdən) axıra qədər (çıxış) məlumatlar DStream sistemi tərəfindən həyata keçirilir, bu o deməkdir ki, istifadəçi normal olaraq RDD-ləri birbaşa yarada və manipulyasiya edə bilməz, bu o deməkdir ki, DStream-in əldə etmək imkanı və öhdəliyi var. RDD-lərin həyat dövrü üçün cavabdehdir.
Başqa sözlə, Spark Streaming-də varavtomatik təmizləməfunksiyası.
(iii) Spark Streaming-də RDD yaratma prosesi
Spark Streaming-də RDD-lərin həyat axını aşağıdakı kimi kobuddur.
(1) InputDStream-də qəbul edilən məlumatlar, KafkaRDD yaradan DirectKafkaInputStream kimi RDD-yə çevrilir.
(2) sonra MappedDStream və digər məlumatların çevrilməsi vasitəsilə bu dəfə birbaşa çevrilmə üçün xəritə metoduna uyğun RDD adlanır.
(3) Çıxış sinfi əməliyyatında, yalnız RDD açıq olduqda, istifadəçiyə müvafiq yaddaşı, digər hesablamaları və digər əməliyyatları yerinə yetirməyə icazə verə bilərsiniz.