സ്പാർക്ക് സ്ട്രീമിംഗ് ഡാറ്റ ക്ലീനിംഗ് മെക്കാനിസം
(I) ഡി.സ്ട്രീമും ആർ.ഡി.ഡിയും
നമുക്കറിയാവുന്നതുപോലെ, സ്പാർക്ക് സ്ട്രീമിംഗ് കമ്പ്യൂട്ടേഷൻ സ്പാർക്ക് കോറിനെ അടിസ്ഥാനമാക്കിയുള്ളതാണ്, സ്പാർക്ക് കോറിന്റെ കോർ RDD ആണ്, അതിനാൽ സ്പാർക്ക് സ്ട്രീമിംഗും RDD-യുമായി ബന്ധപ്പെട്ടിരിക്കണം. എന്നിരുന്നാലും, സ്പാർക്ക് സ്ട്രീമിംഗ് ഉപയോക്താക്കളെ RDD നേരിട്ട് ഉപയോഗിക്കാൻ അനുവദിക്കുന്നില്ല, പക്ഷേ DStream ആശയങ്ങളുടെ ഒരു കൂട്ടം സംഗ്രഹിക്കുന്നു, DStream ഉം RDD ഉം ഉൾക്കൊള്ളുന്ന ബന്ധങ്ങളാണ്, നിങ്ങൾക്ക് ഇത് ജാവയിലെ അലങ്കാര പാറ്റേണായി മനസ്സിലാക്കാം, അതായത്, DStream RDD യുടെ ഒരു മെച്ചപ്പെടുത്തലാണ്, പക്ഷേ സ്വഭാവം RDD-യോട് സമാനമാണ്.
DStream, RDD എന്നിവയ്ക്ക് നിരവധി അവസ്ഥകളുണ്ട്.
(1) മാപ്പ്, റെഡ്യൂസ്ബൈകീ മുതലായ സമാനമായ പരിവർത്തന പ്രവർത്തനങ്ങൾ ഉണ്ട്, മാത്രമല്ല വിൻഡോ, മാപ്പ് വിത്ത്സ്റ്റേറ്റഡ് മുതലായ ചില അതുല്യമായവയും ഉണ്ട്.
(2) എല്ലാത്തിനും foreachRDD, count മുതലായ പ്രവർത്തന പ്രവർത്തനങ്ങൾ ഉണ്ട്.
പ്രോഗ്രാമിംഗ് മോഡൽ സ്ഥിരതയുള്ളതാണ്.
(ബി) സ്പാർക്ക് സ്ട്രീമിംഗിൽ ഡി സ്ട്രീമിന്റെ ആമുഖം
ഡി സ്ട്രീമിൽ നിരവധി ക്ലാസുകൾ ഉൾപ്പെടുന്നു.
(1) InputDStream പോലുള്ള ഡാറ്റാ ഉറവിട ക്ലാസുകൾ, DirectKafkaInputStream പോലുള്ളവ.
(2) പരിവർത്തന ക്ലാസുകൾ, സാധാരണയായി MappedDStream, ShuffledDStream
(3) ഔട്ട്പുട്ട് ക്ലാസുകൾ, സാധാരണയായി ForEachDStream പോലുള്ളവ
മുകളിൽ പറഞ്ഞതിൽ നിന്ന്, തുടക്കം (ഇൻപുട്ട്) മുതൽ അവസാനം (ഔട്ട്പുട്ട്) വരെയുള്ള ഡാറ്റ DStream സിസ്റ്റമാണ് ചെയ്യുന്നത്, അതായത് ഉപയോക്താവിന് സാധാരണയായി RDD-കൾ നേരിട്ട് സൃഷ്ടിക്കാനും കൈകാര്യം ചെയ്യാനും കഴിയില്ല, അതായത് RDD-കളുടെ ജീവിത ചക്രത്തിന് ഉത്തരവാദിയാകാനുള്ള അവസരവും ബാധ്യതയും DStream-നുണ്ട്.
മറ്റൊരു വിധത്തിൽ പറഞ്ഞാൽ, സ്പാർക്ക് സ്ട്രീമിംഗിന് ഒരുയാന്ത്രിക വൃത്തിയാക്കൽപ്രവർത്തനം.
(iii) സ്പാർക്ക് സ്ട്രീമിംഗിൽ RDD ജനറേഷൻ പ്രക്രിയ
സ്പാർക്ക് സ്ട്രീമിംഗിലെ ആർഡിഡികളുടെ ജീവിത പ്രവാഹം ഇനിപ്പറയുന്ന രീതിയിൽ പരുക്കനാണ്.
(1) InputDStream-ൽ, ലഭിച്ച ഡാറ്റ KafkaRDD സൃഷ്ടിക്കുന്ന DirectKafkaInputStream പോലുള്ള RDD ആയി പരിവർത്തനം ചെയ്യപ്പെടുന്നു.
(2) തുടർന്ന് MappedDStream വഴിയും മറ്റ് ഡാറ്റാ പരിവർത്തനത്തിലൂടെയും, ഈ സമയം നേരിട്ട് പരിവർത്തനത്തിനായുള്ള മാപ്പ് രീതിയുമായി ബന്ധപ്പെട്ട RDD എന്ന് വിളിക്കപ്പെടുന്നു.
(3) ഔട്ട്പുട്ട് ക്ലാസ് പ്രവർത്തനത്തിൽ, RDD തുറന്നുകാണിക്കുമ്പോൾ മാത്രമേ, ഉപയോക്താവിന് അനുബന്ധ സംഭരണം, മറ്റ് കണക്കുകൂട്ടലുകൾ, മറ്റ് പ്രവർത്തനങ്ങൾ എന്നിവ നടത്താൻ അനുവദിക്കാൻ കഴിയൂ.