Memorja Doppja LSTM B'Attenzjoni Doppja Netwerk Newrali Għal Tbassir Spazjotemporali
Mar 21, 2022
Kuntatt:joanna.jia@wecistanche.com/ WhatsApp: 008618081934791
Astratt
It-tbassir spazjotemporali huwa ta' sfida minħabba li l-estrazzjoni tar-rappreżentazzjonijiet hija ineffiċjenti u n-nuqqas ta' dipendenzi kuntestwali sinjuri. Huwa propost approċċ ġdid għal tbassir spazjotemporali bl-użu ta' dualmemorjaLSTM b'netwerk newrali ta' attenzjoni doppja (DMANet). Unità ġdida LSTM tal-memorja doppja (DMLSTM) hija proposta biex jiġu estratti r-rappreżentazzjonijiet billi tisfrutta operazzjonijiet ta' differenzjazzjoni bejn l-immaġini konsekuttivi u tadotta doppju.memorjamekkaniżmu ta’ transizzjoni. Biex tagħmel użu sħiħ tar-rappreżentazzjonijiet storiċi, mekkaniżmu ta 'attenzjoni doppja huwa ddisinjat biex jaqbad dipendenzi spazjotemporali fit-tul billi jikkalkula l-korrelazzjonijiet bejn ir-rappreżentazzjonijiet moħbija bħalissa u r-rappreżentazzjonijiet moħbija storiċi minn dimensjonijiet temporali u spazjali, rispettivament. Imbagħad, l-attenzjoni doppja hija inkorporata fl-unità DMLSTM biex tinbena DMANet, li tippermetti l-mudell b'qawwa akbar ta 'mudellar għal dinamika għal żmien qasir u rappreżentazzjonijiet kuntestwali fit-tul. F'dan id-dokument huwa propost sett ta 'dejta ta' mappa tar-reżistenza apparenti (AR Map). Il-metodu ta 'interpolazzjoni B-spline huwa utilizzat biex itejjeb is-sett tad-dejta tal-Mappa AR u jagħmel il-kurva tat-tendenza tar-reżistenza apparenti derivattiva kontinwa fid-dimensjoni tal-ħin. Ir-riżultati sperimentali juru li l-metodu żviluppat għandu prestazzjoni ta 'tbassir eċċellenti permezz ta' paraguni ma 'xi metodi l-aktar avvanzati.
Kliem ewlieni: tbassir spazjotemporali; doppjumemorjaLSTM; attenzjoni doppja; rappreżentazzjonijiet storiċi
1. Introduzzjoni
It-tbassir spazjotemporali huwa li titgħallem ir-rappreżentazzjonijiet b'mod mhux sorveljat minn data tal-vidjow mingħajr tikketta u tużahom biex tesegwixxi kompitu ta 'tbassir, li huwa kompitu tipiku ta' viżjoni tal-kompjuter. Bħalissa, il-previżjoni spazjotemporali ġiet applikata għal xi kompiti b'suċċess, bħal tbassir futur ta 'postijiet ta' oġġetti [1,2], skoperta ta 'anomalija [3], u sewqan awtonomu [4]. Mudelli bbażati fuq it-tagħlim fil-fond jagħtu qabża fuq l-approċċi tradizzjonali minħabba li tgħallmu rappreżentazzjonijiet adegwati minn data ta’ dimensjoni għolja. Metodi ta' tagħlim fil-fond jidħlu perfettament fil-kompitu ta' tbassir spazjotemporali, li jista 'jiġbed korrelazzjonijiet spazjotemporali minn data tal-vidjo b'mod awto-superviż. Madankollu, it-tbassir spazjotemporali għadu kompitu ta 'sfida minħabba l-problema ta' estrazzjoni ta 'rappreżentazzjonijiet b'mod ineffiċjenti u n-nuqqas ta' dipendenzi fit-tul. Per eżempju, Convolutional LSTM (ConvLSTM) [5] ġie żviluppat biex aktar estratt rappreżentazzjonijiet temporali iżda jinjora rappreżentazzjonijiet spazjali. Xi metodi [6,7] kisbu riżultati ta 'tbassir preċiżi, iżda jikkawżaw telf ta' rappreżentazzjoni. Il-metodu ta' kontradittorju ġie applikat f'kompiti ta' tbassir [8,9]. Madankollu, dawn [8,9] huma dipendenti b'mod sinifikanti fuq il-proċess ta 'taħriġ instabbli.
1 Iskola tal-Komunikazzjoni u l-Inġinerija tal-Informazzjoni, Università ta 'Shanghai, Shanghai 200444, iċ-Ċina
2 Laboratorju Ewlenin tal-Wiri Avvanzat u Applikazzjoni tas-Sistema, Ministeru tal-Edukazzjoni, Shanghai 200072, iċ-Ċina
Dual ġdidmemorjaLSTM b'netwerk newrali ta 'attenzjoni doppja (DMANet) ġie propost għal tbassir spazjotemporali f'dan id-dokument biex issolvi l-problemi msemmija. Ġiet żviluppata unità LSTM tal-memorja doppja (DMLSTM) ibbażata fuq ConvLSTM [5] għal DMANet biex iwettaq tbassir spazjotemporali. Tista 'tiġi applikata biex tikseb rappreżentazzjonijiet ta' moviment billi ssir differenzjazzjoni ta 'stati moħbija adjaċenti jew immaġini mhux maħduma b'mod xieraq. Barra minn hekk, għandha strutturi ta 'memorja doppja biex taħżen informazzjoni spazjali u informazzjoni temporali. Mekkaniżmu ta 'attenzjoni doppja huwa propost u inkorporat fl-unità DMLSTM biex jiġu estratti dipendenzi tal-karatteristiċi fit-tul minn dimensjonijiet temporali u spazjali, rispettivament, li jippermetti lill-mudell żviluppat biex jaqbad dinamika tal-vidjo kumplessa itwal. Meta mqabbla mal-metodi ta 'tbassir spazjotemporali ta' hawn fuq, il-kontribuzzjonijiet ewlenin ta 'dan id-dokument huma kif ġej. L-ewwelnett, ġiet proposta unità ġdida DMLSTM biex twettaq rappreżentazzjonijiet estratti, li jistgħu jiġu applikati għal tbassir spazjotemporali billi tisfrutta operazzjonijiet ta 'differenzjazzjoni bejn l-immaġini konsekuttivi u tadotta doppju.memorjamekkaniżmu ta’ transizzjoni. It-tieni nett, mekkaniżmu ta 'attenzjoni doppja huwa żviluppat biex tikseb l-interazzjonijiet tal-qafas fit-tul. L-interazzjonijiet tal-qafas fit-tul jinqabdu billi tiġi kkalkulata l-korrelazzjoni bejn ir-rappreżentazzjonijiet moħbija bħalissa u r-rappreżentazzjonijiet moħbija storiċi mid-dimensjonijiet temporali u spazjali, rispettivament. Fl-aħħarnett, kontribuzzjoni importanti hija li d-DMANet jgħaqqad iż-żewġ vantaġġi. Tali disinn arkitettoniku jippermetti lill-mudell b'qawwa akbar ta 'mudellar għal dinamika għal żmien qasir u rappreżentazzjonijiet kuntestwali fit-tul. Il-metodu propost huwa evalwat f'xi settijiet ta' data ta' sfida b'metodi differenti. Tikseb prestazzjoni eċċellenti meta mqabbla ma 'xi metodi avvanzati. Ir-riżultati sperimentali juru li l-metodu propost għandu prestazzjoni ta 'tbassir spazjotemporali eċċellenti.

Il-bqija ta 'dan l-artikolu huwa organizzat kif ġej. Xogħol relatat huwa diskuss fit-Taqsima 2. Id-doppjumemorjaLSTM b'mekkaniżmu ta' attenzjoni doppja huwa deskritt fit-Taqsima 3. Ir-riżultati u l-analiżi sperimentali huma diskussi fit-Taqsima 4 u segwiti minn konklużjonijiet fit-Taqsima 5.
2. Reviżjoni tal-Letteratura
Matul l-aħħar għaxar snin, ġew proposti ħafna metodi għat-tbassir spazjotemporali. Netwerk newrali rikorrenti (RNN) [10] mal-medda qasira twilamemorja(LSTM) [11] ġie applikat dejjem aktar għal kompiti ta' tbassir minħabba l-kapaċitajiet tiegħu għat-tagħlim tar-rappreżentazzjonijiet ta' sekwenza tal-vidjo. F'dawn l-aħħar snin, il-qafas LSTM ibbażat fuq mudell ta 'sekwenza għal sekwenza [12] ġie adattat għat-tbassir tal-vidjo. Xorta waħda, l-eżattezza tat-tbassir hija limitata minħabba l-fatt li dawn il-metodi ta 'qafas [12] jaqbdu biss varjazzjonijiet temporali. Sabiex jiġu estratti aktar ir-rappreżentazzjonijiet tal-vidjo, ConvLSTM [5] jissostitwixxi operazzjonijiet kompletament konnessi b'operazzjonijiet ta 'konvoluzzjoni fi tranżizzjonijiet ta' stat rikorrenti. Qafas ibbażat fuq it-tagħlim profond [13] huwa propost biex tinbena mill-ġdid id-dejta nieqsa biex tiġi ffaċilitata l-analiżi b'serje spazjotemporali. Madankollu, se żżid l-ispiża komputazzjonali żejda u tnaqqas l-effiċjenza tat-tbassir. L-unità rikorrenti bijective gated hija introdotta f'[14], li tisfrutta auto-encoders rikorrenti biex tbassar il-qafas li jmiss f'xi każijiet. Metodu b'ħafna output u multi-indiċi ta' tagħlim sorveljat [15] b'LSTM [11] huma proposti għal tbassir spazjotemporali, li jista' jimmudella d-dinamika fit-tul. Fl-insegwiment tat-taffija tal-gradjent li jgħibu, LSTM konvoluzzjonali estiż minn [6,7] jintroduċi fluss ta 'memorja taż-żigżag u unità ta' awtostrada gradjent (GHU). Intuża metodu aġġornat ibbażat fuq it-tagħlim fil-fond għat-titjib tal-kapaċità tat-tbassir. Verżjoni tal-ASAP imsejħa "ASAP deep system", hija proposta fi [16]. Il-warping tal-fluss ottiku u l-algoritmi ta' sintetizzazzjoni tal-pixel RGB [17] ġew sfruttati biex iwettqu tbassir spazjotemporali. Netwerk tal-memorja fil-memorja (MIM) huwa propost għall-kompiti ta' tbassir fi [18]. Id-differenza tagħha mill-mudelli rikorrenti msemmija hawn fuq hija li MIM [18] tapplika għal differenza fit-tranżizzjonijiet tal-memorja biex tittrasforma l-polinomju li jvarja fil-ħin f'kostanti, li jippermetti li l-komponent deterministiku jkun prevedibbli. Madankollu, dawn il-metodi [14-18] għadhom ta 'sfida biex iwettqu tbassir fit-tul peress li tranżizzjonijiet eċċessivi tal-bieb jikkawżaw it-telf ta' rappreżentazzjonijiet.

cistanche deserticola benefiċċjifimemorja
Minbarra l-mudelli rikorrenti, mudelli oħra huma wkoll impjegati għal tbassir spazjotemporali. Netwerk ta' retrospezzjoni huwa propost f'[19], li jintroduċi telf ta' retrospezzjoni biex jimbotta l-frejms ta' retrospezzjoni biex ikunu konsistenti mal-frejms osservati. Sabiex jiġi mmaniġġjat l-iżbilanċ fid-dejta, algoritmu tat-tindif tal-viċinat huwa żviluppat fi [20]. Algoritmu tal-foresti każwali jiġbed l-aħjar karatteristiċi biex iwettaq il-kompitu tat-tbassir. A autoencoder varjazzjonali huwa adottat biex jiġu estratti karatteristiċi dinamiċi mhux lineari fi [21]. Dan il-mudell janalizza l-korrelazzjonijiet bejn il-varjabbli u r-relazzjonijiet bejn il-kampjuni storiċi u l-kampjuni preżenti. Modulu ta 'attenzjoni wiesgħa u l-modulu kompost fil-fond huma utilizzati fi [22] biex jiġu estratti karatteristiċi ewlenin globali u karatteristiċi ewlenin lokali. Madankollu, dawn il-metodi [19-22] jiddependu fuq rappreżentazzjonijiet lokali sa ċertu punt, li ma jistgħux jiksbu prestazzjoni eċċellenti fuq kompiti ta 'tbassir. Ġie propost netwerk newrali artifiċjali [23] biex jimmudella l-proprjetajiet uniċi tad-dejta spazjotemporali u joħroġ kapaċità ta 'mudellar aktar qawwija għad-dejta spazjotemporali. Ġiet żviluppata sistema ta' tbassir spazjotemporali [24] biex tiffoka fuq l-immudellar spazjali u r-rikostruzzjoni tas-sinjal Spazjo-temporali sħiħ. Dan il-metodu juri l-effettività tal-immudellar ta' oqsma Spazjo-temporali koerenti. In-netwerk newrali mħallat ġie propost biex jimmudella l-mudell dinamiku u jitgħallem rappreżentazzjonijiet tad-dehra bbażati fuq frejms tal-vidjo mogħtija fi [25]. CNN 3D huwa utilizzat f'RNN fi [26], li jestendi rappreżentazzjonijiet fid-dimensjoni temporali u jagħmel il-memorjaunità taħżen rappreżentazzjonijiet aħjar fit-tul. Madankollu, operazzjonijiet konvoluzzjonali [24–26] jammontaw għal dipendenzi intraframe fuq medda qasira minħabba l-oqsma riċettivi limitati tagħhom u n-nuqqas ta 'kapaċitajiet ta' mmudellar espliċiti bejn il-qafas. In-netwerks avversarji ġenerattivi [8] huma approċċ ieħor għat-tbassir spazjotemporali. Ġie propost metodu ta' awtokokoder varjazzjoni kondizzjonali fi [9] billi jipproduċi trajettorji umani futuri kkundizzjonati fuq osservazzjonijiet preċedenti u azzjonijiet futuri tar-robot. Il-metodi ta 'tbassir [8,9] għandhom l-għan li jiġġeneraw frames inqas imċajpra, iżda l-prestazzjoni tagħhom tiddependi b'mod sinifikanti fuq il-proċess ta' taħriġ instabbli.
Mekkaniżmu ta 'awto-attenzjoni huwa propost fi [27], li jista' jiġi applikat biex jinqabad dipendenzi fuq medda twila u ġie ppruvat li huwa effettiv fl-aggregazzjoni ta 'karatteristiċi ewlenin fost il-pożizzjonijiet spazjali kollha fil-kompiti tal-viżjoni bil-kompjuter [28-30]. Blokk ta' attenzjoni doppja huwa propost fi [28], li jgħaqqad il-karatteristiċi tal-ispazju kollu f'sett kompatt, u mbagħad jagħżel u jalloka b'mod adattiv karatteristiċi għal kull post. Sabiex tisfrutta l-informazzjoni kuntestwali b'mod aktar effettiv, netwerk crisscross [29] introduċa modulu ta 'attenzjoni crisscross biex tikseb l-informazzjoni kuntestwali tal-pixels kollha, li huwa utli għal problemi ta' fehim viżwali. Barra minn hekk, b'differenza mill-metodi ta 'fużjoni ta' karatteristiċi multi-skala, netwerk ta 'attenzjoni doppja [30] huwa propost biex jgħaqqad karatteristiċi lokali ma' dipendenzi globali b'mod adattiv. Madankollu, ma jistgħux jintużaw biex jittrattaw kompiti ta 'tbassir minħabba n-nuqqas ta' dipendenzi spazjotemporali.
Fil-qosor, mudelli ta 'tbassir preċedenti jagħtu żvantaġġi differenti. Differenti mix-xogħol preċedenti, aħna nfasslu varjant ġdid ta 'ConvLSTM [5] biex taħżen rappreżentazzjonijiet tal-istat u testendi l-mekkaniżmu tal-attenzjoni fil-kompitu ta' tbassir spazjotemporali. Din l-arkitettura taqbad relazzjonijiet kuntestwali sinjuri għal rappreżentazzjonijiet aħjar tal-karatteristiċi b'kumpattezza intra-klassi.
Tabella 1 turi l-akronimi użati fid-dokument b'definizzjoni tal-kunċett.

3. Netwerk Neural DMA
A flow chart ta 'DMANet tidher fil-Figura 1. Ir-rappreżentazzjonijiet huma estratti minn DMANet minħabba l-frejms ta' input. Ir-rappreżentazzjonijiet jindikaw riżultati tat-tbassir u jistgħu jintużaw biex ibassru r-rappreżentazzjonijiet li jmiss.

F'din it-taqsima, id-dettalji tad-DMANet jingħataw. L-ewwelnett, unità ġdida DMLSTM hija introdotta fit-Taqsima 3.1. Wara, mekkaniżmu ta' attenzjoni doppja huwa propost fit-Taqsima 3.2, li jippermetti li l-mudell ikun jista' jibbenefika mir-rappreżentazzjonijiet rilevanti preċedenti. Fl-aħħarnett, huma aggregati flimkien biex jibnu DMANet għal tbassir spazjotemporali, li huwa dettaljat fit-Taqsima 3.3.
3.1.Doppju Memorja LSTM
Hija mdawla mill-PredRNN plus plus [7], li żżid aktar saffi mhux lineari biex iżid il-fond tan-netwerk u ssaħħaħ il-kapaċità tal-immudellar għal korrelazzjonijiet spazjali u dinamika temporali. Madankollu, il-problema tal-propagazzjoni tal-gradjent qed issir aktar u aktar diffiċli biż-żieda fil-fond tan-netwerk, anke jekk GHU [7] ittaffiha sa ċertu punt. Xi xogħol[6,7,14] ma jwettaqx tajjeb fl-estrazzjoni tar-rappreżentazzjonijiet ta 'sekwenzi spazjotemporali tul tranżizzjonijiet eċċessivi tal-bieb, peress li jista' bla ma jistax jikkawża t-telf ta 'rappreżentazzjonijiet. Għalhekk, id-dipendenzi spazjali fuq medda twila jistgħu jinqabdu minn saffi ta 'konvoluzzjoni f'munzelli. Madankollu, l-effettività tal-kapaċità tal-immudellar għad-dinamika spazjotemporali hija limitata minħabba t-tranżizzjoni kumplessa minn laver għal saff.
Unità rikorrenti ġdida bl-isem DMLSTM hija żviluppata biex twettaq tbassir spazjotemporali biex tegħleb il-limitazzjonijiet imsemmija hawn fuq, kif muri fil-Figura 2. L-ewwelnett, tiżdied unità ta 'memorja addizzjonali bbażata fuq ConvLSTM[5]; din l-unità tintuża biex taħżen stati ġeografiċi, li tippermetti lill-unità titgħallem aktar rappreżentazzjonijiet spazjotemporali. Il-mekkaniżmu ta 'tranżizzjoni ġdid huwa ddisinjat billi jintrema strutturi ta' gradi żejda, bħal gradi ta 'input. L-istruttura mhux lineari varji titlef ir-rappreżentazzjonijiet interni qawwija fil-previżjoni fil-livell tal-pixel. Min-naħa l-oħra, ir-rappreżentazzjonijiet li jiddifferenzjaw l-operazzjonijiet ġew applikati b'mod effettiv biex jaqbdu r-rappreżentazzjonijiet ta 'oġġetti li jiċċaqilqu. Għalhekk, id-differenzjar jista 'jintuża għal kompiti ta' tbassir biex jissupplimentaw id-dettalji tar-rappreżentazzjoni ta 'oġġetti li jiċċaqilqu. Fl-unità DMLSTM, l-operazzjoni ta 'differenzjar hija żviluppata biex tikseb rappreżentazzjonijiet ta' mozzjoni billi tiddifferenzja stati moħbija adjaċenti jew immaġini mhux maħduma, li jagħmel l-unità jkollha kapaċità ta 'mudellar aktar qawwija għal dinamika spazjotemporali.

3.2. Mekkaniżmu ta' Attenzjoni Doppju
Tbassir spazjotemporali jista 'jbassar frames futuri billi josserva rappreżentazzjonijiet preċedenti. Madankollu, il-mudell tat-tbassir għandu jiffoka aktar fuq rappreżentazzjonijiet storiċi li huma relatati mal-kontenut imbassar. Mekkaniżmu ta 'attenzjoni [27] jista' jaqbad dipendenzi fuq medda twila bejn rappreżentazzjonijiet lokali u globali f'xi ħidmiet prattiċi [32,33]. Barra minn hekk, it-tbassir spazjotemporali huwa ta 'sfida minħabba d-dinamika kumplessa u l-bidliet fid-dehra, li jeħtieġu dipendenzi kemm fuq oqsma temporali kif ukoll spazjali. Huwa propost varjant ġdid tal-mekkaniżmu tal-attenzjoni msejjaħ il-mekkaniżmu tal-attenzjoni doppja. Din l-arkitettura taqbad interazzjoni spazjotemporali fit-tul minn dimensjonijiet temporali u spazjali, rispettivament, u mbagħad ir-rappreżentazzjonijiet miksuba huma aggregati għal tbassir futur.

cistanche għall-bejgħfil-memorja
Il-modulu ta 'attenzjoni doppja huwa muri fil-Figura 3 inklużi l-istati moħbija tat-timestamp kurrenti Ht ∈ RH × W × C u dawk storiċi {H1 . . . Ht−1} ∈ Rn × H × W × C, fejn H u W huma daqsijiet spazjali, C huwa n-numru ta 'kanali, u n jindika n-numru ta' rappreżentazzjonijiet moħbija li huma konkatenati tul id-dimensjoni temporali, rispettivament

4. Konklużjonijiet
Ġie propost DMANet għal tbassir spazjotemporali f'dan id-dokument. Unità DML-STM tintuża biex tiġbed b'mod effiċjenti r-rappreżentazzjonijiet billi tisfrutta operazzjonijiet ta 'differenzjazzjoni bejn l-immaġini konsekuttivi u tadotta mekkaniżmu ta' transizzjoni ta 'memorja doppja. Mekkaniżmu ta 'attenzjoni doppja huwa ddisinjat biex jaqbad dipendenzi spazjotemporali fit-tul billi jikkalkula l-korrelazzjonijiet bejn ir-rappreżentazzjonijiet moħbija bħalissa u r-rappreżentazzjonijiet moħbija storiċi minn dimensjonijiet temporali u spazjali, rispettivament. Id-DMANet jgħaqqad kemm il-vantaġġi u disinn arkitettoniku bħal dan jippermetti lill-mudell b'qawwa akbar ta 'mudellar għal dinamika għal żmien qasir u rappreżentazzjonijiet kuntestwali fit-tul. Ir-riżultati sperimentali juru li l-metodu tagħna għandu prestazzjoni eċċellenti fit-tbassir spazjotemporali.

fejn tixtri cistanche fil-memorja
It-tbassir spazjotemporali huwa triq promettenti għat-tagħlim awto-sorveljat ta' korrelazzjonijiet spazjotemporali sinjuri. Għal xogħol fil-futur, se ninvestigaw kif nisseparaw l-oġġetti li jiċċaqilqu mill-isfond u npoġġu aktar attenzjoni fuq l-oġġetti li jiċċaqilqu., Se nippruvaw nibnu wkoll sistema ta 'nowcasting tar-reżistenza apparenti biex nipproteġu l-Grotti Ċiniżi mill-ilma.
Referenzi
1. Yao, Y.; Atkins, E.; Johnson-Roberson, M.; Vasudevan, R.; Du, X. Bitrap: Tbassir bi-direzzjonali tat-trajettorja tal-pedestrian bi stima tal-għan multi-modali. IEEE Robot. Autom. Lett. 2021, 2, 1463–1470. [CrossRef]
2. Kanzunetta, Z.; Sui, H.; Li, H. Metodu ta 'skoperta ta' oġġetti ġerarkiċi f'immaġnijiet bis-satellita ottiċi ta 'rilevament remot fuq skala kbira bl-użu ta' sejbien ta 'saliency u CNN. Int. J. Remote Sens 2021, 42, 2827–2847. [CrossRef]
3. Li, Y.; Cai, Y.; Li, J.; Lang, S.; Zhang, X. Netwerking ta 'unità spazjali-temporali għall-iskoperta ta' anomaliji tal-vidjo. Aċċess IEEE 2019, 1, 172425–172432. [CrossRef]
4. Yurtsever, E.; Lambert, J.; Carballo, A.; Takeda, K. Stħarriġ tas-sewqan awtonomu: Prattiċi komuni u teknoloġiji emerġenti. IEEE Access 2020, 8, 58443–58469. [CrossRef]
5. Shi, X.; Chen, Z.; Wang, H.; Yeung, DY Netwerk Konvoluzzjonali LSTM: Approċċ ta 'tagħlim tal-magni għall-preċipitazzjoni nowcasting. Fil-Proċedimenti tad-29 Konferenza dwar is-Sistemi tal-Ipproċessar tal-Informazzjoni Neural, Montreal, QC, Kanada, 7–12 ta’ Ġunju 2015; pp. 802–810.
6. Wang, Y.; Li, M.; Wang, J.; Gao, Z.; Yu, P. PredRNN: Netwerks newrali rikorrenti għal tagħlim ta 'tbassir bl-użu ta' LSTMs spazjotemporali. Fil-Proċedimenti tal-31 Konferenza dwar is-Sistemi tal-Ipproċessar tal-Informazzjoni Neural, Long Beach, BC, Kanada, 4–9 ta’ Diċembru 2017; pp. 879–888.
7. Wang, Y.; Gao, Z.; Twil, M.; Wang, J.; Yu, P. PredRNN plus plus : Lejn riżoluzzjoni tad-dilemma fil-fond fil-ħin fit-tagħlim ta' tbassir spazjotemporali. Fil-Proċedimenti tal-35 Konferenza Internazzjonali dwar it-Tagħlim tal-Machine, Stokkolma, l-Isvezja, 10–15 ta’ April 2019; pp. 5123–5132.
8. Goodfellow, IJ; Pouget-Abadie, J.; Mirza, M.; Xu, B.; Warde-Farley, D. Netwerks avversarji ġenerattivi. Fil-Proċedimenti tat-28 Konferenza dwar is-Sistemi tal-Ipproċessar tal-Informazzjoni Newrali, Montreal, QC, Kanada, 8–13 ta’ Diċembru 2014; pp. 2672–2680.
9. Ivanovic, B.; Karen, L.; Edward, S.; Pavone, M. Mudelli ġenerattivi profondi multimodali għat-tbassir tat-trajettorja: Approċċ ta 'awtoencoder varjazzjoni kondizzjonali. IEEE Robot. Autom. Lett. 2021, 2, 295–302. [CrossRef]
10. Rumelhart, D.; Hinton, G.; Williams, R. Tagħlim rappreżentazzjonijiet mill-iżbalji back-propagating. Natura 1986, 1, 533–536. [CrossRef]
11. Hochreiter, S.; Schmidhuber, J. Memorja fit-tul għal żmien qasir. Kompjuter newrali. 1997, 8, 1735–1780. [CrossRef]
12. Sutskever, I.; Vinyals, O.; Le, Q. Tagħlim minn sekwenza għal sekwenza b'netwerks newrali. Fi Proċedimenti tal-Advances in Neural Information Processing Systems, Montreal, QC, Kanada, 8–13 ta’ Diċembru 2014; pp. 3104–3112.
13. Das, M.; Ghosh, S. Ensemble ta 'tbassir ibbażat fuq it-tagħlim profond biex ibassar data nieqsa għal analiżi ta' telerilevament. IEEE J. Sel. Fuq. Appl. Earth Observ. Remote Sens 2017, 12, 5228–5236. [CrossRef]
14. Oliu, M.; Selva, J.; Escalera, S. Netwerks newrali rikorrenti mitwija għal tbassir tal-vidjo futur. Fi Proċedimenti tal-15-il Konferenza Ewropea dwar il-Viżjoni tal-Kompjuter, Munich, il-Ġermanja, 8–14 ta’ Diċembru 2018; pp. 716–731.
15. Seng, D.; Zhang, Q.; Zhang, X.; Chen, G.; Chen, X. Tbassir spazjotemporal tal-kwalità tal-arja bbażata fuq netwerk newrali LSTM. Alex. Inġ. J. 2021, 60, 2021–2032. [CrossRef]
16. Abed, A.; Ramin, Q.; Abed, A. Il-previżjoni awtomatizzata ta 'flares solari minn stampi SDO bl-użu ta' tagħlim fil-fond. Adv. Spazju Res. 2021, 67, 2544–2557. [CrossRef]
17. Li, S.; Fang, J.; Xu, H.; Xue, J. Tbassir tal-qafas tal-vidjo minn netwerk ta 'maskra b'ħafna fergħat fil-fond. IEEE Trans. Ċirkwiti Syst. Video Technol. 2020, 4, 1–12. [CrossRef]
18. Wang, Y.; Zhang, J.; Zhu, H.; Twil, M.; Wang, J.; Yu, P. Memorja fil-memorja: Netwerk newrali ta 'tbassir għat-tagħlim ta' non-stazzjonarjetà ta 'ordni ogħla minn dinamika spazjotemporali. Fil-Proċedimenti tal-Konferenza tal-IEEE dwar il-Viżjoni tal-Kompjuter u r-Rikonoxximent tal-Disinn, Long Beach, BC, Kanada, 16–20 ta’ Ġunju 2020; pp. 9146–9154.
19. Chen, X.; Xu, C.; Yang, X.; Yang, X.; Tao, D. Tbassir tal-vidjo fit-tul permezz ta 'kritika u retrospezzjoni. IEEE Trans. Proċess tal-Immaġni. 2020, 29, 7090–7103. [CrossRef]
20. Neda, E.; Reza, F. AptaNet bħala approċċ ta 'tagħlim fil-fond għall-previżjoni ta' interazzjoni aptamer-proteina. Sci. Ri. 2021, 11, 6074–6093.
21. Shen, B.; Ge, Z. Sistema dinamika mhux lineari peżata għal estrazzjoni fil-fond ta 'varjabbli dinamiċi latenti mhux lineari u applikazzjoni industrijali. IEEE Trans. Ind. 2021, 5, 3090–3098. [CrossRef]
22. Zhou, J.; Dai, H.; Wang, H.; Wang, T. Mudell ta 'attenzjoni wiesgħa u kompost fil-fond għat-tbassir tal-fluss tat-traffiku fis-sistemi ċiber-fiżiċi tat-trasport. IEEE Trans. Ind. 2021, 17, 3431–3440. [CrossRef]
23. Patil, K.; Deo, M. Tbassir fuq skala tal-baċir tat-temperatura tal-wiċċ tal-baħar b'Netwerks Neural artifiċjali. J. Atmos. Oċean. Technol. 2018, 7, 1441–1455. [CrossRef]
24. Amato, F.; Guinard, F.; Robert, S.; Kanevski, M. Qafas ġdid għal tbassir spazjo-temporali ta 'dejta ambjentali bl-użu ta' tagħlim fil-fond. Sci. Rep 2020, 10, 22243–22254. [CrossRef]
25. Yan, J.; Qin, G.; Zhao, R.; Liang, Y.; Xu, Q. Mixpred: Tbassir tal-vidjo lil hinn mill-fluss ottiku. Aċċess IEEE 2019, 1, 185654–185665. [CrossRef]
26. Wang, Y.; Jiang, L.; Yang, M.; Li, L.; Twil, M.; Li, F. Eidetic 3D LSTM: Mudell għat-tbassir tal-vidjo u lil hinn. Fi Proceedings of the International Conference on Learning Representations, New Orleans, LA, l-Istati Uniti, 6–9 ta’ Mejju 2019; pp. 1–14.
27. Vaswani, A.; Shazier, N.; Parmar, N.; Uszkoreit, J.; Jones, L. L-attenzjoni hija kulma għandek bżonn. Fil-Proċedimenti tal-31 Konferenza dwar is-Sistemi tal-Ipproċessar tal-Informazzjoni Neural, Long Beach, BC, Kanada, 4–9 ta’ Diċembru 2017; pp. 5998–6008.
28. Chen, Y.; Kalantidis, Y.; Li, J.; Feng, Xbieki J. A2: Netwerks ta 'attenzjoni doppja. Fil-Proċedimenti tat-32 Konferenza dwar is-Sistemi tal-Ipproċessar tal-Informazzjoni Newrali, Montreal, QC, Kanada, 2–8 ta’ Diċembru 2018; pp. 352–361.
29. Huang, Z.; Wang, X.; Wei, Y.; Huang, L.; Shi, H. Ccnet: Attenzjoni bejn wieħed u ieħor għas-segmentazzjoni semantika. IEEE Trans. Mudell Anal. Mach. Intell. 2020, 1, 1–11. [CrossRef]
30. Fu, J.; Liu, J.; Tian, H.; Li, Y. Netwerk ta 'attenzjoni doppja għas-segmentazzjoni tax-xena. Fil-Proċedimenti tal-Konferenza tal-IEEE dwar il-Viżjoni tal-Kompjuter u r-Rikonoxximent tal-Disinn, Long Beach, BC, Kanada, 16–20 ta’ Ġunju 2019; pp. 3146–3154.
31. Wang, Z.; Bovik, A.; Sheikh, H. Valutazzjoni tal-kwalità tal-immaġni: Mill-viżibilità tal-iżball għal xebh strutturali. IEEE Trans. Proċess tal-Immaġni. 2004, 4, 600–612. [CrossRef]
32. Liu, Q.; Lu, S.; Lan, L. Yolov3 ditekter tal-wiċċ tal-attenzjoni bi preċiżjoni u effiċjenza għolja. Komp. Syst. Sci. Inġ. 2021, 37, 283–295.
33. Li, X.; Xu, F.; Xin, L. Netwerks ta 'segmentazzjoni semantika ta' fużjoni fil-fond ta 'attenzjoni doppja ta' immaġini ta 'telerilevament bis-satellita fuq skala kbira. Int. J. Remote Sens 2021, 42, 3583–3610. [CrossRef]
34. Srivastava, N.; Mansimov, E.; Salakhutdinov, R. Tagħlim mhux sorveljat ta 'rappreżentazzjonijiet tal-vidjo bl-użu ta' LSTMs. Fil-Proċedimenti tat-32 Konferenza Internazzjonali dwar it-Tagħlim tal-Machine, Lille, Franza, 6–11 ta’ Ġunju 2015; pp. 843–852.
35. Geiger, A.; Lenz, P.; Stiller, C.; Urtasun, R. Vision meets robotics: The KITTI dataset. Int. J. Robot. Riż. 2013, 32, 1231–1237. [CrossRef]
36. Dollaru, P.; Wojek, C.; Schiele, B.; Perona, P. Sejbien tal-pedestrian: A benchmark. Fil-Proċedimenti tal-Konferenza tal-IEEE dwar il-Viżjoni tal-Kompjuter u r-Rikonoxximent tal-Disinn, Miami, FL, USA, 20–25 ta’ Ġunju 2009; pp. 304–311.
37. Liu, J.; Jin, B.; Yang, J.; Xu, L. Tbassir tat-temperatura tal-wiċċ tal-baħar bl-użu ta 'interpolazzjoni B-spline kubika u mekkaniżmu ta' attenzjoni spazjotemporali. Remote Sens Lett. 2021, 12, 12478–12487. [CrossRef]
