Rikonoxximent Spazjo-Temporal ġdid tal-Lingwa tas-Sinjali Kontinwu Bl-Użu ta' Netwerk Attentiv b'Multi Karatteristiċi(1)
Jun 01, 2023
Astratt: Minħabba streams tal-vidjo, aħna nimmiraw li niskopru b'mod korrett sinjali mhux segmentati relatati mar-rikonoxximent kontinwu tal-lingwa tas-sinjali (CSLR). Minkejja ż-żieda fil-metodi ta 'tagħlim profond proposti f'dan il-qasam, ħafna minnhom jiffokaw prinċipalment fuq l-użu biss ta' karatteristika RGB, jew l-immaġni full-frame jew id-dettalji tal-idejn u l-wiċċ. L-iskarsezza ta 'informazzjoni għall-proċess ta' taħriġ CSLR tillimita ħafna l-kapaċità li jitgħallmu karatteristiċi multipli bl-użu ta 'frejms ta' input tal-vidjo. Barra minn hekk, l-isfruttament tal-frejms kollha f'video għall-kompitu CSLR jista' jwassal għal prestazzjoni subottimali peress li kull frame fih livell differenti ta' informazzjoni, inklużi l-karatteristiċi ewlenin fl-inferenza tal-istorbju. Għalhekk, nipproponu rikonoxximent spazjotemporali kontinwu tal-lingwa tas-sinjali ġdid bl-użu tan-netwerk attent b'ħafna karatteristiċi biex ittejjeb is-CSLR billi tipprovdi karatteristiċi ta 'punti ewlenin żejda. Barra minn hekk, nisfruttaw is-saff ta 'attenzjoni fil-moduli spazjali u temporali biex simultanjament nenfasizzaw karatteristiċi importanti multipli. Riżultati sperimentali miż-żewġ settijiet tad-dejta CSLR juru li l-metodu propost jikseb prestazzjoni superjuri meta mqabbel mal-metodi l-aktar avvanzati attwali b'0.76 u 20.56 għall-punteġġ WER fuq settijiet ta 'dejta CSL u PHOENIX, rispettivament.

Superman ħwawar cistanche
Kliem ewlieni: lingwa tas-sinjali kontinwa; spazjali; temporali; multi-karatteristika; punti ewlenin; awto-attenzjoni
1. Introduzzjoni
Il-Lingwa tas-Sinjali tagħti prijorità lill-komunikazzjoni manwali billi tuża ġesti tal-idejn, lingwaġġ tal-ġisem, u movimenti tax-xufftejn minflok ħoss biex tikkomunika [1,2]. Normalment, il-lingwa tas-sinjali tintuża minn nies neqsin mis-smigħ jew li ma tantx jisimgħu, iżda tista’ tintuża wkoll f’sitwazzjonijiet fejn huwa impossibbli jew diffiċli li tisma’ ħsejjes. Għalhekk, sistema ta' rikonoxximent tal-lingwa tas-sinjali (SLR) hija meħtieġa peress li tgħin biex tgħaqqad nies li ma jisimgħux u dawk li mhumiex.
F'dawn l-aħħar snin, ir-riċerkaturi ffukaw ħafna attenzjoni fuq SLR minħabba l-informazzjoni viżiva rikka li tipprovdi. Studji SLR reċenti huma ġeneralment miġbura f'rikonoxximent iżolat tal-lingwa tas-sinjali (ISLR) jew rikonoxximent kontinwu tal-lingwa tas-sinjali (CSLR). Diversi xogħlijiet jindirizzaw biss ISLR [3,4], filwaqt li oħrajn janalizzaw biss ħidmiet aktar faċli, bħal ġesti statiċi għar-rikonoxximent tal-alfabett [5]. Sadanittant, l-aħħar metodi huma ġeneralment aktar ikkumplikati peress li jsolvu l-kompiti CSLR [6–8]. Meta mqabbel ma 'ISLR, CSLR hija problema aktar ta' sfida peress li tinvolvi r-rikostruzzjoni tas-sentenzi.

Te Cistanche
Ikklikkja hawn biex tara l-prodotti tat-te Cistanche deserticola
【Staqsi għal aktar】 Email:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692
Ir-riċerka CSLR għadha fid-domanda kbira minħabba li l-implimentazzjoni tagħha hija relatata mill-qrib mal-kundizzjonijiet ta 'kuljum fid-dinja reali. Dan l-approċċ għandu l-għan li jirrikonoxxi s-serje ta 'glosses li jseħħu f'serje ta' vidjow mingħajr segmentazzjoni ċara jew saħansitra xejn. Barra minn hekk, tinkorpora ħafna riċerka dwar it-tagħlim tal-magni u fehim bir-reqqa tal-imġieba tal-bniedem. Pereżempju, jinvolvi l-intraċċar tal-moviment tal-bniedem [9], ir-rikonoxximent tal-ġesti [10], u r-rikonoxximent tal-wiċċ [11]. Madankollu, hemm diversi sfidi għat-twettiq tal-kompiti CSLR.
L-ewwel, il-ġbir tad-dejta u l-annotazzjoni huma għaljin għas-CSLR [12]. Din hija forsi waħda mill-isfidi ffaċċjati fl-iżvilupp tagħha peress li s-CSLR huwa involut f'netwerk kbir u l-ammont ta' dejta jaffettwa bil-qawwa l-prestazzjoni [13]. Barra minn hekk, bosta settijiet ta' dejta disponibbli għal-lingwa tas-sinjali huma annotati dgħajjef [12,14,15]. Biex issolvi din il-kwistjoni, bosta studji użaw approċċ sorveljat dgħajjef, flimkien mal-applikazzjoni ta 'allinjament u modulu estrattur tal-karatteristiċi għall-arkitettura tan-netwerk [12].
It-tieni, meta mqabbel ma 'ISLR, CSLR huwa aktar ikkumplikat. Informazzjoni suffiċjenti hija akkwistata bl-użu ta 'diversi karatteristiċi; dan ġie ppruvat li jikseb prestazzjoni aħjar mill-użu ta 'karatteristika waħda kif irrappurtat f'xogħlijiet preċedenti [16-18]. Dawn il-karatteristiċi multipli jikkonsistu mill-karatteristika ewlenija li hija immaġni tal-ġisem li tikseb l-ogħla preċiżjoni u karatteristiċi addizzjonali, bħall-poża, ir-ras, ix-xellug u l-lemin, li għandha preċiżjoni aktar baxxa għall-prestazzjoni individwali [17,18]. It-taħriġ ta' netwerk kbir b'ammont kbir ta' dejta jieħu ħafna ħin [13]. Iż-żieda tal-fluss ta 'input iżid ukoll il-ħin tat-taħriġ, filwaqt li l-użu ta' karatteristiċi addizzjonali bbażati fuq l-immaġni jżid l-ispiża [19]. Għalhekk, għandna bżonn nagħżlu karatteristiċi importanti sabiex inkunu nistgħu nitħarrġu b'mod effiċjenti.

Cistanche tal-ħaxix Ċiniż
It-tielet, l-input tal-vidjo għandu numru kbir ta 'immaġini fis-sekwenza. Xi stampi għandhom forma ta 'l-idejn mhux ċara minħabba l-moviment mgħaġġel, li possibbilment iwassal għal informazzjoni mhux korretta. Għalhekk, il-mudell propost tagħna juża l-attenzjoni personali bbażata fuq [20] biex jgħin fl-għażla ta 'informazzjoni importanti. Barra minn hekk, l-awto-attenzjoni ppruvata minn [21,22] għandha impatt fuq it-titjib tal-prestazzjoni.
Għalhekk, nipproponu mudell ġdid imsejjaħ il-ġdid spatiotemporal attentive multi-feature (STAMF) biex jittratta l-problemi kollha. Segwejna xogħlijiet preċedenti [17,23], li ġew ippruvati li jaħdmu għal CSLR bi problemi ta 'annotazzjoni dgħajfa. Jibnu l-mudell bl-użu ta 'tliet komponenti ewlenin: l-ewwel huwa l-modulu spazjali, it-tieni huwa l-modulu temporali, u t-tielet huwa l-modulu tat-tagħlim tas-sekwenza. Nipproponu input b'ħafna karatteristiċi effiċjenti u effettiv bl-użu tal-karatteristika tal-qafas sħiħ flimkien ma 'karatteristiċi ewlenin biex iwettqu kompiti CSLR. Il-karatteristika full-frame tirrappreżenta l-immaġni tal-ġisem bħala l-karatteristika ewlenija, u l-karatteristiċi ewlenin bħala l-karatteristika addizzjonali. Il-karatteristika tal-punt ewlieni hija l-poża tal-ġisem, inkluż id-dettall tal-pożizzjoni tal-idejn. Din il-poża tal-ġisem hija l-aktar karatteristika addizzjonali effettiva peress li f'xi xogħlijiet ġie ppruvat li tikseb l-ogħla preċiżjoni wara l-karatteristika full-frame [17,18]. Aħna nużaw ukoll modulu tal-attenzjoni li juża l-attenzjoni personali bbażata fuq [20] biex jaqbad il-karatteristika importanti u biex jgħin it-tagħlim tas-sekwenza jtejjeb il-prestazzjoni.
Il-kontribut ta' dan il-manuskritt huwa miġbur fil-qosor kif ġej: • Nintroduċu attenzjoni temporali ġdida fil-modulu tas-sekwenza biex naqbdu l-punti importanti taż-żmien li jikkontribwixxu għall-output finali; • Nintroduċu l-multi-karatteristika li tikkonsisti mill-karatteristika full-frame mill-valur RGB tal-qafas bħala l-karatteristika ewlenija u l-karatteristiċi ewlenin li jinkludu l-poża tal-ġisem bid-dettall tal-forma tal-idejn bħala karatteristika addizzjonali biex ittejjeb il-prestazzjoni tar-rikonoxximent tal-mudell; • Aħna nużaw il-metrika WER biex nuru li l-mudell STAMF propost tagħna jegħleb il-mudelli l-aktar avvanzati fuq iż-żewġ settijiet ta 'dejta ta' riferiment CSLR permezz tal-esperimenti.

Suppliment ta 'Cistanche qrib tiegħi-Improve Memory
2. Xogħlijiet Relatati
Kien hemm diversi avvanzi fit-teknoloġija, u saret ħafna riċerka fuq SLR. Studji preċedenti [24–27] esploraw il-possibbiltà li tuża ISLR li għandha segmentazzjoni għal kull kelma. F'dawn l-aħħar snin, intużaw metodi bbażati fuq it-tagħlim profond biex jiġu estratti karatteristiċi bl-użu ta 'netwerks konvoluzzjonali, jew 2D [28,29] jew 3D [30,31], għar-rappreżentazzjoni viżiva qawwija tagħhom. Il-maġġoranza tar-riċerka bikrija dwar ir-rikonoxximent tal-lingwa tas-sinjali ċċentrata fuq ISLR b'karatteristiċi multimodali [30–32], bħal RGB, mapep tal-fond, u skeletri, li jagħtu prestazzjoni aħjar.
Illum il-ġurnata, is-CSLR saret aktar popolari, għalkemm ma ġietx segmentata b'mod ċar bejn kull kelma. Xogħlijiet bikrija jużaw estrattur tal-karatteristiċi CNN [6,33] u HMM [34] biex jibnu l-mira tas-sekwenza. Xi riċerka reċenti għas-sistemi CSLR [17,23] inkludiet tliet passi ewlenin fit-twettiq tal-kompitu tar-rikonoxximent tal-problema. L-ewwel, huma wettqu l-estrazzjoni tal-karatteristiċi spazjali, imbagħad is-segmentazzjoni temporali, u finalment sinteżi tas-sentenza b'mudell tal-lingwa [35], jew użaw it-tagħlim tas-sekwenza [17,23]. Dan it-tagħlim tas-sekwenza uża Bi-LSTM u CTC biex minjiera r-relazzjoni bejn it-tleqqija tas-sinjali fis-sekwenzi tal-vidjo. Anke jekk juża annotazzjoni dgħajfa li għandha sekwenzi tal-vidjow mhux segmentati biex tiddefinixxi l-glosses tas-sinjali, dawn l-approċċi wrew riżultati promettenti.
Madankollu, l-aktar studju reċenti tal-CLSR relatat li implimenta approċċ b'ħafna karatteristiċi [17] uża ħames karatteristiċi simultanjament. L-approċċ b'ħafna karatteristiċi huwa itqal meta mqabbel mal-użu ta 'inqas karatteristiċi [19]. Dan l-approċċ ukoll ma jistax jimmaniġġja l-frejms storbjużi mis-sekwenza tal-vidjo li għandhom informazzjoni mhux ċara, bħal forma ta 'l-idejn imċajpra minħabba moviment mgħaġġel. Barra minn hekk, li tiddependi fuq it-tagħlim tas-sekwenza bbażat fuq RNN jista' jiltaqa' ma' problemi b'sekwenzi twal u jista' jitlef il-kuntest globali [20].

Suppliment ta 'Cistanche qrib tiegħi-Improve Memory
Ir-riċerka attwali għandha l-għan li ttejjeb il-prestazzjoni billi żżid mekkaniżmu ta 'awto-attenzjoni [21,22] li jista' jimmaniġġja sekwenzi itwal biex jitgħallmu l-kuntest globali. L-attenzjoni personali hija bbażata fuq riċerka bikrija [20] li wriet li l-attenzjoni personali għandha l-vantaġġ li tkun kapaċi timmaniġġja dipendenzi twal. Madankollu, din l-awto-attenzjoni hija aktar faċli biex titgħallem triq iqsar meta mqabbla ma 'triq itwal b'dipendenzi twal. Fix-xogħlijiet CLSR preċedenti [21,22] l-attenzjoni personali tista' tgħin lin-netwerk jitgħallem il-karatteristika b'mod aktar effettiv.
Għalhekk, f'dan id-dokument, nintroduċu mudell ġdid spazjotemporali b'ħafna karatteristiċi attenti. Dan il-mudell propost effettivament estratti l-karatteristiċi importanti u jitgħallem is-sekwenza aħjar billi jagħti informazzjoni importanti bl-użu ta 'mekkaniżmu ta' awto-attenzjoni minn multi-karatteristika. Il-proċessi kollha huma esegwiti b'approċċ minn tarf sa tarf.
3. Metodu propost
Din it-taqsima tagħti dettalji dwar it-tekniki ewlenin tal-mudell propost tagħna għal CSLR. Għalhekk, nibdew din it-taqsima billi nispjegaw il-ħarsa ġenerali tal-mudell propost tagħna. Barra minn hekk, nipprovdu aktar dettalji dwar kull komponent ewlieni, inkluż il-modulu spazjali, il-modulu temporali, u l-modulu tat-tagħlim tas-sekwenza. Barra minn hekk, nispjegaw ukoll il-modulu ta 'attenzjoni propost tagħna biex ngħinu lill-mudell jitgħallem aħjar. Fl-aħħarnett, nistgħu nintegraw il-qafas għat-taħriġ u l-inferenza fil-mudell propost tagħna.
3.1. Ħarsa Ġenerali tal-Qafas
Minħabba input tal-vidjo, il-mudell propost tagħna għandu l-għan li jbassar is-sinjal korrispondenti f'sentenza ta 'tleqqija korretta. L-ewwel modulu jiġġenera karatteristiċi spazjali multipli, bħal karatteristiċi full-frame u punti ewlenin għal kull frejm T tal-vidjo. Imbagħad, il-modulu temporali jippermettilna nġibu korrelazzjonijiet temporali tal-karatteristiċi spazjali bejn il-frejms għaż-żewġ flussi. Bħala pass finali, in-netwerks spazjali u temporali ġew marbuta ma 'memorja bidirezzjonali fit-tul għal żmien qasir (Bi-LSTM) u CTC għat-tagħlim tas-sekwenza u l-inferenza. Sussegwentement, nispjegaw il-komponenti ewlenin tagħna f'aktar dettall u konsekuttivament. Il-ħarsa ġenerali tal-arkitettura proposta tagħna tidher fil-Figura 1.

Figura 1. L-arkitettura ġenerali tal-metodu propost tikkonsisti fi tliet komponenti: modulu spazjali, modulu temporali, u modulu ta 'tagħlim tas-sekwenza. Il-modulu spazjali l-ewwel jieħu s-sekwenza tal-immaġini biex jiġbed karatteristiċi tal-qafas u mbagħad japplika l-modulu temporali biex jiġbed il-karatteristiċi temporali. Imbagħad, il-karatteristiċi temporali jintbagħtu lill-modulu tat-tagħlim tas-sekwenza biex iwettaq tbassir tal-kliem u jibniha f'sentenza
3.2. Modulu Spazjali
Il-modulu spazjali jisfrutta karatteristika full-frame u karatteristiċi ewlenin, kif muri fil-Figura 2. Dan il-modulu juża arkitettura tan-netwerk 2D-CNN bħala s-sinsla, u ResNet50 jintgħażel biex jaqbad il-multi-karatteristiċi. ResNet50 huwa aktar effettiv biex jintuża meta mqabbel ma 'arkitettura ResNet riċenti f'termini ta' żmien filwaqt li għandu riżultat komparabbli [36,37]. L-RGB juża ResNet50 direttament, filwaqt li l-punt ewlieni huwa miksub minn HRNet [38] mill-qafas tal-vidjo u jiġi estratt bl-użu ta 'ResNet50 biex tikseb il-karatteristiċi tal-punt ewlieni.

Figura 2. L-arkitettura tal-modulu spazjali tuża input multi-stream. Nixxiegħa RGB bħala karatteristika full-frame u fluss ta 'punti ewlenin bħala karatteristika ta' punt ewlieni.
3.2.1. Karatteristika Full-Frame
Aħna applikajna l-passi tal-ipproċessar minn qabel tagħna għad-dejta RGB u mbagħad tajna d-dejta tagħna fil-mudell. Imbagħad inpoġġuhom bħala input full-frame fl-arkitettura tagħna. Il-Figura 3 turi l-illustrazzjoni tal-immaġni RGB oriġinali fuq in-naħa tax-xellug u l-immaġni maħsuda fuq in-naħa tal-lemin. L-immaġni maħsuda tintuża bħala input mill-mudell. Dan juri l-pass tal-ipproċessar minn qabel li jnaqqas il-partijiet inqas importanti tal-immaġni u jiffoka aktar fuq il-firmatarju. Dan il-ħsad juża metodu tal-ħsad bl-addoċċ minn [12] biex iżid is-sett tad-dejta. Il-karatteristika fullframe hija estratta mill-immaġni maħsuda għal kull qafas fis-sekwenza bl-użu tar-ResNet50.

Figura 3. Karatteristika full-frame bl-użu ta 'immaġni RGB, l-immaġni (immaġni tax-xellug) hija l-immaġni oriġinali, u l-immaġni (immaġni tal-lemin) hija l-immaġni maħsuda biex taġġusta mal-mudell propost
3.2.2. Karatteristiċi tal-punti ewlenin
Aħna estratti l-karatteristiċi tal-punti ewlenin fil-modulu spazjali mid-dejta RGB għal kull frejm fl-input tal-vidjo. Il-kwalità tal-karatteristiċi ewlenin għandha rwol importanti fil-mudell propost tagħna, għalhekk jeħtieġ li nużaw approċċ robust, bħal HRNet [38]. Aħna impjegajna HRNet imħarreġ minn qabel [38] biex nistmaw il-133 punt ewlieni tal-ġisem kollha, u użajna 27 mill-133 punt ewlieni mir-riżultat tiegħu. Kif muri fil-Figura 4, in-naħa tax-xellug hija l-punt ewlieni oriġinali ta 'fuq tal-ġisem, u n-naħa tal-lemin hija s-27 punt ewlieni tal-parti ta' fuq tal-ġisem magħżula. Dawn is-27 punt ewlieni jinkludu polz, minkbejn, spallejn, għonq, idejn u swaba.

Figura 4. Karatteristiċi tal-punti ewlenin tas-sett tad-dejta PHOENIX-RWTH [33,39], estrazzjoni (immaġni tax-xellug) minn immaġni RGB, u l-immaġni (immaġni tal-lemin) hija l-punt ewlieni magħżul użat mill-mudell propost.
3.3. Modulu Temporali
Il-modulu temporali għandu l-għan li jitgħallem informazzjoni spazjotemporali mill-modulu spazjali. Il-moduli temporali jinbnew permezz ta' Stacked Temporal Pooling għal kull fluss. Kif muri fil-Figura 5, il-modulu ta 'pooling temporali jikkonsisti f'saff ta' konvoluzzjoni temporali u saff ta 'pooling biex jiġu estratti karatteristiċi minn inputs sekwenzjali.

Figura 5. L-arkitettura tal-modulu temporali tikkonsisti minn 1D-CNN f'munzelli u saff ta 'pooling inkorporat b'modulu ta' attenzjoni. Aħdem b'mod parallel għaż-żewġ flussi ta 'karatteristiċi konkatenati fl-aħħar tas-saffi f'munzelli, u tipproduċi karatteristika temporali waħda b'tul ta' sekwenza erba 'darbiet iżgħar.
L-input huwa lista ta' multi-karatteristiċi spazjali mill-istadju preċedenti. Il-karatteristika temporali tinkiseb bl-użu tas-saff ta 'konvoluzzjoni temporali li huwa saff konvoluzzjonali wieħed 1D bl-istess tulijiet ta' input u output, segwit minn saff ta 'pooling wieħed li jnaqqas id-daqs għal nofs. L-użu ta 'dawn iż-żewġ saffi ta' ġbir temporali f'munzelli huwa l-aħjar konfigurazzjoni, skont ix-xogħlijiet preċedenti [12]. Wara kull ġbir temporali, aħna inkorporaw modulu ta 'attenzjoni li se jiġi spjegat fid-dettall fit-Taqsima 3.4. Fl-aħħar, aħna nikkonkatenaw l-output ta 'pooling temporali miż-żewġ flussi.
3.4. Modulu Attenzjoni
Il-vidjo għandu frejms multipli fejn xi partijiet tal-immaġni kultant huma mċajpra. Is-sett tad-dejta RTWH-PHOENIX [33,39] għandu aktar frames difettużi mis-sett tad-dejta CSL [8,40,41]. Dan jiġri meta l-moviment ikun mgħaġġel wisq, u joħloq immaġni mċajpra u jirriżulta fil-post tal-punt ewlieni ħażin. Dan il-qafas huwa meqjus bħala difettuż u potenzjalment iwassal għal interpretazzjoni ħażina kemm tal-karatteristiċi RGB kif ukoll tal-punti ewlenin. Il-Figura 6 turi illustrazzjoni ta 'frejms difettużi fis-sett tad-dejta RTWH-PHOENIX [33]. Sabiex tittratta din il-problema, aħna żidna saff ta 'attenzjoni.

Figura 6. Illustrazzjoni ta 'frejms ta' difetti fuq is-sett tad-dejta RWTH-PHOENIX [33,39]. Uħud mill-punti ewlenin fiż-żona ta 'l-idejn huma f'pożizzjoni ħażina minħabba stampi mċajpra.
Bl-użu tal-algoritmu CTC, l-allinjament tal-mogħdija flimkien mal-ittikkettar tiegħu jitwettaq bl-użu ta 'tikketta vojta u t-tneħħija tat-tikketti ripetuti. CTC jippreferi li jbassar tikketti vojta aktar milli konfini tleqq meta ma jistax jiddistingwi l-konfini tleqqija, iżda l-ebda riżultat ma huwa konvinċenti. Dan iwassal lin-netwerk biex juża CTC biex jipproduċi spikes fir-riżultati meta janalizza, jitgħallem u jbassar [42,43]. Ġeneralment, it-telf tas-CTC ifittex il-keyframes, u l-aħħar riżultat huwa t-tbassir ta 'keyframe partikolari li għandu probabbiltà għolja li jkun tikketta vojta jew tikketta mhux vojta. Jekk it-tleqqija tbassar l-istess tikketta jew tikketta vojta konsekuttivament, tirriżulta fl-istess output. Madankollu, jekk ikun hemm tikketta ta 'inserzjoni bejn l-istess tikketta, anki jekk ikun hemm żball wieħed biss, jirriżulta f'telf ferm akbar. Hawnhekk iż-żieda ta 'saff ta' attenzjoni tgħin biex tagħżel is-sekwenza temporali importanti qabel ma tintuża għal tagħlim sekwenzjali.
Il-modulu ta 'attenzjoni juża mekkaniżmu ta' awto-attenzjoni b'ħafna ras [20]. Il-modulu multi-head huwa użat biex imexxi diversi mekkaniżmi ta 'attenzjoni paralleli fl-istess ħin. L-attenzjoni multi-head tmur b'mod indipendenti biex tiffoka fuq id-dipendenzi għal żmien qasir jew id-dipendenzi fit-tul f'ras separata. Kull output imbagħad jiġi magħqud b'mod lineari u mibdul fil-forma mixtieqa.
Fl-istess ħin, il-mekkaniżmu ta 'awto-attenzjoni multi-head jieħu ħsieb l-informazzjoni minn subspazji ta' rappreżentazzjoni multipli, skont l-istorja tal-osservazzjonijiet. Għas-sempliċità, aħna nindikaw is-sekwenzi tal-input bħala X. Matematikament, għall-mudell ta' attenzjoni b'ras waħda, mogħtija l-input X t − T plus 1:t=[X t − T plus 1, · · ·, X t ] ∈ RT × N × P, jinkisbu tliet sottospazji, jiġifieri, is-subspazju tal-mistoqsija Q ∈ RN × dq, is-subspazju ewlieni K ∈ RN × dk, u s-subspazju tal-valur V ∈ RN × dv. Il-proċess ta’ tagħlim subspazjali latenti jista’ jiġi fformulat bħala [20]:
Q=XWQ, K=XWK , V=XWV ,
Imbagħad, l-attenzjoni tal-prodott b'tikek skalat tintuża biex tikkalkula l-output tal-attenzjoni bħala [20]:
Attenzjoni(Q, K, V)=hekk f tmaxQKT/ p dkV,
Barra minn hekk, jekk ikollna irjus multipli li fl-istess ħin isegwu r-rappreżentazzjonijiet multipli tal-input, nistgħu niksbu riżultati aktar rilevanti fl-istess ħin. L-aħħar pass huwa li tikkonkatena l-irjus kollha u tipproġettahom mill-ġdid biex tikkalkula l-punteġġ finali [20]:
MultiHead(Q,K,V)=Concat(head1,... , irjus )WO,
ras=Attenzjoni(Qi,Ki,Vi),
fejn Qi=XWQ i , Ki=XWVi , u WO ∈ R hd × dmodel. Fl-aħħarnett, tista 'tagħżel il-parti importanti mis-sekwenza tal-karatteristiċi minħabba li mhux l-informazzjoni kollha fis-sekwenza hija importanti.
Kif muri fil-Figura 7, nużaw il-modulu ta 'attenzjoni f'diversi konfigurazzjonijiet. L-ewwel modulu tal-attenzjoni jitqiegħed fit-tarf tal-modulu spazjali, filwaqt li t-tieni u t-tielet moduli tal-attenzjoni jitqiegħdu fil-modulu temporali. It-tieni modulu ta 'attenzjoni imsejjaħ il-modulu temporali bikri, jitqiegħed wara l-ewwel blokk ta' pooling temporali bħala input, filwaqt li t-tielet modulu ta 'attenzjoni temporali, imsejjaħ il-modulu ta' attenzjoni temporali tard, jitqiegħed wara t-tieni blokk ta 'pooling temporali.

Figura 7. Moduli ta 'attenzjoni huma inkorporati f'moduli spazjali u temporali f'konfigurazzjonijiet differenti.






