PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization
Recent progress in text-conditioned human motion generation has been largely driven by diffusion models trained on large-scale human motion data. Building on this progress, recent methods attempt to transfer such models for character animation and re…
Authors: Yangsong Zhang, Anujith Muraleedharan, Rikhat Akizhanov
P h y s M o D P O : P h y s i c a l l y - P l a u s i b l e H u m a n o i d M o t i o n w i t h P r e f e r e n c e O p t i m i z a t i o n Y a n gs o ng Zh a ng 1 , An uj it h Mu ra l ee dh a ra n 1 , Ri kh a t Ak i zh a no v 1 , Abd u l Ah ad Bu t t 1 , Gü l V ar o l 2 , P as c al F u a 3 , F a bi o Pi zz a ti 1 , an d Iv an L ap t ev 1 1 Mo h am ed Bi n Za y ed Un iv ers i t y of Ar ti fi c ia l In te ll ig e nc e (MB Z UA I) 2 LI G M, Éc ol e de s P o n ts , IP P ar i s, Un iv Gu s ta v e Ei ff e l, CN RS 3 Éc o le pol yt e c hn i qu e féd é ra le de La u sa nn e (E PF L) ht t ps : // ma e l-zy s. g it hu b .i o/ P hy sM o DP O/ A bs t ra c t. Re c en t pr o gr es s in t ex t -c on d it io n ed h u m an m ot io n ge n er at i on h as bee n lar g el y dr i v e n b y di f fu si o n mod el s tra i ne d on la r ge -s ca l e h u ma n mo t io n da t a. Bui l di ng on th i s p ro gr e ss , re ce n t me t hod s at te mp t to tra n sf er su c h mod - el s fo r c ha ra c te r an im at io n an d re al ro bot c on tro l b y ap pl yi n g a Wh ol e- B ody Co n t ro l le r (W B C) th at co n v e r ts di ff us i on -g e ne ra t ed mo ti on s in t o ex ec u ta bl e tr aje ct or i es . Whi l e WB C tr a je c to ri e s bec o me co mp l ia n t wi th p h ys i cs , the y ma y ex pos e su bs ta n t ia l de vi at io n s fr o m or i gi na l mot i on . T o ad d re ss th is is s ue , w e he re pr opo se Ph ys Mo DP O , a Di re c t Pr ef e re nc e Op ti mi z at io n fra m ew or k. Un l ik e pr i or w o rk th at re l ie s on h an d- cr a ft ed ph y si c s- a w a r e he ur is ti c s su c h as foo t -s li d in g pen al t ie s, w e in t eg r at e WBC in to ou r tr ai n in g pi pe li ne an d opt i - mi z e di ff u si on mod el su c h th at th e ou t pu t of WB C bec o me s co mp l ia n t bot h wi t h ph ys ic s an d or ig in al te x t in st r uc ti o ns . T o tr ai n Ph y sM o DP O w e de pl o y ph ys ic s- b as ed an d tas k -s pec i fi c re w a rd s and us e the m to a ss ig n pr e fe re n ce to sy n t he s iz ed tr a je c to ri e s. Ou r ex te n si v e ex per im en ts on tex t -t o- m ot io n and sp a ti al c on t r ol ta sk s de mo ns t ra te co n si st e n t im pr o v e me n t s of Ph y sM o DP O in bot h p h ys i ca l re a li sm an d ta s k- re l at ed me t ri cs on si m u la te d ro bot s. Mo re - o v e r , w e de mo ns tr a te th at Ph ys Mo D PO re su lt s in si gn if i ca n t im pr o v eme n t s wh e n app l ie d to ze ro - sh ot m ot io n tr an sf e r in si m ul a ti on and for rea l -w orl d de p lo yme n t on a G1 h um an oi d ro bot . K ey w o r ds : Hu m an mo t io n sy n t he si s · P o st - tr ai n in g · E m bodi ed A I · Ro bo ti cs 1 I n tr od u c t io n Th e pr og r es s of di f fu si o n mod e ls ha s la rg e ly ad v a nc e d th e te xt dr i v e n mo t io n ge ne r a- ti o n. Gi v e n a n in p ut co nd i ti o n ( e . g ., a te x t de s cr i pt i on or ad di t io na l sp at i al co ns t ra i n t s) , a mod el s yn th es i ze s a h u ma n mo t io n se qu e nc e , e na bl i ng ap pl ic a ti o ns fo r an i ma t io n , vi r tu a l a v a ta r s, an d ga mi n g [ 5 , 44 , 5 0 , 52 ]. Am o ng th e se ap p li ca t io n s, em bodi ed do wn - st r ea m ta sk s , es pe ci a ll y h u m an o id ro bot i cs , ar e pa r ti c ul ar l y c om pel l in g : if a ge n er a ti v e mod e l co u ld re li ab l y p rod uc e p h y si c al l y co n si s te n t , c on tr ol l ab l e mo t io n s, i t c ou l d pr o vi de a s ca l ab le so ur c e of re fe r en ce beh a v io r s fo r mo ti o n tr ac ki n g an d pol ic y tr a in i ng . Ho w e v e r, de pl o y in g ge n er a te d mo t io n s in a ph y s ic s- b as e d se tt i ng ex pos es a k e y li m it a ti o n of cu r re n t ge ne r at or s . Di ff us i on mod e ls ar e t yp i ca l ly tr a in e d an d ev a lu a te d 2 Y. Zh a ng et al . A PERSON WHO IS STANDING WITH HIS HANDS BY HIS SIDESSTEPS FORWARD WITH HI S RIGHT FOOT, KI CKS OUT WITH HIS LEFT FOO T AND THEN STEPS BACK TO HIS ORIGINAL POS ITION . TEXT INPUT WHOLE BODY CON TROLL ER RETARGETING OmniCont rol PhysMoDPO F ig . 1 : Ph ys Mo D PO ge ne r at e s m o ti o ns th at fo l lo w t e xt u al in st r uc t io n s w h i le r es pe ct i ng ph ys ic a l co n st r ai n ts . Co mp a re d t o pr i or me th od s, ou r ap pr oa c h pr odu c es mo t io ns th at re m ai n st a bl e an d ph ys ic a ll y re a li st ic wh e n de pl o y ed on th e Uni t re e G1 ro bot . in a ki n em a ti c sp a ce , wh er e per f or ma n ce is ju d ge d b y di st r ib u ti o na l si mi l ar i t y an d al i gn m en t w it h th e co nd i ti o n si gn al . In co n t ra s t, ro bot ic s re q ui re s mo t io n s th at re m ai n fe a si b le un d er dy n am i cs an d co n t ac t s: fe e t sho u ld n ot sk a te , th e ce n t er of ma s s m u st st a y su ppo r te d . In pr a ct i ce , wh en a ge ne r at ed mo ti on is ex ec u te d vi a a Wh ol e- B ody Co n tr ol l er (W BC ) in si m u la t io n , a st a nd a rd st ra t eg y in h um a no i d co n t r ol [ 2 1 , 29 , 30 ] , th e co n t ro l le r ma y si g ni fi c an tl y al t er th e im pl a us ib l e mo t io n to sa ti sf y co ns t ra i n t s. Th i s i n t rod u ce s a d i sc re p an c y be t w e e n wh a t t he g e ne r at o r pr od uc e s an d w h at is ac t ua l ly re al i ze d in th e si m u l at io n . As a re su l t, a mod el th at per f or m s w el l un de r ki n em a ti c me tr i cs ma y st i ll b e un re l ia b le f or em bodi ed d ep lo ym e n t . T o al lo w pl a us i bl e h um a n mo ti o n fo r de p lo ym en t i n re a l ro bot i cs em bodi me n t s , cu r re n t ef f or ts to w ar d ph ys ic a ll y pl au s ib l e mo ti o n mod el in g fo l lo w t w o ma i n di re c- ti o ns . On e li n e in je c ts p h y si c s p ri or s th r ou g h te st - ti me ha nd - cr a ft ed lo ss e s or au x il i ar y re f in e me n t modu l es [ 2 0 , 38 , 56 , 5 7 ] . Wh i le ef f ec t iv e in spec i fi c ca s es , su c h ap p ro a c h es ca n sh i ft t he ou t pu t di st r ib u ti o n to ad ap t ph ys ic s co ns t ra i n t s an d th us m a y la rg e ly ha r m th e t as k- s pec i fi c per f or ma n ce . An ot he r li ne op ti m iz e s ge ne r at o rs wi th he ur i st i cs re w ar ds vi a re in f or c em e n t le ar n in g [ 7 , 48 ] . Al t ho u gh pr o mi s in g an d vi s ua l ly pl a us i bl e, th e per fo r ma n ce hi g hl y de pen d s on th e h eu ri s ti c s fu n ct i on s , i . e ., fl oa t in g , an d sl i di ng , wh i c h ma k es it di f fi c ul t to me as ur e co m pl e x ph y s ic a l d yn am i cs . Th e re f or e, di re c tl y sc a li n g ha nd -c r af t ed r ew ar ds to th e co m pl i ca t ed re a l- w o r ld sc e na r io i s no n -t r iv i al . In th i s w o rk , w e pr opo se Ph ys Mo D PO , a ph ys ic s- g ui d ed pos t -t ra i ni n g fr a me w o r k fo r di f fu s io n -b a se d mo ti o n ge ne r at o rs . Spe ci f ic a ll y , w e in te gr a te WB C in t o ou r tr a in i ng pi pe li n e to me a su re ho w cl o se th e mo ti on is to tr an s fe r to ex e cu t ab l e tr a je c to ry . In th i s w a y , th e re w a rd co u ld di r ec t ly co v e r th e ph ys ic a l a spe ct s su c h as dy n am i cs , fl oa t in g an d ji tt e ri n g. As fo r ou r f in et u ni n g fr a me w o r k, in sp i re d b y DP O [ 3 7 ] al i gn m en t in im - ag e an d vi de o ge ne ra t io n [ 2 2 , 46 ] , w e au t om a ti ca l ly co ns t ru c t pr e fe re n ce da ta th r ou g h pr e tr a in e d WB C. Co nc re t el y , fo r ea c h co nd it i on , w e ex p lo i t st oc h as ti c sa m pl i ng to ge n er a te m u lt i pl e ca nd i da t e mo t io n s, ex e cu t e e ac h ca n di d at e th ro ug h th e WB C, Ph ys Mo DP O 3 De e pM i mi c [ 2 9 ], to ob t ai n si m u l at ed mo ti o ns , an d th e n co mp u te (i ) ph y s ic s -b as e d re w ar ds th a t r ef le c t tr ac k ab il it y an d co n t a ct re a li s m fo r ro bot s , an d (i i ) ta s k- s pec if i c re w ar ds th a t me as ur e wh e th er th e t ra c k ed mo ti o n st il l ma tc he s th e in p ut c on di t io n . Im po rt a n t ly , co m pu t in g ta s k re w a rd s af t er tr ac ki ng di re ct l y ta rg e ts th e ev al u at i on mi s ma t c h : w e op ti m iz e th e ge n er a to r fo r mo ti o ns th a t re m ai n b o th ph ys ic a ll y fe as i bl e an d co n di t io n- f ai t hf u l. Ex t en s iv e e xpe ri m en ts on t ex t- t o- m ot i on an d sp a ti al c on tr ol t as k s s ho w th a t Ph ys M oD P O co ns i st e n t ly i mp r o v e s p h ys i ca l r ea l is m wh i le p re s er v in g a nd o ft e n im p ro vi n g ta sk -r e la t ed me tr ic s on si m u la t ed r obo ts . Mo r eo v e r, w e re ta rg e t an d de pl o y th e ge n er a te d mo t io n s to re a l ro bot s in a ze r o- sh o t w a y , i. e ., wi th o ut ad di t io na l mo t io n re f in e me n t . W e de m on s tr a te th e ze ro - sh o t ge n er al i za t io n to si m u l at i on an d re a l- w o rl d de p lo ym e n t on Un i tr e e G1 , su gg es t in g th a t p o st - tr a in in g a ge ne r at o r wi t h ph ys ic s- gu i de d pr ef e re n ce s ca n pr od uc e mo ti o ns th a t tr a ns f er bey on d ki n em a ti c ben c h ma rk s . C on tr i bu t io n s. In su m ma r y , ou r co n t r ib u ti on s ar e th re e -f o ld : (1 ) W e pr o pos e Ph y s - Mo D PO , an au t om a ti c ge ne r at e –f i ne t un e pi pel in e th a t le v er ag e s a pr et r ai ne d WB C to pos t- t ra in di ff u si o n mo t io n ge n er a to rs to w ar d ro bot i cs -o r ie n te d ph ys i ca l co ns i st e nc y . (2 ) W e de si gn ph ys ic s- b as e d re w a rd s th at me as u re tr a c k ab il i t y an d co n t ac t re a li sm , to g et h er w it h t as k- s pec i fi c re w a r ds t ha t e v al ua t e co nd i ti o n fi de l it y a ft e r tr ac ki ng pol i cy , en ab li n g pr ef e re n ce su per vi s io n al i gn e d wi th e m bodi e d de pl o y m en t. (3 ) W e co n du c t ex te n si v e e xpe ri m en ts on te xt - to - mo ti o n an d sp at i al c on tr ol , de mo n st r at - in g im p ro v e d ph y si c al re al i sm an d ta sk -r e la t ed me tr ic s in si m u la t io n , an d sh o wi n g ze r o- s ho t tr an s fe r to Un i tr e e G 1 in b o th s im ul at i on an d re a l- w o rl d de p lo ym en t. 2 R e la t e d W o r ks C on tr o l la b l e h um a n m o t io n ge n er a t io n . H u ma n mo t io n ge n er a ti on ha s bee n st u di e d un de r v ar io u s co nd it i on i ng si gn al s , in cl u di ng ac ti o n la bel s [ 3 1 ] , spe ec h au - di o [ 1 6 , 59 ], m u si c [ 1 3 , 4 5 ] , te xt de s cr ip t io n s [ 5 , 32 , 44 , 55 ] . Mo r e re c en tl y , in t he do m ai n of te xt -t o -m o ti o n ge n er a ti o n, re s ea r c h ha s sh i ft e d to w a rd s mo re fi n e- g ra i ne d co n t ro l - la b le mo t io n sy n t he s is , ex pl o ri n g te m por al o r sp a ti al c om pos i ti o n [ 2 , 3 , 34 ] , st r ea m in g ge n er a ti o n [ 5 0 ], in te g ra ti n g sc en e co n t ex t [ 4 7 , 5 8 ] , or ob j ec t [ 1 4 , 1 5 ] in to th e ge ne r at i on fr a me w or k an d de ta il e d sp a ti a l jo i n t co n t ro l [ 4 , 1 2 , 3 5 , 5 2 ] . D es pi t e th i s pr o gr e ss , ge ne r- at e d mo ti o ns of t en fa i l to ex ec u te in ph ys ic s- b as e d s im ul at o rs , ex hi b it i ng ar t if a ct s su c h as th e c en te r of ma ss th at li e s ou ts i de th e body su ppo rt . T o ad d re s s th is ga p , w e in te - gr a te a p re -t r ai n ed ph ys ic s -b a se d me th od t o co m pu t e ph ys ic s -b a se d re w a rd s a s pa r t of le a rn i ng si g na l s fo r DP O [ 37 ] fi ne -t u ni n g, th e re b y im p ro vi ng t he ph ys ic a l pl a us i bi l it y . P h y s ic a l ly pl a us i b le h u ma n mo ti o n mod e l in g . As s ho wn i n T ab le 1 , on e d ir e ct io n in ph ys ic a ll y p la us i bl e m ot io n mode l in g i s to ap pl y ha n d- c ra ft op t im iz a ti o n [ 2 0 , 3 8 ] or ad d it i on a l mod e ls [ 4 3 , 56 , 5 7 ] t o pr o j ec t th e pr e di c te d no is y h um a n mot i on s . P re vi o us w o rk s [ 2 0 , 38 ] t yp ic a ll y ap pl y o p ti m iz a ti on th r ou g h t he Eu le r -L a gr a ng e e q ua t io n s. Ph ys P T [ 5 7 ] fu rt h er pr o pos e s a ph y s ic s- a w ar e tr an s fo r me r th ro u gh s el f- s upe r vi s ed le a rn i ng wi t h Eu l er - La g ra ng e eq ua t io n s. Re c en t w o rk s [ 19 , 54 , 5 6 ] fu r th e r us e ph ys ic s- ba s ed me th ods to r ef i ne m o ti o n to a v o id f l oa t in g a nd s l id i ng p r ob l em s . Ho w ev er , si m pl y ap pl y in g p h ys i cs - ba s ed me th od s ma y pos si b ly c h an g e th e o ut p ut mo ti o n 4 Y. Zh a ng et al . T a bl e 1 : Co m pa r is o n wi t h pr e vi o us w or k . W e co m pa re al t er na t iv e w a ys of in c or por a ti ng ph ys ic s co ns tr a in t s in t o h um an mo t io n ge ne ra t io n. In co n t ra s t t o ot he r me t hod s, Ph ys Mo DP O mak e us e of dy n am ic s- a w ar e re w a rd an d doe s not re q ui re te s t- ti me op t im iz a ti on no r ad di ti o na l tra i na bl e mod ul es . Ca te gor y Me th od Ap pr oac h Ap pl ied at No tes t- tim e op t. No Ext ra t rai na ble mod ul e Dy na mic s- a w are re w ard Co ns tr a in ts / Pr o je c ti on Li et al . [ 20 ] Op ti miz at io n T rai n/ In fer ✗ ✓ – Re mpe e t al. [ 38 ] Op ti miz at io n T rai n/ In fer ✗ ✓ – Ph y sPT [ 57 ] Pr o je ct io n T rai n ✓ ✗ – Zh an g et al . [ 5 6 ] Pr o je ct io n In fe r ✗ ✓ – Ph y sDi ff [ 54 ] Pr o je ct io n Sa mpl in g ✓ ✓ – R e war ds / Fin et un e Re in Dif fu se [ 7 ] Fi ne tun in g F ine tu ne ✓ ✓ ✗ HY -M oti on 1.0 [ 48 ] Fi ne tun in g F ine tu ne ✓ ✓ ✗ Mo rp h [ 19 ] Dat a ref in em en t D at a ✓ ✗ – Ph y sMo DP O Fi ne tun in g F ine tu ne ✓ ✓ ✓ di s tr i bu t io n , wh ic h ma y re qu i re te st - ti m e fi ne t un in g . An o th er br an c h of w o rk di re c tl y re f in e s mo t io n ge n er a to r s wi t h ex tr a p h y si c s- ba s ed r e w a rd s [ 7 , 48 ] or m ode l s [ 1 9 ]. Re i nD i ff u se [ 7 ] an d HY -M ot i on 1. 0 [ 48 ] de f in e s om e ha n d- c ra f te d re w a r ds su c h as fl o at i ng an d sli d in g , an d th en ap p ly PP O [ 4 0 ] an d GR P O [ 4 1 ] to re fi n e th e m ot io n ge n er a to r s, re spe c ti v e l y . Th ou g h ef fe c ti v e , th o se ha nd - cr a ft e d re w a rd s ca n ha rd ly co v er ot h er e ss en ti a l as pe ct s su c h as ab no r ma l ma ss c en te r. T o ad d re s s th i s, Mo r ph [ 1 9 ] tr a in s a ph y s ic s -b a se d mod e l to re fi n e th e ge ne r at ed mo t io n an d fi ne t un e s th e mo ti on ge n er a to r wi t h th e re fi ne d da t a. Ho w ev er , wh en t he mo t io n fr o m ge ne r at or s is too no i sy , t h is tr a in i ng s tr at e gy co ul d pos si b ly ha r m t h e ph y s ic s -b as e d mod el . In th is w o r k, w e u se a pr e- t ra i ne d ph ys ic s -b a se d mod el to so le l y co mp u te t he p h y si c s r ew ar ds an d th e n ap p ly DP O [ 3 7 ] fi ne tu n in g on th e mo t io n ge ne r at o r. P h y s ic s - ba s e d c ha r ac t e r a nd ro bo t c o n t r o l. Ph y s ic s -b as e d pol ic i es ha v e bee n wi d el y ex p lo r ed in c ha r ac t er an i ma t io n an d h um a no i d ro bot co n tr ol . Mo st ex is t in g w o r k [ 1 , 8 , 10 , 26 , 29 , 30 ] foc us e s o n wh o le body co n t ro l (W BC ) wh i c h is co n di t io ne d on th e fu l l body t ar ge t pos e an d pr ed ic t s th e co r re s pon d in g pl au s ib l e ac t io n fo r SM PL [ 23 ] c h ar a ct e r or h u ma n oi d ro bot s th r ou g h i mi ta t io n an d re i nf o rc em e n t le a rn i ng . So me w o r ks [ 9 , 1 1 , 21 , 25 , 42 ] fu r th er ex pl o re v e r sa ti l e h um a no i d co n t ro l vi a pol ic y di s ti l la t io n su c h as D A gg er [ 3 9 ] to di st il l a WB C te a c h er p o li c y to en a bl e pa r ti a l ob se rv at i on in pu t co n tr ol . Re c en t w o rk s fu r th e r ex te n d it to hi gh - le v e l in p ut s su c h as te x t [ 9 , 42 , 4 9 ] an d vi s io n [ 5 3 ] . On e id ea is al so to per fo rm D A gg e r [ 3 9 ] to le ar n an e nd - to -e n d te x t co n t r ol pol i cy [ 4 2 , 4 9 ] , t he ot he r is to le v e ra g e a t ex t- d ri v e n mo ti o n ge n er a to r t o pr o v i de ta r ge t pos e s [ 9 , 17 , 43 , 51 ] or la te n t ac t io n [ 1 8 , 27 ], an d th e n per fo r m mo ti on tr ac ki ng . Ho w e v e r, cu r re n t en d- t o- e nd t ex t co n t ro l pol ic i es su c h as Ma s k e dM i mi c [ 4 2 ] ca n ha r dl y ac hi ev e sa t is f yi n g te x t- m ot io n co ns i st e nc y . Un l ik e ex i st i ng w o rk [ 4 9 , 51 ] wh i c h le v e ra g es sh or t ac t io n ph ra s es f ro m BA BE L [ 3 6 ] da t as e t, w e foc us on na tu r al la n gu a ge de s cr i pt i on s fr o m Hu ma n ML 3 D [ 6 ]. A dd i ti o na ll y , si m pl y ap p ly i ng mo ti on tr ac ki n g on no i sy mo ti on fr o m th e mo ti o n ge n er a to r s co u ld fa i l, ex i st in g w o rk [ 9 , 2 1 ] ma i nl y focu s es on im p ro vi ng th e ro b us t ne ss of wh ol e body co n t r ol l er , wh il e w e foc us on fi ne t un in g ge n er at o rs . Ph ys Mo DP O 5 Physi cs reward s Ta s k r e w a rd s Stage 3: Physics - aware pos t - training (Sec. 3.2) Stage 1: Data Gener ation (S ec . 3.1) Step 2: Rewards calculation (Sec. 3 .3) Te x t A man kicks with left leg. Joints (optional) Motion Di v 0 ] , (8 ) wh i c h di sc o ur a ge s un re al i st i c co n ta ct pa t te rn s wh er e fe et ar e ne ar th e gr ou nd bu t dr if t ho r iz o n t al l y . F or ta sk re w a r ds , w e fi r st id en ti f y th e ne e d to pr e se r v e te xt al ig n me n t . W e 8 Y. Zh a ng et al . us e T MR [ 3 3 ] an d de fi ne ex pl i ci t ly a me t ri c on te xt ad he r en c e, mi ni m iz in g t he co si ne di f fe r en c e o f th e en c ode d mo ti on an d t ex tu a l de sc ri p ti o n in a sh a re d la te n t sp ac e: R M2 T ( X ′ ,C t ) ≜ c os TM R te xt ( C t ) , TM R mo t ( X ′ ) , co s ( a , b ) ≜ ⟨ a , b ⟩ ∥ a ∥ ∥ b ∥ . (9 ) TM R te xt an d TM R mo t re f er to th e te xt u al an d mo ti o n en cod e r of TM R , re spe c ti v e l y . Wh e n C in c lu d es sp ar s e sp at ia l ta r ge t s C s , w e ad d it io n al l y re w a rd ma tc hi ng th os e ta r ge t s wi th in X ′ . W e de fi n e th is re w ar d R co n tr ol as : R co n tr ol ( X ′ ,C s ) ≜ − ∥ W ⊙ ( X ′ − C s ) ∥ 2 2 ∥ W ∥ 1 . (1 0 ) He r e, W re f er s to a jo in t ma s k in d ic a ti n g o nl y th e c on tr ol jo i n t s a v ai la b le . W e co m bi ne re w ar ds th r ou g h a do m in a nc e ru le wh e n co n st r uc t in g pr ef e re nc e s. W e d ef in e S ( C ) = {R tr ac k , R sl id e , R M2 T } as th e se t in cl u di ng r ew ar ds co n di t io n s fo r te xt - to -m o ti o n, an d S ( C ) = {R tr ac k , R sl id e , R M2 T , R co n tr ol } wh e n sp a ti a l co n t r ol is pr o v i de d. W e de f in e th e co m pos i te pr ef er e nc e R ( X ′ ,C ) im pl i ci t ly b y de cl a ri ng th at a re a li z ed m ot io n X ′ k is pr e fe r re d to X ′ l un d er th e sa m e co nd it i on C if it im pr o v es e ve r y r ew ar d te rm : R ( X ′ k ,C ) ≻ R ( X ′ l ,C ) ⇐ ⇒ R s ( X ′ k ,C ) > R s ( X ′ l ,C ) ∀ s ∈ S ( C ) . (1 1 ) Th i s k ee p s th e p re fe r en c e si gn al co ns i st en t ac ro s s ph ys i cs an d ta s k ob j ec ti v es wi th o ut in tr od uc in g se n si t iv e re w a rd w ei g h t s. 4 E x per i m e n ts 4 .1 E xpe r im e n ta l se t up D at a s et s . W e ge ne r at e DP O p re fe r en c e pa i rs b as ed on te xt fr o m Hu m an M L3 D [ 6 ] da t as e t a nd th e n ev al u at e on th e co r re s pon d in g te st se t . F or s pa ti a l c on tr ol ta s k, w e fu r th e r e xt ra c t s pa ti a l co n t ro l si gn al s to ge n er a te sa m pl e s an d ca lc u la t e R co n tr ol . T o fu r th e r ev al u at e th e ge n er a li za t io n ab il i t y of ou r pr opo se d Ph ys Mo D PO st r at eg y , w e ev al u at e on t he O MO MO [ 1 5 ] da ta s et . OM OM O ma i nl y foc u se s on h u ma n -o bje ct in te r ac t io n, he n ce th e te xt di st r ib u ti o n is di f fe r en t. W e us e it as ou t- o f- d is t ri b ut io n te st . As me n t io ne d in S ec t io n 3. 1 , a ll t he mo t io n da t a ar e tr a in e d i n SM P L- b as e d re p re s en ta - ti o n t o en a bl e ea si e r ad a pt a ti on fo r do wn st r ea m t as k s. Mo re o v er , w e fi l te r ou t mo t io n s wh i c h r eq u ir e obje c t su ppo r ts ( su c h as " go u ps t ai r s" ), as w e ad d ph ys ic s pr o per t y in th e si m ul at o r, an d th e ro bot ca nn o t tr ac k th o se mo t io n s wi t ho u t t he co r re s pon di n g o b je c t. E v a lu a ti o n m et r ic s . Di f fe r en t fr o m ex is t in g w or k , as w e ex p la i n in Se c . 3 .1 w e ev al u at e al l th e mod el af t er th e wh ol e -bod y tr ac ki ng mod e l [ 2 9 ] wi t hi n si m u la t io n to bet t er me as u re wh et h er th e ou t pu t mo t io n o f ge ne r at o rs is p la us i bl e a nd wh et h er th e c h a ra ct e r in si m u la t io n fo l lo ws th e in pu t co n di t io n C . Th e ev a lu at i on pr ot oco l s ar e ma i nl y ad o pt e d fr o m Mo ti o nS tr e am e r [ 5 0 ] an d Om n iC on tr o l [ 5 2 ]. Th e te x t- m ot i on co n si s te n cy is ev al ua te d b y th e Mu lt i -M oda l Di st a nc e ( MM - Di st ) an d th e to p- k re t ri e v e d ac cu r ac y (R @1 , R@ 2 , R @3 ). F re c h et I nc ep t io n Di s ta nc e (F I D) i s ca l cu l at e d to qu an ti f y th e di st r ib u ti on di st a nc e bet w e en gr ou nd tr ut h an d th e g en er a te d mo t io n Ph ys Mo DP O 9 T a bl e 2 : E v al ua t io n o f te xt - dr i v e n h u ma n mo t io n g en e ra t io n wi t h SM PL r obo t si m u l at i on o n H um a nM L 3D [ 6 ] d at a se t . W e ev al u at e Ma s k ed M im ic [ 4 2 ] , Mo t io nS t re am e r [ 5 0 ] an d Ph y sM o DP O wi th te x t- co n di ti o ne d ge ne ra ti o n set t in g as in Mo t io nS t re am e r [ 5 0 ] . Th e bes t re su l ts ar e in b o ld , an d th e se c on d bes t re su l ts are un de r li ne d . M et h od MM - D is t ↓ R@ 1 ↑ R@ 2 ↑ R@ 3 ↑ FI D ↓ Je r k ↓ Re a l af t er si m u la ti o n 1 6. 0 2 0. 6 68 2 0. 8 32 6 0. 8 95 2 34 . 07 35 . 87 Ma s k ed M im ic [ 4 2 ] 19 . 73 0. 4 13 4 0. 5 56 8 0. 6 30 5 73 . 79 66 . 08 Mo t io nS t re am e r [ 5 0 ] 17 . 1 7 0 . 58 29 0 . 75 10 0 . 83 10 4 9 . 1 4 46 . 7 5 SF T 17 . 23 0. 5 77 9 0 . 7 65 1 0 . 8 35 5 49 . 22 48 . 30 Ph ys Mo DP O 1 6 . 9 5 0 . 5 8 53 0 . 7 72 6 0 . 85 1 7 4 8 . 2 9 43 . 6 0 T a bl e 3: Ev al u at i on of sp at i al - t ex t h um a n mo ti o n c on tr o ll a bi l it y w it h SM PL c ha r - a ct e r co n tr ol . L ef t: Hu m an ML 3D [ 6 ] . Ri g h t: OM O MO [ 1 5 ] . W e ev al ua t e Ma sk ed Mi m ic [ 4 2 ] , Om n iC on tr ol [ 5 2 ] u nd er t w o tr a in in g se t ti ng s an d Ph ys Mo DP O wi t h cr os s- c on tro l se t ti ng as in Omn i Co n t ro l [ 5 2 ] . Th e bes t re su lt s ar e in bol d, an d th e s ec on d bes t re s ul ts are und e rl in e d. Hu m an ML 3D OM O MO Me t hod Er r . ↓ M M- Di st ↓ R @3 ↑ FI D ↓ Je rk ↓ Er r. ↓ MM - Di st ↓ R@ 3 ↑ FI D ↓ Je rk ↓ Re al af te r si m ul ati on 0. 05 36 3. 15 0 0.7 60 7 0.9 8 62 .9 6 0.0 48 5 6 .67 9 0.1 57 6 0.5 9 6 5.4 9 Ma sk e dM im ic [ 42 ] 0 .2 49 3 5.1 49 0. 49 32 3. 99 106 .4 9 0.2 14 0 6 . 63 9 0 .1 08 1 5. 99 119 .5 2 Or ig in al Om ni Co n tr ol [ 5 2 ] 0. 19 98 4. 23 8 0 .61 23 5 .8 2 115 .1 2 0.3 98 9 7.2 67 0. 13 15 20 .5 9 16 1. 95 SF T 0. 15 36 3. 58 0 0 .68 75 2 .6 3 92 .5 6 0. 28 66 7. 21 8 0. 14 19 13 .2 8 130 .6 9 Ph y sM oD PO 0 .1 29 8 3 .33 3 0.7 16 8 0. 93 62. 31 0. 19 00 6.9 47 0 . 1 53 6 3. 86 101 .8 8 Cr os s Om ni Co n tr ol [ 5 2 ] 0 . 09 38 3 . 08 6 0 . 7 58 4 0.7 5 64 .0 7 0. 13 89 6. 84 0 0 .1 41 9 3.8 9 88 .5 7 SF T 0. 09 72 3 . 0 75 0.7 53 9 0 . 6 8 61 . 2 2 0 . 1 31 9 6. 87 5 0. 14 84 2 . 69 84 . 5 5 Ph y sM oD PO 0 . 09 2 3 3 .0 99 0 . 75 49 0 . 66 58 . 02 0 . 1 33 9 6 . 8 24 5 0 . 1 49 7 1 . 50 76 . 4 9 in s id e th e si m ul at io n . F or sp a ti a l co n t ro l ta s k, w e ev al u at e th e co n t r ol l ab il i t y t hr ou g h ma s k e d MS E bet w ee n C s an d X ′ (E r r. ) . Th e de ri v a ti v e of ac ce l er a ti o n (J er k ) is co m pu t ed t o c h ec k th e sm oo th ne s s of X ′ . I mp l e me n ta t io n de t ai l s. W e in i ti a li z e ou r pi pel in e wi th pr e tr a in e d Mo t io n St r ea me r [ 5 0 ] (f or te xt - to - mo t io n ) an d Om ni C on tr ol [ 5 2 ] (f or sp at i al - te x t co n t ro l) . F or Mo - ti o nS t re a me r [ 5 0 ] , w e ge ne r at e 12 sa mp l es per tr ai n in g pr om p t on H um an M L3 D [ 6 ] an d per fo r m pos t -t r ai n in g b y upd a ti n g o nl y the di f fu s io n h e ad , o pt i mi z ed wi t h A d am W [ 24 ] . F ol l o w in g Mo ti o nS t re a me r [ 5 0 ] , w e us e th e T w o -F or w a rd objec t iv e as L SF T on se le c te d wi n sa m pl e s. Th e SF T ba se l in e se ts the DP O w e ig h t to ze ro wh i le k e ep i ng ot h er se t ti ng s un c h an g ed . F o r sp at i al - te x t co n t r ol , w e fo l lo w Om ni C on - tr o l [ 5 2 ] ’ s cr o ss - co n t r ol ev al u at i on an d sa m pl e a ra n do m se t of co n t ro l jo i n t s d ur in g te s ti n g. As th e or i gi n al Om ni C on tr ol [ 5 2 ] is tr a in e d wi th ra nd o m on e jo in t p e r sa mp l e, w e f ur th e r re -t r ai n it wi th ra nd om n um ber of co n t r ol jo i n t s (c ro s s- c on tr ol se tt i ng ) an d co m pa r e th e per fo r ma n ce . Mo re de ta i ls ca n be fo u nd in th e ap pe nd i x. 10 Y. Zh an g et al. Lift , move, and put down the small bo x. Figu re i s stretc hing or war ming up MaskedMimic MotionStreamer PhysM oDPO A person runs forward and stops . A man steps forward a nd does a handstand . MaskedMimic OmniControl PhysM oDPO Te x t - only control Te x t + J o i n t control F ig . 3: Vi s ua l c om p ar i so n wi th SM P L si m u l at i on . On to p, w e co m pa re Ma sk ed - Mi m ic [ 4 2 ], Mo t io nS tr e am er [ 50 ] an d Ph y sM o DP O on te xt -t o -m ot i on ge ne r at io n ta sk o n Hu m an ML 3 D [ 6 ] da ta s et . A t t he bo tt om , w e s ho w vis u al res u lt s of sp at ia l -t ex t co n t ro l t as k on Hu m an ML 3 D [ 6 ] (le f t) an d OMO M O [ 1 5 ] (r ig h t ) dat a se t. Re d ba ll s ar e th e in pu t sp at i al con - tr o l si g na ls an d r ed bo xe s h ig hl i gh t th e sa m pl es wh i c h d o no t fol l o w t he co n t ro l o r lo s e ba l an ce . 4 .2 E xpe r im e n ts o n SM PL si m ul a te d c h a r ac t e r T ex t -t o - mo t io n re s ul t s . T a bl e 2 re po rt s te xt - co n di t io n ed mo t io n ge n er a ti on per - fo r ma n ce on Hu m an M L3 D af t er si m u la t io n. W e co m pa r e wi th Ma sk ed Mi m ic [ 4 2 ] as ph y s ic s -b as e d ba se li n e, Mo ti on S tr e am e r [ 5 0 ] as ou r ba c k bon e, a na iv e fi n e- t un i ng v ar i an t (S F T on wi n s am p le s) , an d ou r p ro pos e d m et h od Ph ys M oD PO . Si n ce Ma s k e d- Mi m ic di re c tl y ou tp u ts ex ec u ta b le ac t io n s in th e si m u l at or , he n ce w e om it t he p ro - je c ti o n wi th tr a c k in g pol ic y . De sp i te bei n g ph ys i ca ll y ex e cu ta b le , Ma sk ed M im i c [ 4 2 ] ex h ib i ts poor te x t ad he r en ce , e. g ., su bs t an ti al l y w or s e re tr i ev al sc o re s (R @ 1/ 2 /3 ) an d hi gh e r FI D, in d ic a ti n g li mi t ed te x t- mo t io n co ns i st en c y . Mo ti o nS t re a me r [ 5 0 ] al r ea d y ac hi e v e s st r on g te xt - mo t io n al ig n me n t af t er pr o j ec t io n, le a v in g li mi te d roo m fo r st r ai gh tf o rw ar d su pe rv i se d re fi ne m en t. SF T on wi n sa mp le s yi el d s o nl y ma rg in a l ga i ns in te xt - mo t io n re tr i ev al , wh il e sl ig h t l y d eg ra d in g ph ys ic a l fi d el i t y an d sm oot h - ne s s. In co n t r as t , Ph y s Mo DP O co n si s te n t l y im pr o v es te x t- mo t io n co n si s te n cy an d sm oo th n es s . Co nc r et e ly , Ph ys Mo DP O im pr o v es te xt - mo ti o n me t ri c s R@ 3 fr o m 0. 8 31 0 Ph ys Mo DP O 1 1 T a bl e 4: Ev al u at i on of t ex t -d r iv en h u ma n mo t io n ge n er a ti o n w it h G1 ro bo t o n H um a nM L 3D [ 6 ] da t as e t. W e ev al ua te Ma s k ed M im ic [ 4 2 ], Mo ti o nS tr e am er [ 50 ] an d Ph y sM o DP O wit h te xt -c o nd it i on ed ge n er at io n se tt in g as in Mo ti on S tr ea m er [ 5 0 ] . The bes t re su lt s ar e in bol d, an d th e se c on d b e st re su l ts ar e und e rl in e d. M et h od M 2T ↑ R @ 1 ↑ R @ 2 ↑ R @ 3 ↑ FI D ↓ J er k ↓ Re a l af t er si m u la ti o n 0. 8 28 2 0. 5 73 1 0. 7 58 3 0. 8 47 5 0 .1 2 01 87 .7 6 Ma s k ed M im ic [ 4 2 ] 0. 7 15 6 0 .3 25 8 0 .4 76 2 0 .5 76 1 0 .3 6 73 83 . 5 8 Mo t io nS t re am e r [ 5 0 ] 0 . 7 90 4 0 . 4 67 3 0 . 6 6 20 0 . 7 55 8 0 . 3 0 33 95 .0 8 SF T 0. 7 86 9 0 .4 58 6 0 .6 44 4 0 .7 43 0 0 .3 1 24 97 .9 9 Ph ys Mo DP O 0 . 7 9 19 0 . 47 0 7 0 . 65 9 6 0 . 76 4 0 0 . 3 0 29 90 . 1 4 to 0. 85 1 7 an d lo w er s Je rk fr om 46 .7 5 to 43 . 60 . Th e se r es ul t s de mo n st r at e th at ou r fr a me w or k ef fe c ti v el y re du c es th e ga p bet w ee n te xt co n t r ol l ab il i t y an d ph ys ic a l re a li s m, ou t per f or m in g bot h en d -t o -e n d p h y si cs - ba s ed ge n er a ti o n a nd na i v e fi ne - tu n in g . S pa t i al - t ex t c on tr o l re s u lt s . T ab le s 3 s ho ws re su l ts un de r th e cr os s -c o n tr o l ev a l- ua t io n pr o toc o l. On Hu m an M L3 D [ 6 ] , Ph y s Mo DP O c on si s te n t l y im pr o v es al l as pec ts o v er Om ni C on tr ol [ 5 2 ] tr a in e d on or i gi n al tr a in i ng se tt i ng . Ph ys Mo DP O bet te r sa ti s - fi e s m u lt i -j o in t sp at i al co n st r ai n t s an d al s o st r en gt h en s te xt - mo t io n co n si s te n cy wh i le pr od uc i ng hi g he r -q u al i t y an d sm oot he r mo t io ns , as e vi de n ce d b y a la r ge dr o p in FI D an d Je r k. Al t ho u gh Omn i Co n tr ol [ 5 2 ] t ra in e d on cr os s se t ti ng ac h i ev es good per f or - ma n ce , Ph y s Mo D PO st il l im pr o v es th e sp a ti a l co n t ro l la b il i t y an d FI D. On th e ou t- of - di s tr i bu t io n OM OM O [ 1 5 ] da t as e t, Ph ys Mo D PO re m ai n s ro b us t an d de l iv er s si g ni f i- ca n t g ai ns de sp i te no t us in g gr o un d -t r ut h mo t io n s as tr a in i ng la bel s. Spe ci f ic a ll y , Ph ys - Mo D PO gr ea t ly lo w er s co n t r ol la b il i t y er r or s an d th e ge n er a te d mo ti o ns bec om e no t ic e- ab l y mo r e re al i st i c an d s moo th e r (l o w er F ID an d Je r k) . Th e se re su l ts su gg e st th at ou r st r at e gy ge n er a li z es w e ll an d ca n ef f ec t iv el y a da pt t he mod el u nd er d is tr i bu t io n sh if t . Q ua l i ta t i v e re s u lt s . As pr es e n t ed in Fig u re 3 , w e co mp a re Ma s k e dM i mi c [ 4 2 ] , ou r fi n et u ni n g ba se li n e an d Ph ys M oD P O fo r te x t dr i v e n mo ti o n ge n er a ti o n a nd sp a ti a l- te x t mo ti o n ge ne r at io n ta s ks . F ro m th e fi gu r e, w e ca n f in d th at Ma sk ed Mi m ic [ 4 2 ] ca n ha r dl y fo ll o w th e te x t co n st r uc ti o n, e. g ., i n th e bot to m -l e ft fi g ur e , th e c h ar ac t er doe s no t ev e n tr y to per f or m th e ha nd st a nd ac t io n . Ev en th o ug h Ma sk ed Mi m ic [ 4 2 ] is a ph ys ic s -b a se d pol ic y tr ai n ed wi th i n a si m u la t io n, it ma y st i ll fa l l on hi gh - spe e d mo t io n . As th e v an il l a di ff u si o n mo ti o n ge ne r at o rs , i. e . Mo ti o nS t re a me r [ 5 0 ] an d Om - ni C on tr o l [ 5 2 ], c ou l d ge n er a te m or e im pl a us i bl e mo ti o ns wh i c h ca u se t he SM P L ro bot lo s in g ba l an ce or di re c tl y fa l li ng do w n . Wi t h ou r p ro pos e d Ph y s Mo DP O fi n et un i ng fr a me w or k, w e ha v e hi g he r pr ob a bi l it y to ge ne r at e ph ys ic al h um a n mo ti o ns wh i c h al s o fo ll o w th e in p ut co n di t io n . 4 .3 Z er o - sh o t tr a ns f e r to Un it r e e G1 r obo t G 1 e v a lu a ti o n pi pe li n e . T o sh o w th at th e mo ti o n ge ne r at e d b y Ph ys Mo D PO co ul d bet t er ge ne r al iz e to re al ro bot em bodi me n t , w e ev al ua t e ou r me th od in a ze ro - sh o t ma n ne r on Un it re e G1 b y di r ec t ly re us i ng th e mod e l tr a in e d on SM PL . Gi v e n an 12 Y. Zh an g et al. T a bl e 5: Ev al u at i on o f h um a n mo ti o n co n t ro l la b il i t y w it h G1 ro bo t. Le f t: Hu m an ML 3 D [ 6 ]. Ri g h t: OM O MO [ 1 5 ] . W e ev al ua te Ma s k ed M im ic [ 4 2 ], Om ni C on tro l [ 5 2 ] an d Ph ysM o DP O wi th cr os s -c on tr ol se t ti ng a s in O mn iC on tr ol [ 5 2 ]. Th e bes t res u lt s ar e in bol d , an d th e se co n d bes t res u lt s are u nd er li n ed . Hu ma n ML 3D OM OM O Me th od Er r. ↓ M 2T ↑ R@ 3 ↑ FI D ↓ Je rk ↓ Er r. ↓ M2 T ↑ R@3 ↑ FI D ↓ Je rk ↓ Re al af te r sim u la ti on 0. 18 94 0.7 81 0 0. 72 41 0.1 287 1 60 0. 173 0 0. 49 85 0.1 11 1 0.1 09 9 184 Ma sk e dM imi c [ 42 ] 0.3 38 8 0. 64 70 0.3 958 0. 46 26 162 0.3 15 7 0.4 63 5 0. 09 70 0.4 324 1 98 Or ig in al Om ni Co n tro l [ 52 ] 0. 59 54 0.7 02 5 0.5 50 4 0. 36 55 31 5 0. 59 51 0.4 77 3 0.1 30 1 0. 50 07 45 9 SF T 0 .46 06 0. 733 5 0. 61 08 0.3 04 7 25 0 0.4 85 7 0. 48 36 0.1 30 4 0.4 57 1 369 Ph y sM oD PO 0. 29 18 0.7 41 4 0.6 33 5 0. 30 90 14 2 0. 34 99 0.5 01 1 0.1 29 1 0. 38 16 23 9 Cr oss Om ni Co n tro l [ 52 ] 0. 23 72 0 . 7 83 0 0.7 30 1 0 . 1 97 2 156 0. 26 87 0.5 16 4 0.1 40 3 0. 31 89 192 SF T 0 . 23 38 0 . 78 34 0 . 73 36 0 . 1 98 0 15 5 0 . 2 54 5 0 . 532 8 0 . 15 03 0 . 30 55 17 4 Ph y sM oD PO 0 . 2 24 0 0.7 82 0 0 . 73 50 0 . 1 98 0 14 8 0 . 2 51 0 0 . 5 38 7 0 . 1 57 1 0 . 30 65 1 67 in p ut co nd i ti o n, w e fi r st ru n SM PL mo t io n ge n er a to r to sa m pl e mo t io ns . Si n ce G1 ha s di ff e re n t ki n em at i cs , w e re t ar g et ea c h ge ne r at e d mo t io n to th e G1 sk e l et on bef o re de p lo ym e n t . Th e re t ar g et e d mo ti o n is th en ex e cu t ed b y De e pM i mi c [ 29 ] pr e tr a in e d on G1 . A s fo r t ex t- m ot i on me tr i cs , al t ho u gh th e ge n er at o r is k ep t u nc ha ng e d, th e st a nd ar d te x t- m ot i on me tr i cs de pen d on th e mo ti on re p re s en ta ti o n. Th er e fo r e, w e re ta r ge t AM A SS mo ti o ns fr om SM PL to G1 an d r et ra i n a G1 -b a se d T MR [ 3 3 ] ev al u at o r us in g th e s am e tr a in i ng p ro t oco l as th e or ig i na l TM R . Th is ev a lu at o r is o nl y us e d at i nf e re nc e ti m e fo r re por t in g FI D an d te xt - mo t io n al i gn me n t me t ri cs su c h as M2 T sc or e an d to p -k re tr ie v al ac cu r ac y . F or sp at i al co n t ro l, re ta rg e ti n g ma y re s ca l e t he ta r ge t jo in t tr aje ct o ri es du e to e m bodi m en t di f fe r en ce s . Th u s , wh e n me a su r in g co n t ro l la b il i t y on G1 , w e co mp a re t he si m u la t ed G 1 mo ti o n ag ai n st th e re ta r ge te d g ro un d -t r ut h mo t io n on th e c on tr ol l ed jo i n t s, ra t he r th a n di r ec t ly us i ng th e or i gi n al SM P L- s pa c e co n tr ol si g na l , to a v o id mi sm a tc he d sc a le s wh i le pr e se r vi n g th e in te nd e d s pa ti a l co ns tr a in ts . T ex t -t o - mo t io n re s u lt s . A s re po rt ed in T ab l e 4 , ou r SM PL - tr a in e d mod el ge n- er a li z es to U ni tr e e G1 wit h ou t an y ad di t io n al tr a in in g an d ac h i ev es th e st r on g es t o v er al l per fo r ma n ce in si m u la t io n. Th e na iv e SF T tr ai n ed on SM PL da ta per f or m s w o rs e th an th e ba se l in e wh en ze ro - sh o t tr a ns f er r in g t o th e G1 ro bot . In co n st r as t , ou r co n si s te n t im pr o v em en t ba s ed on Mo t io n St re a me r [ 5 0 ] pr o v e s th e ef f ec ti v en es s of th e pr opo se d Ph ys Mo D PO me th od. Si mi l ar t o th e SM P L c ha r ac t er re s ul t s wi th si m ul at i on , Ma sk ed Mi m ic [ 42 ] ca n h ar dl y fo l lo w th e te xt in pu t, wh ic h re s ul ts in th e lo w e st te x t re tr i ev al per fo r ma n ce . S pa t i al - t ex t co n tr o l re s ul t s . Th e co m pa r is o n wi t h M as k e dM i mi c [ 4 2 ] an d Om n i- Co n tr ol [ 5 2 ] c an be fo u nd i n T ab l e 5 . C om pa r ed w it h th e or i gi n al Om n iC o n t ro l [ 5 2 ] , Ph ys M oD P O pr odu ce s mot i on s th a t ar e no t ic ea b ly sm oot h er , wh i le ma in ta in i ng st r on g er co n si s te n cy to th e sp at i al co n tr ol si g na l s. Ov er al l , th e ze ro - sh o t re s ul t s in d i- ca t e th at ou r pos t- t ra in i ng en h an c es bot h ph ys ic al fe as ib i li t y an d co n t r ol fa i th fu l ne s s, an d th e se ga i ns tr an sf e r w el l ac ro s s em bod im e n t s. R ea l ro bot de p l o y m en t . As th e De e pM i mi c [ 2 9 ] foc u se s for o n c h ar a ct e r an i ma t io n , an d ca n ha r dl y be de p lo y ed on re a l ro bot , w e tr ai n a wh o le bo d y co n t ro l pol ic y fo r Ph ys Mo DP O 1 3 A figure mo ves in a circle coun terclockwise . The stick figure is walki ng in form of a back war ds letter j. A person bring s right elbow to left knee , then left elbow to right knee , stands straight th en bends at the knees a few tim es F ig . 4: Vi su a l re s ul t s on Un it r e e G1 ro bo t. Ou r dep l o y e d mot i on mod el e na bl es t he ro bo t to mo v e in a ph y si ca l ly -r e al is t ic w a y wh il e fo ll o w in g i np ut te x t in st r uc ti o ns . G1 ro bot fo ll o wi ng Be y o n dM i mi c [ 2 1 ] , an d th e n w e de p lo y th e pol ic y to ex ec u te th e re t ar g et e d G1 m ot io n fr om pi pel in e f or re al ro bot ex per im e n t s. As s ho wn in Fi gu r e 4 , w e de pl o y th e mo t io n s ge n er a te d b y Ph y s Mo D PO on Un it re e G1 r obo t. Th e z er o- s ho t ex a mp l es p ro v e th e pl a us i bi l it y of ou r ge n er a te d mo ti o ns . U se r st u d y . W e co nd u ct a us er st ud y to co m pl e me n t me t ri c s. F or ea c h me th od , w e p re se n t 40 pa ir ed re al ro bot v id eo s to pa rt i ci p an ts to g et he r wi t h th e in pu t te x t. T w e n t y pa rt i ci p an ts ar e as k e d to sel e ct vi de o s ac co rd i ng to te x t ad h er e nc e , mo ti on sm oo th n es s an d ro bo t st a bi l it y . As sh o w n in Fi gu re 5 , Ph y s Mo D PO co n si s te n t ly ou t per f or m Om ni C on tr ol [ 5 2 ] a nd Ma s k e dM im i c [ 42 ] ac ro s s a ll th e cr it e ri a. The de t ai l ed d es ig n of u se r st ud y ca n be fo un d in th e ap pen d ix . 4 .4 A bl a t io n st u d y As su mm a ri z ed in T ab le 6 , w e co n du c t ab l at i on s on it er at i v e tr a in i ng ro un d an d re w ar ds se t ti n g. I te r a ti v e tr ai n i ng ro u n d. W e fi r st st u dy th e e ff ec t iv en es s of th e pr opo se d m u lt i - ro u nd gen e ra t io n . As th e n um ber of it e ra t iv e ro u nd s in cr e as e s fr om 1 to 3, w e ob s er v e co n si s te n t im pr o v em e n t s on al l me tr i cs : MP J PE dr op s f ro m 0. 0 45 6 to 0. 03 6 8, co n t ro l - la b il i t y er r or de c re a se s fr om 0. 14 2 1 t o 0. 1 29 8 , MM -D is t im p ro v es fr om 3. 3 6 to 3. 3 3, 14 Y. Zh an g et al. F ig . 5: Us e r st u dy . Co m pa ri so n of re a l- ro bot mot i on se q ue nc e s ge n er at e d b y Ph ys Mo DP O , Ma s k ed M im ic [ 4 2 ] an d Om ni Co n t ro l [ 52 ]. Ph y sM o DP O ou tpe r fo rm bot h co mpe ti t or s in te r ms of te xt a dh er en c e, mo ti o n sm oot h ne ss an d o v e ra ll st a bi li t y . T a bl e 6 : Ab l a ti o n st u di e s. W e tr a in Om ni Co n t ro l [ 52 ] and st u dy th e im pa ct of th e n u m ber o f it er a ti v e tr ai ni n g ro u nd an d di f fe re n t re w a rd s on Hum a nM L3 D [ 6 ] da t as et . Th e bes t re su lt s ar e in bol d. Nu m be r Er r. ↓ MM -D is t ↓ FI D ↓ Je r k ↓ 1 0. 14 2 1 3. 36 1 .1 7 72. 1 3 2 0. 13 2 4 3. 34 0 .9 7 63. 5 5 3 0 . 1 2 98 3 . 3 3 0 . 9 3 62 . 3 1 (a ) Nu m ber of it er at iv e tr ai ni ng rou nd Re w a rd s Er r . ↓ MM- D is t ↓ FI D ↓ Jer k ↓ T rac kin g 0. 14 6 7 3. 43 1. 61 74. 76 + Con tro l 0. 14 47 3. 41 1. 45 74. 47 + Sli di ng 0. 1 42 2 3. 4 0 1. 21 6 8 . 43 + M2T 0 . 14 21 3 . 3 6 1 . 17 72 . 13 (b ) Re w ar ds wh i le FI D is si g ni f ic a n t ly re du ce d fr o m 1. 17 to 0. 9 3 an d Je rk de cr e as e s fr om 72 .1 3 to 62 .3 1. T he se r es ul t s v al i da te tha t re g en er a ti n g pr e fe r en ce pa ir s wi t h th e ne wl y im p ro v e d mode l pr o v i de s pr og r es s iv el y bet te r su per v is i on , le ad i ng t o bet t er mo ti on re a li s m an d st r on g er ph ys i ca l pl au s ib i li t y . R ew ar d s . W e ab la t e ea c h re w a rd c om pon e n t in th e pr e fe re n ce co ns tr u ct i on . Us in g on l y th e tr ac ki n g re w a rd is su bo pt i ma l , as it te nd s to fa v or o v er ly co ns e rv at i v e mo ti on s , wh i c h m ak es th e tr a in i ng d iv er ge f as t er . A d di n g th e co n t ro l la bi l it y re w a rd y ie l ds a mod - es t ga in a cr os s me tr i cs , co nf i rm in g th at ex p li c it l y op t im i zi ng t as k- f ol l o w in g he lp s pr e- se r v e co n di ti o n fa it hf u ln e ss . In tr odu ci n g t he sl i di n g re w ar d b ri ng s a cl e ar i mp ro v e me n t in bot h FI D an d Je rk , sh o w in g th at pen a li z in g f oot sk at in g ef fe ct i v e ly mi t ig a te s co m- mo n co n t a ct ar ti f ac t s. Fi n al l y , ad d in g th e M2 T sc or e fu rt h er im p ro v es te x t- m ot i on co n - si s te n cy a nd ge n er a ti on qu al it y . W e no te th a t th is la s t a dd it i on s li gh tl y in cr e as e s J er k, bec a us e em ph a si z in g se ma n ti c co r re c tn e ss en c ou r ag e s m or e dy na m ic ac t io n s, w hi c h ma y in tr odu c e la r ge r ac ce l er a ti on s wh il e st il l im pr o v i ng re al i sm an d al ig n me n t o v er al l. 5 C o nc l u s i o n In th is pa pe r, w e pr o pos ed Ph y s Mo D PO , a ph ys ic s -g ui d ed p o st - tr a in in g fr a me w o rk ba s ed on DP O to im p ro v e th e pl au s ib i li t y of di ff u si o n- ba s ed h um a n m ot io n ge n er - at o rs . T o br i dg e th e ga p bet w ee n ki ne m at i c ge n er a ti on an d ph ys ic s -b a se d ex ec u ti o n, Ph ys M oD P O au t om a ti c al l y co n st r uc ts pre f er e nc e pa ir s th ro u gh a pr e tr a in e d ph ys i cs - ba s ed tr ac ki ng poli c y wi th ph y s ic s- o ri e n t ed an d ta s k- s pec i fi c re w a rd s . W e op ti m iz e th e ge ne r at o r w it h a D PO obje ct i v e an d i mp r o v e it fu r th e r w it h in an it e ra t iv e Ph ys Mo DP O 1 5 ge n er a te – fi n et un e loo p. Ex per i me n t s on tex t -t o -m o ti o n an d sp at ia l co n t ro l ta sk s de m on s tr a te co n si s te n t ga i ns of Ph ys Mo D PO in ph ys ic a l re a li s m an d ta sk me t ri c s in si m ul at i on . Mo re o v er , ze ro -s h ot tr a ns f er t o Un i tr e e G1 r obo t in di ca t es t he pot e n t ia l of Ph y s Mo D PO fo r ro bot i cs - or i en te d mo ti on ge ne r at io n . L im i t at i o n an d fu t ur e w or k. De sp i te en co u ra gi n g re s ul ts , Ph y s Mo DP O ha s se v e ra l li m it a ti o ns th a t su gg e st di r ec t io ns fo r fu t ur e re se a rc h. (1 ) Ou r cu rr e n t se tu p pr i ma r il y co n si d er s loc o mo ti o n on fl a t g r ou n d. Ex t en s io n s of th e me th od to m or e di v e rs e te r ra i ns wi l l fu rt h er im pr o v e tr an s fe r to re a l- w o rl d ro bot i cs . (2 ) Ou r co ns t ru ct i on of pr ef e re n ce p ai rs re li e s on a fi x ed si m u la t io n tr ac ki n g pol i cy , wh i c h ca n in tr odu c e bi a se s . F u tu re w or k co u ld in c or po ra t e h u ma n -v al i da te d mod e ls to re du c e e v al ua t or bi a s. Ov er al l , w e bel ie v e ou r pr o pos ed Ph ys Mo D PO wi l l ad v an c e an d i ns pi r e re s ea r c h in mo ti o n ge n er a ti o n an d em bodi ed AI . R e fe r e n c e s 1. Al l sh ir e , A. , Ch o i, H. , Zh a ng , J. , Mc Al li s te r, D. , Zha n g, A. , Ki m , C. M. , Da rr el l , T. , Ab be el , P ., Ma li k, J. , Kan a za w a, A. : Vi su a l im it at i on en a bl es co n te x tu al h um an o id co n t ro l . ar X iv (2 02 5 ) 4 2. A t ha na s io u, N., Pe t ro vi c h, M. , Bl ac k, M. J. , V ar ol , G. : T EA CH: Tem po ra l A ct io n Co m pos it i on s fo r 3D Hum a ns . In : In t er n at io n al Co nf er e nc e on 3D Vi s io n (3 D V ) (2 0 22 ) 3 3. A t ha na s io u, N. , P et ro vi c h , M., Bl ac k, M. J. , V ar ol , G. : SI NC : Sp at i al c om pos it i on of 3D h u ma n mo ti on s fo r si m u lt an e ou s act i on ge ne r at io n . In : IC CV (2 02 3 ) 3 4. Da i , W. , Ch en , L. H. , W an g, J. , Li u, J. , Da i, B. , T an g, Y. : Mo ti o nL CM : Re a l- ti m e co n t ro l la bl e mo ti on ge n er at i on vi a lat e n t co ns is t en cy mod el . In : EC C V (2 02 4 ) 3 5. Gu o , C. , Mu , Y. , Ja v ed , M.G . , W an g, S. , Ch en g, L. : Mo M as k: Ge ne ra t iv e ma sk ed mod e li ng of 3D h u ma n mot i on s. In : CV PR (2 02 4 ) 1 , 3 6. Gu o , C. , Zo u, S. , Zu o , X. , W an g , S. , Ji, W. , Li , X. , Ch en g, L. : Ge ne ra t in g di v e rs e an d na t ur al 3D h u ma n mo ti on s fr om te xt . In : CV PR (2 0 22 ) 4 , 8 , 9 , 10 , 11 , 12 , 14 , 1 , 3 , 5 7. Ha n , G. , Li an g , M. , T an g , J. , Ch en g, Y., Liu , W. , Hu an g, S. : Re in d if fu s e: Cr af t in g ph ys ic al l y pl a us ib l e mo ti o ns wi th r ei nf or c ed di ff u si on mod e l. In : W A CV (2 0 25 ) 2 , 4 8. He , T. , Ga o , J. , Xi ao , W., Z ha ng , Y. , W an g, Z. , W an g, J ., Lu o, Z. , He , G. , So ba n b ab , N. , P an , C. , et a l. : Asa p : Al i gn in g si m u la ti on and re a l- w o rl d ph y si c s fo r le ar ni n g ag i le h u ma no i d wh o le -bod y ski l ls . arX i v pr e pr in t ar Xi v: 2 50 2. 0 11 43 (2 0 25 ) 4 9. He , T. , Luo , Z. , He , X. , Xia o , W. , Zh an g, C ., Zh an g , W. , Ki ta ni , K. , Liu , C. , Shi , G. : Om n ih 2o : Un iv ers a l an d de xt er ou s h um a n- to -h um an o id wh ol e -bod y te le o per at i on an d le a rn in g . ar X iv (2 02 4 ) 4 10 . He , T. , Lu o, Z. , Xi ao , W. , Zh an g, C. , Ki ta n i, K. , Li u, C ., Sh i , G. : Le ar n in g h u ma n- t o- h u ma n oi d re a l- ti m e wh ol e -bod y te l eo per a ti on . In : IR OS (2 02 4) 4 11 . He , T. , Xi ao , W. , Li n, T. , Lu o, Z. , Xu , Z. , Ji an g , Z. , Kau t z, J. , Liu , C. , Sh i, G. , W an g , X. , et a l. : Ho v er : V er sa ti l e ne ur a l wh ol e -bod y co n t ro ll e r fo r h u ma no i d ro bot s . In : IC RA (2 0 25 ) 4 , 1 , 2 12 . Ka r un ra t an ak u l, K ., Pr ee c h ak ul , K ., Su w aja na k o r n, S ., T an g, S. : G u id ed mo ti on di f fu si o n fo r co n tr o ll ab l e h u ma n mo t io n syn th es is . In : IC C V (2 0 23 ) 3 13 . Li , B. , Zh a o, Y. , Zh e lu n, S. , Sh en g, L. : Da nc eF orm e r: Mu si c co nd it i on ed 3D dan c e ge n er at i on wi th pa r am et r ic mo ti o n tr a ns fo r me r. In : AA AI (2 02 2 ) 3 14 . Li , J. , Cl eg g , A. , M ot ta gh i , R. , W u, J. , Pu i g, X. , Li u , C. K. : Co n tr o ll ab l e h u ma n- obje c t in te ra ct i on sy n t he s is . ar X iv (2 02 3 ) 3 16 Y. Zh an g et al. 15 . Li , J. , W u, J. , Liu , C. K. : Objec t mo ti on g ui de d h um an mo t io n syn th es i s. A CM TO G (2 0 23 ) 3 , 8 , 9 , 10 , 11 , 12 , 5 16 . Li , J ., Ka ng , D . , P ei , W . , Z h e, X ., Zh an g, Y. , H e , Z ., Ba o, L . : A ud i o2 Ge s tu re s : Ge n er at i ng di v e rs e ge st ur e s fr o m spe ec h au d io wi th co n di ti o na l v a ri a ti on a l au t oen cod er s . In : IC CV (2 02 1 ) 3 17 . Li , P ., Zh u a ng , Z. , Ga o , Y. , Do n g, Y. , Li , S. , Ji a ng , C. , D ou , S. , X i, Z. , Zh ou , E. , Hua n g, J. , e t al .: F ro m -w 1: T o w a rd s g en er a l h um a no id wh ol e- body co n t ro l wi t h la ng ua g e in s tr uc t io ns . ar Xi v (20 2 6) 4 18 . Li , Z. , Ch i , C. , W ei , Y. , Zh u, B. , P e ng , Y. , Hu an g , T., W ang , P ., W an g, Z. , Zh an g, S. , Xu , C.: F ro m la ng ua g e to l oco mo ti o n: Re t ar ge ti n g- fr e e h u ma n oi d con tr ol vi a mo ti on la t en t gu id an c e. ar Xi v (2 02 5) 4 19 . Li , Z., Lu o, M. , H ou , R. , Z ha o, X. , Li u , H. , Ch a ng , H. , Liu , Z., Li , C. : Mo rp h: A mo ti o n- fr e e ph ys ic s op t im iz at i on fr am ew or k fo r h u ma n mot i on ge ne ra t io n. In : IC C V (2 02 5 ) 3 , 4 20 . Li , Z. , Sed l ar , J., Car pe n ti e r, J. , La pt ev , I. , M an sa r d, N. , Siv i c, J. : Es ti ma t in g 3d mo ti on an d fo rc es of per s on -o b j ec t in te ra c ti on s fro m mo noc ul a r vi de o . In : CVP R (2 01 9) 2 , 3 , 4 21 . Li a o, Q. , T ruo n g, T. E. , H ua ng , X ., Ga o, Y. , T ev et, G. , S re en a th , K ., Li u, C.K . : Be y o n dm im ic : F ro m mot i on tr ac ki ng to v er sa t il e h u ma n oi d co n t ro l via gu i de d di ff u si on . ar X iv (2 02 5 ) 2 , 4 , 13 22 . Li u , R. , W u, H. , Zh en g , Z. , W ei , C. , He, Y. , Pi, R. , Che n , Q. : Vi d eod po: Om ni - pr ef e re nc e al i gn me n t fo r vi de o di f fu si o n ge n er at io n . In : CV PR (2 02 5 ) 2 23 . Lo pe r, M. , Ma hm ood, N. , Ro me r o, J. , P on s -M ol l , G. , Bl ac k, M. J. : SM PL : A sk in n ed m u lt i- pe rs on li n ea r mode l . A C M TO G (20 1 5) 4 , 1 24 . Lo sh c h il o v , I. , Hu tt e r, F. : Dec o up le d w ei g h t dec a y re gu l ar iz a ti on . ar Xi v (20 1 7) 9 , 4 25 . Lu o , Z. , Ca o, J. , Me r el , J. , Wi n kl er , A. , Hua n g, J. , Ki ta ni , K.M . , Xu , W. : Un i v er s al h u ma no i d mo t io n r ep re se n t a ti on s fo r ph ys ic s- ba s ed co n t ro l . In : ICL R (2 02 4) 4 26 . Lu o , Z. , Ca o, J. , Wi nk l er , A.W . , Ki t an i, K ., Xu , W.: Pe r pet ua l h um a no id co n t ro l fo r re a l- ti m e si m u la t ed a v at ar s . In : ICC V (2 02 3) 4 27 . Lu o , Z. , Y ua n, Y. , W an g , T. , Li, C. , Ch en , S., Ca s ta ne d a, F. , Ca o , Z. A. , Li , J. , Mi no r, D. , Be n , Q. , et a l. : So ni c : Su per si zi n g mo ti on tr ac ki ng f or n at ur a l h um an o id who l e- body co n t ro l . ar X iv (2 02 5 ) 4 28 . Ma h mood , N. , Gh or ba ni , N. , T roje , N. F. , P on s- M ol l, G. , Bl ac k, M. J .: AM AS S : Ar c h iv e of mo t io n cap t ur e as sur f ac e sha pe s. In : ICC V (2 01 9) 1 29 . P e ng , X. B. , Abbe e l, P ., Le vi n e, S. , V an de P an ne , M. : D ee pm i mi c: Ex a mp le - gu id e d de e p re i nf or c em en t le ar ni n g of ph ys ic s -b as ed c ha r ac te r sk i ll s. A CM T OG (20 1 8) 2 , 3 , 4 , 6 , 8 , 1 2 30 . P e ng , X. B ., Ma , Z. , Ab bee l, P ., Le v in e, S. , Ka n az a w a , A. : Am p : A dv er sa ri a l mo ti on pr i or s for st yl iz e d ph ys ic s- ba s ed c h ar ac te r co n t ro l. A C M TO G (2 02 1) 2 , 4 31 . P e tr o v ic h, M. , Bl a c k, M. J ., V aro l , G. : A ct io n -c on d it io n ed 3D h um a n mo t io n sy n t he s is wi t h tr a ns fo r me r V AE . In : IC CV (2 02 1 ) 3 32 . P e tr o v ic h, M. , Bl ac k , M. J. , V ar o l, G. : TE MO S : Ge n er at i ng di v e rs e h um a n mo t io ns fr o m te x tu al de s cr ip t io ns . In : EC CV (2 0 22 ) 3 33 . P e tr o v ic h, M. , Bl a c k, M .J ., V ar ol , G. : Tm r: T ex t- t o- mo t io n ret r ie v al us in g co n tr a st iv e 3d h u ma n mo ti on sy n t he s is . In : IC CV (2 0 23 ) 8 , 12 34 . P e tr o v ic h, M. , Li ta n y , O. , Iq ba l , U., Bl ac k , M. J. , V ar ol , G. , P en g , X. B. , Re mpe , D. : Mu lt i- tr a c k ti me li n e co n t ro l fo r te x t- dr i v e n 3D h u ma n mo ti on ge n er at i on . C VP R W (2 02 4 ) 3 , 2 35 . Pi n y oa n un ta pon g, E. , Sa le em , M ., Kar u nr at a na ku l , K. , W ang , P ., Xue , H ., C he n, C. , Gu o, C. , Ca o, J ., Re n, J., T ul y a k o v , S.: M as k c on t r ol : Sp at io -t e mpo ra l co n t ro l for ma s k ed m ot io n sy n th e si s. In : IC CV (2 02 5 ) 3 36 . Pu n na kk al , A .R ., Cha n dr as e k ar an , A., A th an a si ou , N. , Qui r os -R a mi re z , A ., Bl a c k, M. J .: Ba bel : Bod ie s, ac t io n an d beh a vi o r wi t h en gl i sh la bel s . In : CV PR (2 02 1 ) 4 Ph ys Mo DP O 1 7 37 . Ra f ai lo v, R. , Sh a rm a, A. , Mi tc he ll , E. , Ma nn in g , C. D ., Er mo n , S. , Fi nn , C. : Di re ct pr e fe re n ce op ti mi z at io n : Y ou r lan g ua ge mod el is se cr et l y a re w a rd mode l . Ne ur I PS (2 0 23 ) 2 , 3 , 4 , 5 , 7 38 . Re m pe, D. , Gu ib as , L. J. , He rt zm a nn , A. , Ru s se ll , B. , Vil l eg as , R. , Y an g, J .: Co n t ac t an d h um a n dy na m ic s fro m mo noc ul a r vi de o . In : EC CV (2 02 0 ) 2 , 3 , 4 39 . Ro s s, S. , Go rd on , G. , Bag n el l, D. : A re du c ti on of imi t at io n le a rn in g and st ru c tu re d pr e di ct i on to no -r e gr et on l in e lea r ni ng . In : AI S T A TS (2 01 1 ) 4 40 . Sc h ul m an , J. , W ol sk i, F. , Dh ar iw al , P ., Ra d fo rd , A. , K li mo v, O. : P ro xim a l pol ic y op t im iz a ti on al g or it h ms . a rX iv (2 0 17 ) 4 41 . Sh a o, Z. , W an g , P ., Zh u, Q. , Xu, R. , So n g, J. , Bi , X., Zha n g, H. , Zh an g , M. , Li , Y. , W u, Y. , et a l. : De e ps ee k ma th : Pu sh in g th e li m it s of m at he ma t ic al r ea so ni n g in ope n la n gu ag e mod el s. ar X iv (2 02 4 ) 4 42 . T es sl er , C. , Gu o, Y. , Nab a ti , O ., Ch ec hik , G. , P e ng , X. B .: Ma sk ed Mi mi c : Un if i ed ph ys ic s- b as ed c h ar ac t er co n t ro l th r ou gh ma s k ed mo t io n in p ai n t in g. A C M TO G (20 2 4) 4 , 9 , 1 0 , 11 , 12 , 13 , 14 , 1 , 2 43 . T ev e t , G. , Ra ab , S. , Co ha n, S. , Re da , D. , Lu o, Z. , P en g, X. B ., Be rm an o , A. H ., v an de P a nn e, M.: CLo S D: Cl o si ng t he loo p bet w een sim ul at i on an d di ff us i on fo r m ul t i- ta s k c h ar ac t er co n t ro l . ar Xi v (2 02 4) 3 , 4 44 . T ev e t , G. , Raa b , S. , Go rd on , B. , Sh a fi r, Y. , Be rm an o , A.H . , Co he n- O r, D. : Hum a n mo t io n dif f us io n mod el . ar X iv (2 02 2 ) 1 , 3 45 . T se ng , J. , Ca st el l on , R. , Li u, K. : ED GE : Ed it a bl e da nc e ge ne r at io n fr om m us ic . In : CV P R (2 0 23 ) 3 46 . W al la ce , B. , Da ng , M. , Ra fa i lo v, R. , Zh ou , L. , Lo u, A. , Pu r us h w a lk am , S., Er mo n, S. , Xi on g, C. , Jo t y , S. , Na i k, N. : Di ff u si on mod el al ig n me n t usi n g di re c t pr ef er e nc e op t im iz a ti on . In : CV P R (2 02 4 ) 2 , 7 , 4 47 . W an g, Z . , Ch en , Y ., Liu , T ., Z h u , Y ., L ia n g, W . , Hu an g , S. : H UM AN I SE : La n gu ag e -c on d it io n ed h um a n mo t io n ge n er at i on in 3D sc en e s. Ne ur I PS (2 02 2 ) 3 48 . W en , Y. , Sh u ai , Q., Ka n g, D. , Li , J. , W en, C. , Qi an , Y. , Ji ao , N. , Ch en , C. , Che n , W. , W a ng , Y. , et al .: Hy - mo ti o n 1. 0 : Sc a li ng fl o w ma t c hi n g mod el s fo r t ex t- to - mo ti o n ge n er at i on . arX i v (2 0 25 ) 2 , 4 49 . W u, Y. , Ka r un ra t an ak u l, K. , Lu o, Z. , T an g , S. : Un i ph ys : Un if i ed pl an ne r an d co n t ro l le r wi t h di f fu si o n fo r fle x ib le ph ys ic s -b as ed c h ar a ct er co n t ro l . In : ICC V (2 02 5) 4 50 . Xi a o, L. , Lu , S. , Pi , H., F an , K. , P a n, L. , Zh ou , Y. , F en g , Z. , Zh ou , X., P e ng , S. , W an g, J. : Mo ti on s tr ea m er : Str e am in g mo ti on ge n er at i on vi a di f fu si o n- ba s ed au to r eg re s si v e mod e l in ca us a l la t en t sp ac e. In : IC CV (2 02 5 ) 1 , 3 , 8 , 9 , 10 , 11 , 12 , 4 51 . Xi e , W. , Zh en g , J. , Ha n, J. , Sh i, J. , Zh a ng , W. , Ba i , C. , Li , X. : T ex to p: Re al - ti me in te ra ct i v e te xt -d r iv e n h um an o id ro bot mo t io n ge n er at i on an d con tr ol . arX i v (2 0 26 ) 4 52 . Xi e , Y. , Ja mp an i , V. , Zh on g, L. , Su n, D. , Ji an g, H. : Om ni Co n t ro l : Co n t ro l an y jo i n t at an y ti me fo r h um an mo t io n ge n er at i on . ar X iv (2 02 3 ) 1 , 3 , 8 , 9 , 11 , 12 , 13 , 14 , 2 , 4 , 5 53 . Yi n , S. , Ze , Y. , Y u, H. X. , Li u, C. K ., W u, J. : Vis u al mi m ic : Vi su al hu m an oi d loc o -m an i pu la t io n vi a mo ti on tr a c k in g an d ge ne ra t io n. ar X iv (2 02 5 ) 4 54 . Y ua n, Y. , So ng , J. , Iq ba l, U. , V ahd a t, A. , Ka ut z , J. : Ph ysd i ff : Ph y si c s- gu i de d h um an mo t io n dif f us io n mod el . In : IC CV (2 02 3 ) 3 , 4 55 . Zh a ng , J. , Z ha ng , Y ., Cun , X ., Zha n g, Y. , Zh ao , H ., Lu, H. , Sh e n, X., Sh an , Y. : Ge n er at i ng h u ma n mot i on fr om t ex tu a l de s cr ip ti o ns wi t h di s cr et e re pr es e n ta t io ns . In : CV P R (2 0 23 ) 3 56 . Zh a ng , Y. , Li , R. , Zha n g, Y., P an , L. , W ang , J. , Li u, Y. , Li , X. : A pl u g- an d -p la y ph ys ic al m ot io n re st or a ti on ap p ro ac h fo r in - th e- w il d hig h -d if f ic ul t y mo ti o ns . In : IC CV (2 0 25 ) 2 , 3 , 4 57 . Zh a ng , Y. , Ke ph ar t, J. O ., Cu i, Z. , Ji , Q.: Ph ys pt : Ph ys ic s- a w ar e pr et r ai ne d tra n sf or m er fo r es ti ma t in g h um an dy n am ic s fr om mo noc ul a r vi d eo s. In : CV PR (2 02 4 ) 2 , 3 , 4 18 Y. Zh an g et al. 58 . Zh a o, K ., Z ha ng , Y. , W an g, S ., B ee le r , T. , T an g , S. : Sy n th e si zi n g di v er s e h um an mo t io ns in 3D in d oor sc en e s. In : ICC V (2 02 3) 3 59 . Zh u, L. , Li u, X ., Li u , X . , Q ia n , R., Liu , Z. , Y u, L .: T am in g di ff us i on mod e ls fo r au d io -d r iv en co- s pee c h ge st ur e ge ne ra t io n. In : CV PR (2 02 3 ) 3 A p pe n d i x In th is ap pe nd i x, w e pr o v i de : – Se ct i on A : Ex pe ri m en ts on ze r o- s ho t tr an s fe r wi th H1 ro bot . – Se c ti o n B: F ur t he r ab la t io n st u dy on da t a sc al e, re pr e se n t a ti o n, an d h y per p a- ra m et e rs . – Se ct i on C : Im p le m en ta ti o n de t ai l s A Z e ro - s h o t tr a n s f e r on H 1 ro bo t Si m il a r to th e tr a ns f er on G1 ro bo t, w e pr et r ai n a W ho le - Bod y Co n t r ol le r (W B C) ba s ed on HO V E R [ 1 1 ] on H1 fo r ma t AM AS S [ 2 8 ] da t as e t. Th e n w e di re c tl y re ta r ge t th e ou t pu t mo ti o n fr o m th e mo ti o n ge ne ra t or s an d ru n HO VE R [ 1 1 ] to ob a ta i n th e mo t io n s un d er ph ys ic s co n st r ai n t s . W e ev al ua te an d co mp ar e th e per fo r ma n ce bet w ee n Ma s k e dM i mi c [ 4 2 ], Om ni Co n tr ol [ 52 ], SF T ba se l in e an d Ph ys Mo D PO o n s pa ti a l- t ex t co n tr ol ta s k in T ab le 1 on Hu ma n ML 3 D [ 6 ] te s t se t . Ov e r al l, Ph y s Mo DP O ac hi ev es th e bes t per f or ma n ce ac ro s s sp a ti a l co n t ro l la b il it y me tr ic s , in di c at i ng mo r e re li a bl e tr a c k in g un de r th e em bod im e n t an d co n tr ol l er sh i ft . Me an wh il e , Ph ys Mo D PO ma i n- ta i ns co mpe ti t iv e te x t co n si s te n cy , an d al so im p ro v e s mo t io n qu al i t y an d sm oot hn e ss . Th e se r es ul t s de mo ns t ra t e th e ro b us tn e ss o f Ph ys Mo D PO fo r sp a ti al - te x t co n tr ol l ed mo t io n ge n er a ti o n in ze ro - sh o t tr an s fe r to H 1. A d d it io n al l y , w e pr es en t vi su a l co m- pa r is o n bet w e en Ma s k e dM im i c [ 4 2 ], Om n iC o n t ro l [ 5 2 ] an d Ph ys Mo DP O in Fi gu r e 1 . W e fi nd t ha t in st e ad of bo xi n g, th e r obo t fr om Ma sk ed Mi m ic [ 4 2 ] ra nd o ml y mo v es ha n ds , wh il e th e mo t io n fr om Om n iC o n t ro l [ 5 2 ] gi v e s un st a bl e ini t ia l ro ta t io n , wh i c h ca u se s th e ro bot to fa ll at th e v e ry beg in n in g. B A b la t i o n s tu d y D at a re p r es e n t a t io n . As de sc r ibe d in Se ct io n 3. 1 of th e ma in p ape r, th e or ig i na l Hu - ma n ML 3 D da t a fo r ma t re qu ir e s ex pe ns i v e i n v e r se ki ne m at i cs to co n v er t to SM PL [ 2 3 ] T a bl e 1: Ev a lu a ti o n of ze r o- s ho t h u m an mo ti o n co n t ro l l ab i li t y wi th H1 ro bo t o n Hu m an M L3 D [ 6 ] d at a se t . W e ap pl y th e mode l s tr ai n ed wi th SM PL si m u la t io n an d th en per f or m ze ro -s h ot ev alu a ti on f or Un it r ee H1 ro bo t. Th e bes t re s ul ts a re in bol d, an d th e se c on d bes t re su lt s ar e un d er li n ed . Me t hod Sp a ti a l co n t ro ll a bi l it y T ex t co ns i st en c y FI D ↓ Je r k ↓ Er r . ↓ T raj er r 0 .5 ↓ T raj err 0. 2 ↓ M2 T ↑ R @3 ↑ Re al af te r sim ula ti o n 0. 24 06 0. 27 34 0. 81 0 5 0. 59 1 5 0. 39 1 6 0. 79 76 20 3. 6 Ma sk ed Mi mi c [ 4 2 ] 0 .5 17 3 0 . 5 75 2 0. 96 29 0. 54 5 9 0. 22 2 7 1. 13 2 19 1 . 4 Om ni C on t ro l [ 5 2 ] 0.5 12 1 0.7 1 29 0. 96 39 0. 5 69 3 0. 2 80 3 1. 03 8 27 9. 3 SF T 0 . 35 0 4 0. 61 13 0 . 9 44 3 0 . 58 46 0 . 3 57 4 0 . 9 52 3 231 . 4 Ph ysM o DP O 0 . 24 97 0 . 4 95 1 0 . 91 4 1 0 . 58 30 0 . 3 64 3 0 . 88 20 17 2 . 7 2 Y. Zh a ng et al . Maske dMimic OmniControl PhysM oDP O F ig . 1: V is u al c om p ar i so n wi t h H1 ro bo t. W e tr an sf e r th e mo ti o n ge ne r at ed b y Ma s k e dM im ic [ 42 ] , Om n iC on tr ol [ 5 2 ] and Ph ys Mo D PO to H1 ro bot an d th en ru n H o v e r [ 1 1 ] to tr a c k th e mo v em en t (b lu e poi n ts ) . Se e als o th e w e bs it e . pa r am e te r s, wh ic h ar e wi d el y us ed fo r fu rt h er re n de r in g an d tr ac ki n g po li cy . Th er ef o re , w e re tr a in Om ni C on tr ol [ 5 2 ] wi th SM P L- b as ed re p re s en ta ti o n [ 3 4 ] , an d co mp a re wi t h th e or i gi n al mod e l in T ab le 2 . W e fi nd th a t sw it c h i ng Om n iC o n t ro l [ 5 2 ] to th e SM P L- b as e d re p re s en ta ti o n con s is t en tl y im pr o v es sp a ti al co n t ro ll a bi l it y ac r os s al l co n tr ol s an d FI D . Al t ho u gh te x t al i gn m en t sl ig h tl y de g ra d es , gi v e n th a t do wn st r ea m re n de r in g an d tr ac ki ng ope ra t e in SM PL s pa ce , w e ad o pt th e SM P L re p re s en ta ti o n in th e a ll ex pe ri me n ts . D at a s ca l e . W e fu rt h er ev al ua te th e im pa c t of tr a in i ng da ta sc al e b y us in g 2 0% , 50 % , an d 10 0 % of th e pr e fe r en c e pa ir s . Ev en wit h on ly 20 % da t a, th e mod e l re - ma i ns re as o na bl y st r on g fo r al l me tr i cs , in di c at i ng th a t ou r pre f er e nc e co n st ru c ti o n is sa m pl e -e f fi c ie n t . In cr e as i ng th e sc a le co n si s te n t l y i mp ro v e s ge n er a ti o n qu al it y ( FI D) an d te xt - mo t io n a li g nm en t (M M -D i st ) . In te re s ti n gl y , s ma l le r s ca le s yi el d sl ig h t l y lo w er Je r k, w hi le fu ll da t a ac hi ev es th e bes t o v er al l FI D a nd te x t- mo t io n co ns i st e nc y wi th Ph ys Mo DP O 3 T a bl e 2: A bl a ti o n of d at a re p r es e n t at i on . W e co mp a re Om ni Co n t ro l [ 52 ] mod e l tr a in ed on di ff e re n t dat a rep r es en ta ti on s . Nu m be rs ar e ca lc u la te d w it ho ut ap p ly in g tr a c ki n g pol i cy . The bes t re su lt s ar e in bol d . Co n t r ol Da ta re p Sp a ti al co n t ro l la bi l it y T ext co n si st e nc y FI D ↓ Je rk ↓ Er r . ↓ T r a j er r 0.5 ↓ T raj er r 0. 2 ↓ MM - Di st ↓ R@ 3 ↑ P el v is HM L3 D 0.0 7 24 0.1 05 5 0. 29 20 3 . 0 13 7 0. 79 00 0. 36 19 33 . 3 0 SM PL 0 . 0 35 2 0 . 0 42 0 0 . 18 55 3. 02 55 0 . 7 8 22 0 . 21 0 7 34 .3 8 Le ft han d HM L3 D 0.1 3 20 0.2 19 7 0. 65 04 2 . 9 72 5 0 . 8 03 7 0.3 0 53 30 . 92 SM PL 0 . 0 66 2 0 . 1 09 4 0 . 47 56 3. 00 54 0. 78 42 0 . 1 88 1 33 .3 7 Ri gh t ha nd HM L3 D 0.1 3 17 0.2 18 8 0. 65 72 2 . 9 09 3 0. 79 39 0. 25 23 31 . 6 0 SM PL 0 . 0 65 6 0 . 1 00 6 0 . 47 66 3. 02 76 0 . 7 6 56 0 . 17 5 3 34 .2 9 T a bl e 3: A bl a ti o n st ud i es . W e tra i n Om ni C on tro l [ 5 2 ] an d st ud y the im p ac t of th e da t a sc a le an d pre f er en c e pa i r se le c ti on s tr at eg i es on Hu m an ML 3 D [ 6 ] dat a se t. Th e bes t re s ul ts ar e in bol d. Ra ti o Er r. ↓ MM- Di st ↓ FID ↓ Je rk ↓ Om ni Co n tro l [ 52 ] 0. 19 98 4.2 3 5.8 2 11 5. 12 20 % 0. 14 34 3 .46 1 .34 67 . 6 9 50 % 0. 14 30 3 .39 1 .24 70. 28 10 0 % 0 . 1 42 1 3 . 36 1 . 17 72 .1 3 (a ) Di ff er en t da ta sc al es Me th od Er r. ↓ MM -D is t ↓ FID ↓ Jer k ↓ Om ni Co n tro l [ 52 ] 0. 19 98 4.2 3 5.8 2 11 5. 12 F us e sc or e 0.1 47 6 3.4 5 1.6 1 78 .9 5 Do mi na nc e 0 . 14 21 3 . 36 1 . 17 7 2 . 13 (b ) P ai r se le ct i on st ra te gi es sl i gh tl y hi gh e r dy n am ic s . W e at t ri b ut e th is to la r ge r -s c al e tr ai ni n g en c ou r ag i ng mo r e di v er se an d se ma n t i ca l ly ex p re ss i v e mo ti o ns , wh ic h ma y c on ta in st r on g er ac c el er a ti o ns . P ai r se l ec t io n s tr a t eg y . W e co mp a re t w o st r at e gi e s fo r co ns t ru ct i ng pr ef e re n ce pa ir s fr o m m ul t ip l e re w a rd s : (i ) sc or e fu si o n b y no rm a li z in g re w a r ds an d us in g w ei g h t ed su m ma t io n (F us e sc o re ) , an d (i i) ou r st r ic t do mi n an c e- ba s ed sel e ct i on (D o mi n an c e) , wh i c h re q ui r es t he w in n in g sa mp l e to ou t per f or m th e lo si n g on e on al l re w a r ds . W ei g h t ed fu s io n is hi g hl y se ns i ti v e to re w a rd w e ig h t s an d te nd s to in tr odu ce re w a rd en g in e er i ng an d re w a r d ha c ki ng . Em pi r ic a ll y it per fo r ms n ot ab l y w or s e. In co n t ra st , th e pr o pos e d do mi n an ce - ba s ed s el e ct io n co n si s te n t l y yi el d s b e tt e r o v e ra l l p e rf o rm a nc e an d mo re st ab le tr ai ni n g, de m on s tr a ti n g it s ef fe c ti v e n es s fo r m u l ti -o bje ct i v e pr ef e re nc e co n st r uc t io n wi th o ut t un in g fr a gi l e w e ig h t s . A bl a t io n o n SF T l os s r at i o λ SF T . T ab l e 4 ( to p ) st u di e s th e ef fe c t o f ad d in g an SF T lo ss o n th e pr ef e rr ed (w in ) sa m pl es . Wh e n λ SF T = 0 , th e mod e l sh o w s de g ra d ed co n t ro l la b il it y an d ge n er at i on qu al i t y . In c re a si n g λ SF T co n si s te n t l y im pr o v es sp a ti a l co n tr ol la b il i t y , te xt co n si s te nc y , as w el l as FI D an d je rk , an d re a c h es th e bes t o v er al l per fo r ma n ce at λ SF T = 2 . F ur th e r in cr ea s in g λ SF T (e . g. , 5 or 10 ) yi e ld s sl i gh t re g re s si o ns , su gg e st i ng o v e rl y st ro n g SF T r eg ul a ri z at i on m a y w ea k en th e ben ef i t o f pr e fe r en c e o pt im i za t io n . W e th er ef o re us e λ SF T = 2 in al l ex per i me n ts . A bl a t io n on DP O te m per a tu r e β . T ab le 4 (bo t to m ) ev al ua t es th e DP O te mpe r- at u re β wi t h λ SF T = 2 . A sm al l te m per a tu r e ( β = 1 ) pr o vi de s li mi t ed im pr o v em en t, wh i le a mod er a te v al ue ( β = 20 ) ac hi ev es th e bes t o v er al l tr a de - of f ac r os s co n t ro l la bi l it y , 4 Y. Zh a ng et al . T a bl e 4 : Ab l at i on st u dy on h y per p ar a me t er s . He re λ SF T is the we i gh t of SF T lo ss on wi n sa mp le , β is th e tem pe ra tu r e pa ra m et er fr o m Di ff u si on - DP O [ 46 ] . Th e best re s ul ts ar e in bol d, an d the se c on d best re s ul ts ar e un de rl i ne d. λ SF T β S pa t ia l co n tr ol l ab i li t y T e xt co ns i st e n cy F ID ↓ Je rk ↓ E rr . ↓ T raj er r 0. 5 ↓ T raj er r 0. 2 ↓ MM - Di s t ↓ R@ 3 ↑ 0 20 0 . 23 48 0. 59 1 8 0. 9 02 3 4. 2 1 0. 61 33 5 . 28 11 6 .7 7 1 20 0 . 17 71 0. 54 6 9 0. 8 88 7 4. 0 0 0. 63 87 4 . 31 10 3 .6 4 2 20 0 . 14 2 1 0 . 4 23 8 0 . 84 1 8 3 . 3 6 0 . 72 4 6 1 . 17 72 . 1 3 5 20 0 . 14 40 0 . 44 6 3 0 . 8 49 6 3 . 4 0 0 . 71 39 1 . 8 2 81 . 1 1 10 20 0. 1 47 6 0 .4 6 29 0. 86 6 2 3. 49 0. 70 41 2. 2 9 88 .0 7 2 1 0. 1 51 3 0 .4 7 75 0. 87 0 1 3. 53 0. 69 73 2. 4 2 91 .3 1 2 5 0 . 1 45 8 0 . 4 4 92 0 . 86 0 4 3 . 44 0 . 70 02 1 . 9 5 85 . 8 3 2 20 0 . 14 2 1 0 . 4 23 8 0 . 84 1 8 3 . 3 6 0 . 72 4 6 1 . 17 72 . 1 3 2 50 0 . 18 48 0. 55 6 6 0. 8 92 6 4. 0 2 0. 63 67 4. 4 1 10 6 .0 2 te x t al i gn m en t, an d ge ne r at i on qu al i t y . Wh e n β bec o me s too la r ge ( β = 50 ) , th e per f or m an c e dr o ps si gn i fi ca n tl y (e . g. , w o rs e FI D an d hi gh er je rk ) , in d ic a ti n g o v er ly ag g re s si v e pr ef er e nc e upd a te s ca n ha rm d is t ri bu t io n al q ua l it y an d mo t io n sm oot h ne s s. He n ce , w e se t β = 2 0 b y de f au l t. C I m pl e m e n ta t i o n de t a i l s In Se ct i on 4. 1 of th e ma in p ape r, w e pr o v i de a br ie f o v e rv i ew o f th e im pl e me n t a ti o n de t ai l s. F or co m pl et e ne s s an d re pr odu c ib i li t y , w e p re se n t th e fu l l ex per i me n t a l co n fi g - ur a ti o n in th i s ap pen d ix fo r te xt -t o -m o ti o n an d s pa ti a l- t ex t co n t ro l ta s ks . In ad di ti o n, w e co m pl e me n t th e me t ri cs an d t he us e r s tu dy de ta il s . I mp l e me n ta t io n de ta i l s fo r th e te x t -d r i v e n t as k . W e ap p ly th e pr e tr a in e d mod el fr o m Mo t io n St re a me r [ 50 ] to in i ti a li z e th e da t a ge ne r at i on pi pel i ne an d th e n ge ne r at e 12 sa mp le s fo r e ac h te xt pr o mp t fr om th e tr ai n in g se t of H um an M L3 D [ 6 ]. As f or th e pos t- t ra i ni n g st a ge , w e fi x al l th e pa ra m et e rs ex c ep t th e di f fu si o n he a d i ns id e th e Mo t io n St r ea m er . F ol lo wi ng th e T ra n sf o rm er tr ai n in g se tu p of M ot io n St r ea m er [ 5 0 ], w e re p la c e th e st an da r d di ff u si on tr ai n in g lo ss e s wi th T w o -F or w a rd st ra t eg y as ou r L SF T lo s s on wi n sa mp l es X win . W e tr a in th e mod e l us i ng a ba tc h si ze of 32 , wi t h A d a m W op ti m iz e r [ 2 4 ] wi th le a rn in g ra te 1e -6 fo r 5, 00 0 it er a ti o ns , am on g wh ic h th e fi r st 50 0 st e ps ar e w a rm - up st ag e . Th e h y per pa r am te r s λ SF T an d Di f fu s io n -D PO [ 4 6 ] te m per a tu r e β in Ph ys Mo D PO fr am e w o rk ar e se t to 1 a nd 5, re s pec ti v el y . As f or SF T ba s el i ne , w e se t th e DP O lo s s w e ig h t to be ze r o, wh i le th e o th er h y per p ar a me te r s re m ai n un c ha ng ed . F ol l o w in g Om n iC on tr o l [ 5 2 ] , th e th re s ho l d h 0 an d v 0 in R sl id e ar e se t to 0 .0 5 m an d 0. 50 m/ s. No t e th at , as w e re mo v e mo ti o ns wh ic h re qu i re s obje ct su p por t fo r bot h tr ai n in g an d in fe r en c e, w e r ep rod u ce al l t he ba s el i ne res u lt s wi t h th e ne w fi lt e re d te s t se t fo r fa ir c om pa r is o n. I mp l e me n ta t io n de t a il s f or s pa t i al - t ex t ta s k . T o co m pl e me n t to i mp le m en ta t io n de t ai l s in Se c ti on 4. 1 of th e ma in pa per , w e fu rt h er de sc r ibe th e tr a in i ng se t ti n gs , Ph ys Mo DP O 5 h y per p ar a me t er s an d ba s el i ne s . W e fo l lo w th e tr ai n in g pr ot oc ol of Om n iC o n t ro l [ 5 2 ] an d ev al ua t e cr o ss - co n t r ol as in Om n iC o n t ro l , wh e re w e ra nd o ml y sa mp l e a v ar i ab l e n u m be r o f co n t r ol jo i n t s fo r ea c h te st sa m pl e . W e ad d it i on al l y re po rt si n gl e -j o in t co n tr ol ev al ua ti o n in Se ct i on B. W e co n v er t Hu m an M L3 D [ 6 ] in t o a SM P L- b as ed re p re s en ta ti o n an d re- t ra i n th e O mn i Co n t ro l ba c k bon e on th i s fo rm a t. An ab la t io n o n th e da t a re p re s en ta ti o n is pr o v id e d in Se c ti o n B . Th e or ig i na l Om ni C on tr ol tr ai ni n g se l ec t s a si ng le co n t r ol jo in t per sa mp l e, wh ic h ca n mi sm a tc h the cr o ss -c o n t ro l ev al u a- ti o n. Th er ef o re , w e ad di t io n al ly re -t r ai n Om ni C on tr ol wi t h th e cr o ss - co n t r ol pr o toc ol , i. e ., sa mp l in g a ran d om se t of co n t r ol j oi n t s du ri n g tr ai n in g (c ro s s) . W e th e n ap pl y Ph ys M oD P O to fi ne t un e th e cr os s- t ra i ne d Om ni C on tr ol fo r 4, 00 0 st ep s wi th ba tc h si z e 64 , us i ng a l in ea r w a r m- up o v e r th e f ir st 20 0 st e ps . W e fi x λ SF T = 2 an d β = 20 fo r al l ex pe ri m en ts on sp at ia l -t e xt co n t ro l ta sk an d th e co r re s pon d in g h ype r pa r am e te r ab l at i on s ca n be fo un d in th e Se ct i on B. Be y on d Hu ma nM L 3D , w e fur t he r ad a pt th e mod e l pr et ra i ne d on Hu m an M L3 D [ 6 ] da ta to th e ou t -o f -d i st r ib u ti on OM OM O [ 1 5 ] da t as e t wi t ho u t u si ng i ts gr o un d- t ru t h mo t io n s as su per vi s ed tr a in i ng ta r ge t s, wh i le k e e pi ng th e sa me pi pe li n e a nd h y per p ar a me te r s. In te rm s of Ma sk ed Mi m ic , fo r fa ir co m pa r is o n, w e in it i al i ze th e ro bot wi t h st a nd a rd pos e an d th e n ad d 1 se c on d w ar m up st ag e to ma k e th e ro bot mo v e to th e fi r st fr a me sp at ia l co n t r ol si g na l s, an d th e n w e re m o v e th e fi rs t 30 fr a me s to ca l cu la t e th e me t ri c s. A dd it i o na l m et r i cs . F or sp a ti a l co n t r ol ta s k, i n ad d it i on to ma s k e d MS E bet w ee n C s an d X ′ (E r r. ) , w e fu rt h er ev al u at e t he co n t r ol la b il i t y th ro u gh fa i lu re ra t e (T raj er r ) un d er gi v e n th r es h ol d . Spe ci f ic a ll y , T raj er r 0. 5 re p re se n ts th e ra ti o of fa i lu re mo t io n se - qu e nc e s wh o se ma xi m um jo in t er ro r ac ro ss th e wh oe se qu e nc e is la rg er th a n 0. 5 me te rs . U se r st u dy de t a il s . W e g en e ra t e 40 vi de o s per m e th od a nd t h u s p ro vi de 80 qu e st i on s . As sh o w n in Fi gu r e 2 , fo r ea c h qu es t io n , w e sh o w t w o re a l ro bot vi d eo s fr o m Ph y s Mo DP O an d on e of th e ba se l in e me th od s. T w e n t y pa r ti c ip a n t s ev al ua t ed th e vi d eo s ac co r di n g to 3 as pe ct s : te x t- mo t io n co ns i st e nc y , smoo t hn e ss , an d st a bi l it y . F or ea c h su b -q ue s ti o n, th e pa r ti c ip an t cou l d se le c t on e of th e vi d eo s or "B o th ar e si m il ar " . 6 Y. Zh a ng et al . F ig . 2: Us er st ud y de s i gn . W e sh o w th e tex t in pu t wi th 2 vi de o s ge ne ra t ed b y Ph ys Mo DP O an d on e ba se l in e me th od. Th e pa rt ic i pa n t is as k ed to ev al ua te th e vid e os ac c or di n g to te x t- mo t io n si m il ar i t y , sm oot h ne ss an d st ab il i t y .
Original Paper
Loading high-quality paper...
Comments & Academic Discussion
Loading comments...
Leave a Comment