o !Êjøã@sdZddlZddlZddlZddlZdD]Ze e¡Zeeje<qdd„ejd_ dd„ejd_ d d„ejd_ddlZddl mZdd lmZdZdZd ZdZdZdZdZGdd„dejƒZedkre ej ¡rndnd¡Zeƒ e¡ ¡Ze dd„e !¡DƒƒZ"e#de"d›ƒe $ddee¡ e¡Z%e &¡ee%ƒZ'Wdƒn1sªwYe' (¡D]>\Z)Z*e+e*dƒrÊe#de)›de,e*j-ƒ›ƒq³e.e*e/ƒrñe#de)›de0e*ƒ›dƒe*rñe+e*ddƒrñe#d e,e*dj-ƒ›ƒq³ej1dkr e#d!ej 2¡d"d#›d$ƒdSdSdS)%uzDA3-based volume model with factored KV-attention. Architecture (Cameron 2026-05-18 spec): - DA3 backbone + DPT head; aux head's final 1Ã—1 conv replaced to output KEY_DIM (+1 conf). - Per-pixel feature F âˆˆ R^(B Ã— KEY_DIM Ã— H Ã— W) â€” "value/query" stream. - Learnable height embeddings h_emb âˆˆ R^(N_HEIGHT_BINS Ã— H_DIM). - Learnable time embeddings t_emb âˆˆ R^(N_WINDOW Ã— T_DIM). - Key per (t, z): key(t, z) = concat(t_emb[t], h_emb[z]) âˆˆ R^(T_DIM + H_DIM = KEY_DIM). - Volume logits via bilinear scoring: l(b, t, z, u, v) = F(b, :, u, v) Â· key(t, z) / sqrt(KEY_DIM). We replace the original libero (B, N_WINDOW * N_HEIGHT_BINS, H, W) dense head with the factored KV decomposition: parameter-efficient, structural inductive bias that height/time are categorical attributes that share representation across spatial locations. forward(rgb) returns: volume_logits: (B, N_WINDOW, N_HEIGHT_BINS, h_out, w_out) pred_depth: (B, H, W) â€” for distillation against frozen DA3 depth dino_feats: list of intermediate DINO features (for PCA viz) pixel_feats: (B, KEY_DIM, h_out, w_out) â€” for debugging / viz éN)údepth_anything_3.utils.exportú!depth_anything_3.utils.pose_aligncOódS©N©©ÚaÚkrrú0/data/cameron/para/libero/model_da3_volume_v2.pyÚórrcOrrrrrrr rrrcOrrrrrrr rr)ÚDepthAnything3z/data/cameron/da3_large_weightsiøéé é0c sVeZdZeeeeeedfde de de de de de f‡fdd „ Zd d„Zdd „Z ‡ZS)ÚDA3VolumeModelNÚweights_pathÚn_windowÚ n_height_binsÚkey_dimÚtime_dimÚ height_dimcs<tƒ ¡||kr ||ksJ‚||_||_||_||_||_t |¡}|j j |_ |j j|_~|dur?tt |j dgd¢ƒƒ|_nt|ƒ|_|jjjd} | d} tj| j|ddddd}tj |j¡tjj|jdd|| d<t ||¡|_t ||¡|_tjj|jjd d ddtjj|jjd d ddt |¡|_dS) NZ out_layers)ééé ééÿÿÿÿér)Zkernel_sizeZstrideZpaddinggš™™™™™©?)Ústdgš™™™™™¹?gš™™™™™É¿gš™™™™™É?)rrÚb)ÚsuperÚ__init__rrrrrr Zfrom_pretrainedZmodelÚbackboneÚheadÚlistÚgetattrÚdino_feat_layersZscratchZoutput_conv2_auxÚnnZConv2dZin_channelsÚinitZzeros_ZbiasZnormal_ÚweightZ EmbeddingÚh_embÚt_embZ trunc_normal_Z LayerNormÚ pixel_norm)Úselfrrrrrrr&ZfullZlast_aux_seqZold_convZnew_conv©Ú __class__rr r!/s2 zDA3VolumeModel.__init__cCs0|j}|j}|jj d¡}|jj d¡}||S)uÍv2: SUM of full-dim time and height embeddings (instead of concat halves). Returns keys: (n_window, n_height_bins, key_dim). key(t, z) = t_emb[t] + h_emb[z] (both âˆˆ R^key_dim). rr)rrr+r)Ú unsqueezer*)r-ÚTÚZZt_eZh_errr Ú_build_keysYs zDA3VolumeModel._build_keyscCs"| d¡}tj ¡r tjntj}tj|jj|d|j |d|j dd\}}Wdƒn1s0wY|jd|jd}}tj|jjdd |j|||d d}Wdƒn1s]wY|d} | ¡d krv| dd…d d f} n| ¡dkr…| dd…d f} n tdt| jƒ›ƒ‚|d}| ¡d kr¨|dd…d f d ddd¡}n| ¡dkr·| d ddd¡}n tdt|jƒ›ƒ‚|j\} }}}| | d ddd¡¡ d ddd¡}| ¡}dt |j¡}t d||¡|}g}|D]}t|ttfƒr| |d ¡qò| |¡qò|| ||dœS)z rgb: (B, 3, 504, 504) in [0, 1].r)Údevice_typeZdtypeNZsaddle_balanced)Z cam_tokenZexport_feat_layersZref_view_strategyéþÿÿÿrF)r4Úenabledr)Zpatch_start_idxÚdepthrézunexpected depth shape Úrayéézunexpected ray shape gð?zbchw, tzc -> btzhw)Ú volume_logitsÚ pred_depthÚpixel_featsÚ dino_feats)r0ÚtorchÚcudaZis_bf16_supportedZbfloat16Zfloat16ZautocastÚdeviceÚtyper"r&Úshaper#ÚdimÚRuntimeErrorÚtupleZpermuter,r3ÚmathZsqrtrZeinsumÚ isinstancer$Úappend)r-ÚrgbÚxZautocast_dtypeZfeatsZ_auxÚHÚWZhead_outr7r=r9r>ÚBZCfZHfZWfZf_normÚkeysZscaler<r?Zlayer_featsrrr ÚforwarddsP ýÿÿ"üzDA3VolumeModel.forward)Ú__name__Ú __module__Ú__qualname__ÚDA3_WEIGHTS_DEFAULTÚN_WINDOWÚ N_HEIGHT_BINSÚKEY_DIMÚTIME_DIMÚ HEIGHT_DIMÚstrÚintr!r3rQÚ __classcell__rrr.r r.s$ýÿÿþþý*rÚ__main__rAZcpuccs|] }|jr| ¡VqdSr)Z requires_gradZnumel)Ú.0Úprrr Ú Ÿs€razTrainable: ú,r;r:rDz z: z: list(ú)z first: zpeak: geÍÍAz.2fz GB)3Ú__doc__ÚsysÚtypesÚosrHÚnÚ ModuleTypeÚmÚmodulesZexportZalign_poses_umeyamaZbatch_align_poses_umeyamar@Ztorch.nnr'Zdepth_anything_3.apir rUZ DA3_INPUTrVrWrXrYrZZModulerrRrBrAZis_availableÚtoÚevalÚsumZ parametersZn_tÚprintÚrandrKZno_gradÚoutÚitemsr ÚvÚhasattrrGrDrIr$ÚlenrCZmax_memory_allocatedrrrr ÚsL n ÿ *€ ñ