o cáj+&ã@sdZddlZddlZddlZddlZdD]Ze e¡Zeeje<qdd„ejd_ dd„ejd_ d d„ejd_ddlZddl mZdd lmZdZdZd ZdZdZdZdZGdd„dejƒZedkre ej ¡rndnd¡Zeƒ e¡ ¡Ze dd„e !¡DƒƒZ"e#de"d›ƒe $ddee¡ e¡Z%e &¡ee%ƒZ'Wdƒn1sªwYe' (¡D]>\Z)Z*e+e*dƒrÊe#de)›de,e*j-ƒ›ƒq³e.e*e/ƒrñe#de)›de0e*ƒ›dƒe*rñe+e*ddƒrñe#d e,e*dj-ƒ›ƒq³ej1dkr e#d!ej 2¡d"d#›d$ƒdSdSdS)%uzDA3-based volume model with factored KV-attention. Architecture (Cameron 2026-05-18 spec): - DA3 backbone + DPT head; aux head's final 1Ã—1 conv replaced to output KEY_DIM (+1 conf). - Per-pixel feature F âˆˆ R^(B Ã— KEY_DIM Ã— H Ã— W) â€” "value/query" stream. - Learnable height embeddings h_emb âˆˆ R^(N_HEIGHT_BINS Ã— H_DIM). - Learnable time embeddings t_emb âˆˆ R^(N_WINDOW Ã— T_DIM). - Key per (t, z): key(t, z) = concat(t_emb[t], h_emb[z]) âˆˆ R^(T_DIM + H_DIM = KEY_DIM). - Volume logits via bilinear scoring: l(b, t, z, u, v) = F(b, :, u, v) Â· key(t, z) / sqrt(KEY_DIM). We replace the original libero (B, N_WINDOW * N_HEIGHT_BINS, H, W) dense head with the factored KV decomposition: parameter-efficient, structural inductive bias that height/time are categorical attributes that share representation across spatial locations. forward(rgb) returns: volume_logits: (B, N_WINDOW, N_HEIGHT_BINS, h_out, w_out) pred_depth: (B, H, W) â€” for distillation against frozen DA3 depth dino_feats: list of intermediate DINO features (for PCA viz) pixel_feats: (B, KEY_DIM, h_out, w_out) â€” for debugging / viz éN)údepth_anything_3.utils.exportú!depth_anything_3.utils.pose_aligncOódS©N©©ÚaÚkrrú0/data/cameron/para/libero/model_da3_volume_v3.pyÚórrcOrrrrrrr rrrcOrrrrrrr rr)ÚDepthAnything3z/data/cameron/da3_large_weightsiøéé é0c sbeZdZeeeeeedfde de de de de de f‡fdd „ Zed d„ƒZ dd „Zdd„Z‡ZS)ÚDA3VolumeModelNÚweights_pathÚn_windowÚ n_height_binsÚkey_dimÚtime_dimÚ height_dimcs~tƒ ¡||kr ||ksJ‚||_||_||_||_||_t |¡}|j j |_ |j j|_~|dur?tt |j dgd¢ƒƒ|_nt|ƒ|_|jjjd} | d} tj| j|ddddd}tj |j¡tjj|jdd|| d<t ||¡|_t ||¡|_tjj|jjd d ddtjj|jjd d dd|jd| ||¡d d|jd| ||¡d dt |¡|_ t !t" #d¡¡|_$dS)NZ out_layers)ééé ééÿÿÿÿér)Úkernel_sizeÚstrideÚpaddinggš™™™™™©?)Ústdg{®Gáz”?gš™™™™™©¿)r!rÚbÚt_sinF)Ú persistentÚh_singHáz®G@)%ÚsuperÚ__init__rrrrrr Úfrom_pretrainedÚmodelÚbackboneÚheadÚlistÚgetattrÚdino_feat_layersÚscratchZoutput_conv2_auxÚnnÚConv2dÚin_channelsÚinitÚzeros_ÚbiasÚnormal_ÚweightÚ EmbeddingÚh_embÚt_embÚ trunc_normal_Úregister_bufferÚ_sinusoidal_featuresÚ LayerNormÚ pixel_normÚ ParameterÚtorchÚtensorÚlogit_scale)Úselfrrrrrrr.ÚfullZlast_aux_seqZold_convZnew_conv©Ú __class__rr r'3s@ ÿÿzDA3VolumeModel.__init__cCs‚|ddksJ‚|d}tj|tjdt|ddƒ}dtj|tjd}| d¡| d¡tj}tjt |¡t |¡gddS)z×NeRF/transformer-style sinusoidal positional encoding. Returns (n_values, dim) where each row is sin/cos at log-spaced freqs. Normalize position to [0, 1] so all n_values fit one cycle base. ér)Údtyperg@r)Údim) rAÚarangeÚfloat32ÚmaxÚ unsqueezeÚmathÚpiÚcatÚsinÚcos)Ún_valuesrJÚLÚposZfreqsÚanglesrrr r=fsz#DA3VolumeModel._sinusoidal_featurescCs0|j|jj d¡}|j|jj d¡}||S)u£v3: sinusoidal (fixed) + small learned embedding, SUMMED across t and z. key(t, z) = (t_sin[t] + t_emb[t]) + (h_sin[z] + h_emb[z]) âˆˆ R^key_dim. rr)r#r:r7rNr%r9)rDZt_totalZh_totalrrr Ú_build_keystszDA3VolumeModel._build_keyscCsZ| d¡}tj ¡r tjntj}tj|jj|d|j |d|j dd\}}Wdƒn1s0wY|jd|jd}}tj|jjdd |j|||d d}Wdƒn1s]wY|d} | ¡d krv| dd…d d f} n| ¡dkr…| dd…d f} n tdt| jƒ›ƒ‚|d}| ¡d kr¨|dd…d f d ddd¡}n| ¡dkr·| d ddd¡}n tdt|jƒ›ƒ‚|j\} }}}| | d ddd¡¡ d ddd¡}||jdddd}| ¡}||jdddd}|jjt d¡d ¡}t d||¡|}g}|D]}t|ttfƒr| |d ¡q| |¡q|| ||dœS)z rgb: (B, 3, 504, 504) in [0, 1].r)Údevice_typerINZsaddle_balanced)Z cam_tokenZexport_feat_layersZref_view_strategyéþÿÿÿrF)rYÚenabledr)Zpatch_start_idxÚdepthrézunexpected depth shape ÚrayérHzunexpected ray shape T)rJÚkeepdimgíµ ÷Æ°>gY@)rMzbchw, tzc -> btzhw)Ú volume_logitsÚ pred_depthÚpixel_featsÚ dino_feats)rNrAÚcudaÚis_bf16_supportedÚbfloat16Úfloat16ÚautocastÚdeviceÚtyper*r.Úshaper+rJÚRuntimeErrorÚtupleÚpermuter?ÚnormrXrCÚclamprOÚlogÚexpÚeinsumÚ isinstancer,Úappend)rDÚrgbÚxZautocast_dtypeZfeatsZ_auxÚHÚWZhead_outr\rbr^rcÚBZCfZHfZWfZf_lnZf_unitÚkeysZ keys_unitÚscalerardZlayer_featsrrr Úforward|sT ýÿÿ"üzDA3VolumeModel.forward)Ú__name__Ú __module__Ú__qualname__ÚDA3_WEIGHTS_DEFAULTÚN_WINDOWÚ N_HEIGHT_BINSÚKEY_DIMÚTIME_DIMÚ HEIGHT_DIMÚstrÚintr'Ústaticmethodr=rXr~Ú __classcell__rrrFr r2s(ýÿÿþþý3 rÚ__main__reÚcpuccs|] }|jr| ¡VqdSr)Ú requires_gradÚnumel)Ú.0Úprrr Ú ¼s€r’zTrainable: ú,rHr_rlz z: z: list(ú)z first: zpeak: geÍÍAz.2fz GB)3Ú__doc__ÚsysÚtypesÚosrOÚnÚ ModuleTypeÚmÚmodulesÚexportZalign_poses_umeyamaZbatch_align_poses_umeyamarAÚtorch.nnr0Zdepth_anything_3.apir r‚Z DA3_INPUTrƒr„r…r†r‡ÚModulerrrjreÚis_availableÚtoÚevalÚsumÚ parametersZn_tÚprintÚrandrwÚno_gradÚoutÚitemsr ÚvÚhasattrrnrlrur,ÚlenrkÚmax_memory_allocatedrrrr ÚsN ÿ *€ ñ