o «jaã@s,dZddlZddlZddlZddlZdD]Ze e¡Zeeje<qdd„ejd_ dd„ejd_ d d„ejd_ddlZddl mZdd lmZdZdZd ZdZdZdZdZeeeksaJdƒ‚Gdd„dejƒZedkre ej ¡rxdnd¡Zeƒ e¡ ¡Ze dd„e !¡DƒƒZ"e#de"d›ƒe $ddee¡ e¡Z%e &¡ee%ƒZ'Wdƒn1s´wYe' (¡D]>\Z)Z*e+e*dƒrÔe#de)›de,e*j-ƒ›ƒq½e.e*e/ƒrûe#de)›d e0e*ƒ›d!ƒe*rûe+e*ddƒrûe#d"e,e*dj-ƒ›ƒq½ej1dkre#d#ej 2¡d$d%›d&ƒdSdSdS)'uzDA3-based volume model with factored KV-attention. Architecture (Cameron 2026-05-18 spec): - DA3 backbone + DPT head; aux head's final 1Ã—1 conv replaced to output KEY_DIM (+1 conf). - Per-pixel feature F âˆˆ R^(B Ã— KEY_DIM Ã— H Ã— W) â€” "value/query" stream. - Learnable height embeddings h_emb âˆˆ R^(N_HEIGHT_BINS Ã— H_DIM). - Learnable time embeddings t_emb âˆˆ R^(N_WINDOW Ã— T_DIM). - Key per (t, z): key(t, z) = concat(t_emb[t], h_emb[z]) âˆˆ R^(T_DIM + H_DIM = KEY_DIM). - Volume logits via bilinear scoring: l(b, t, z, u, v) = F(b, :, u, v) Â· key(t, z) / sqrt(KEY_DIM). We replace the original libero (B, N_WINDOW * N_HEIGHT_BINS, H, W) dense head with the factored KV decomposition: parameter-efficient, structural inductive bias that height/time are categorical attributes that share representation across spatial locations. forward(rgb) returns: volume_logits: (B, N_WINDOW, N_HEIGHT_BINS, h_out, w_out) pred_depth: (B, H, W) â€” for distillation against frozen DA3 depth dino_feats: list of intermediate DINO features (for PCA viz) pixel_feats: (B, KEY_DIM, h_out, w_out) â€” for debugging / viz éN)údepth_anything_3.utils.exportú!depth_anything_3.utils.pose_aligncOódS©N©©ÚaÚkrrú-/data/cameron/para/libero/model_da3_volume.pyÚórrcOrrrrrrr rrrcOrrrrrrr rr)ÚDepthAnything3z/data/cameron/da3_large_weightsiøéé é0éz(TIME_DIM + HEIGHT_DIM must equal KEY_DIMc sVeZdZeeeeeedfde de de de de de f‡fdd „ Zd d„Zdd „Z ‡ZS)ÚDA3VolumeModelNÚweights_pathÚn_windowÚ n_height_binsÚkey_dimÚtime_dimÚ height_dimcs8tƒ ¡|||ks J‚||_||_||_||_||_t |¡}|j j |_ |j j|_~|dur=tt |j dgd¢ƒƒ|_nt|ƒ|_|jjjd} | d} tj| j|ddddd}tj |j¡tjj|jdd|| d<t ||¡|_t ||¡|_tjj|jjd d ddtjj|jjd d ddt |¡|_dS) NZ out_layers)ééé ééÿÿÿÿér)Úkernel_sizeÚstrideÚpaddinggš™™™™™©?)Ústdgš™™™™™¹?gš™™™™™É¿gš™™™™™É?)r"rÚb)ÚsuperÚ__init__rrrrrr Úfrom_pretrainedÚmodelÚbackboneÚheadÚlistÚgetattrÚdino_feat_layersÚscratchZoutput_conv2_auxÚnnÚConv2dÚin_channelsÚinitÚzeros_ÚbiasÚnormal_ÚweightÚ EmbeddingÚh_embÚt_embÚ trunc_normal_Ú LayerNormÚ pixel_norm)Úselfrrrrrrr,ÚfullZlast_aux_seqZold_convZnew_conv©Ú __class__rr r%,s2 zDA3VolumeModel.__init__cCsR|j}|j}|jj d¡ |||j¡}|jj d¡ |||j¡}t j ||gddS)zjReturns keys: (n_window, n_height_bins, key_dim). key(t, z) = concat(t_emb[t], h_emb[z]). rrr)Údim)rrr8r5Ú unsqueezeÚexpandrr7rÚtorchÚcat)r<ÚTÚZZt_eZh_errr Ú_build_keysUs zDA3VolumeModel._build_keyscCs"| d¡}tj ¡r tjntj}tj|jj|d|j |d|j dd\}}Wdƒn1s0wY|jd|jd}}tj|jjdd |j|||d d}Wdƒn1s]wY|d} | ¡d krv| dd…d d f} n| ¡dkr…| dd…d f} n tdt| jƒ›ƒ‚|d}| ¡d kr¨|dd…d f d ddd¡}n| ¡dkr·| d ddd¡}n tdt|jƒ›ƒ‚|j\} }}}| | d ddd¡¡ d ddd¡}| ¡}dt |j¡}t d||¡|}g}|D]}t|ttfƒr| |d ¡qò| |¡qò|| ||dœS)z rgb: (B, 3, 504, 504) in [0, 1].r)Údevice_typeÚdtypeNZsaddle_balanced)Z cam_tokenZexport_feat_layersZref_view_strategyéþÿÿÿrF)rHÚenabledr)Zpatch_start_idxÚdepthrézunexpected depth shape Úrayéézunexpected ray shape gð?zbchw, tzc -> btzhw)Ú volume_logitsÚ pred_depthÚpixel_featsÚ dino_feats)rArCÚcudaÚis_bf16_supportedÚbfloat16Úfloat16ÚautocastÚdeviceÚtyper(r,Úshaper)r@ÚRuntimeErrorÚtupleÚpermuter;rGÚmathÚsqrtrÚeinsumÚ isinstancer*Úappend)r<ÚrgbÚxZautocast_dtypeZfeatsZ_auxÚHÚWZhead_outrLrRrNrSÚBZCfZHfZWfÚf_normÚkeysÚscalerQrTZlayer_featsrrr Úforward_sP ýÿÿ"üzDA3VolumeModel.forward)Ú__name__Ú __module__Ú__qualname__ÚDA3_WEIGHTS_DEFAULTÚN_WINDOWÚ N_HEIGHT_BINSÚKEY_DIMÚTIME_DIMÚ HEIGHT_DIMÚstrÚintr%rGrmÚ __classcell__rrr>r r+s$ýÿÿþþý) rÚ__main__rUÚcpuccs|] }|jr| ¡VqdSr)Ú requires_gradÚnumel)Ú.0Úprrr Ú šs€r€zTrainable: ú,rPrOr\z z: z: list(ú)z first: zpeak: geÍÍAz.2fz GB)3Ú__doc__ÚsysÚtypesÚosr`ÚnÚ ModuleTypeÚmÚmodulesÚexportZalign_poses_umeyamaZbatch_align_poses_umeyamarCÚtorch.nnr.Zdepth_anything_3.apir rqÚ DA3_INPUTrrrsrtrurvÚModulerrnrZrUÚis_availableÚtoÚevalÚsumÚ parametersZn_tÚprintÚrandreÚno_gradÚoutÚitemsr ÚvÚhasattrr^r\rcr*Úlenr[Úmax_memory_allocatedrrrr ÚsN l ÿ *€ ñ