best_subnet.txt

Vision_TransformerSuper(
  (patch_embed_super): PatchembedSuper(
    (proj): Conv2d(3, 256, kernel_size=(16, 16), stride=(16, 16))
  )
  (blocks): ModuleList(
    (0): TransformerEncoderLayer(
      (drop_path): Identity()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (1): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (2): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (3): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (4): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (5): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (6): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (7): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (8): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (9): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (10): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (11): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (12): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
    (13): TransformerEncoderLayer(
      (drop_path): DropPath()
      (attn): AttentionSuper(
        (qkv1): qkv_super(in_features=256, out_features=230, bias=False)
        (qkv2): qkv_super(in_features=230, out_features=230, bias=False)
        (qkv3): qkv_super(in_features=230, out_features=768, bias=True)
        (rel_pos_embed_k): RelativePosition2D_super()
        (rel_pos_embed_v): RelativePosition2D_super()
        (proj1): LinearSuper(in_features=256, out_features=230, bias=False)
        (proj2): LinearSuper(in_features=230, out_features=230, bias=False)
        (proj3): LinearSuper(in_features=230, out_features=256, bias=True)
        (attn_drop): Dropout(p=0.0, inplace=False)
        (proj_drop): Dropout(p=0.0, inplace=False)
      )
      (attn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (ffn_layer_norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
      (fc11): LinearSuper(in_features=256, out_features=230, bias=False)
      (fc12): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc13): LinearSuper(in_features=230, out_features=1024, bias=True)
      (fc21): LinearSuper(in_features=1024, out_features=230, bias=False)
      (fc22): LinearSuper(in_features=230, out_features=230, bias=False)
      (fc23): LinearSuper(in_features=230, out_features=256, bias=True)
    )
  )
  (norm): LayerNormSuper((256,), eps=1e-05, elementwise_affine=True)
  (head): LinearSuper(in_features=256, out_features=1000, bias=True)
)