2 Matching Annotations
  1. May 2024
    1. UNETR

      UNETR là một kiến trúc mạng nơ-ron kết hợp giữa Vision Transformer (ViT) và 3D convolutions. Dưới đây là các điểm quan trọng về kiến trúc này: 1. Vision Transformer (ViT):

      • UNETR là một phiên bản tổng quát của ViT cho 3D convolutions.
      • Nó thay thế 3D convolutions trong phần mã hóa bằng multi-head self-attention.
      1. Chuyển đổi dữ liệu đầu vào:
        • Dữ liệu đầu vào 3D được chia thành các patch không giao nhau với kích thước 16x16x16.
        • Sau đó, dữ liệu được chiếu vào không gian nhúng (768 chiều) bằng một lớp tuyến tính và kết hợp với positional embedding.
        • Dữ liệu sau đó được xử lý bởi một encoder multi-head self-attention.
    2. Attention U-Net [14] is extending base U-Net by adding an attention gate(shown in the Fig. 5) in the decoder part. Attention gate is transforming thefeature map from the encoder before the concatenation in the decoder block.It learns which regions of the encoder feature map are the most important,considering the context of the feature map from the previous decoder block.This is achieved by multiplication of the encoder feature map with the weightscomputed by the attention gate. The weight values are in the (0, 1) range andrepresent the attention level that the neural network is paying to a given pixel.Fig. 5. The architecture of the attention gate. Input features (xl) are multiplied byattention weights (α). To compute α, input features (xl), and feature map from corre-sponding encoder level are first transformed by 1x1x1 convolution, and the summed.Next, ReLU activation and another 1x1x1 convolution are applied. Finally, attentionweights are upsampled with trilinear interpolation. Image from [14].

      Attention U-Net là một kiến trúc mạng nơ-ron mở rộng từ kiến trúc cơ bản U-Net bằng cách thêm một attention gate vào phần giải mã (decoder). Dưới đây là các điểm quan trọng về kiến trúc này: 1. Attention Gate:

      • Attention gate được áp dụng trên feature map từ phần mã hóa (encoder) trước khi nối chúng trong khối giải mã (decoder)
      • Nó học xem các vùng của feature map từ encoder quan trọng nhất, dựa vào ngữ cảnh của feature map từ khối giải mã trước đó.
      • Attention gate thực hiện việc nhân feature map từ encoder với trọng số tính toán. Các giá trị trọng số nằm trong khoảng (0, 1) và biểu thị mức độ chú ý mà mạng nơ-ron đang trả cho mỗi pixel
      1. Kiến trúc của Attention Gate:
        • Đầu vào (input features) được nhân với trọng số chú ý (attention weights) (α)
        • Để tính α, input features và feature map từ encoder cùng được biến đổi bằng tích chập 1x1x1, sau đó cộng lại.
        • Tiếp theo, áp dụng hàm kích hoạt ReLU và một lớp tích chập 1x1x1 khác.
        • Cuối cùng, trọng số chú ý được nâng tỷ lệ với phương pháp trilinear interpolation.