4 Matching Annotations
  1. Last 7 days
    1. s: (a) NORB, (b) CIFAR 10, (c) Frey faces

      Frey 데이터셋에서 생성된 이미지는 선명해 보이지만, NORB 데이터셋의 경우 매우 뭉개진 형태의 이미지가 생성된 것처럼 보입니다. 동일한 gray scale의 데이터셋임에도 불구하고 이러한 차이가 나는 원인이 무엇인지 궁금합니다.

    1. NLL

      생성 품질을 평가하기 위해 log likelihood 기반의 평가 metric을 사용한 것 같은데, log likelihood가 실제 사람이 얼마나 real data로 느끼는 지를 평가할 수 있나요?

    1. LB (θ, φ; x(i)) = −DKL(qφ(z|x(i))||pθ (z)) + 1LL∑l=1(log pθ (x(i)|z(i,l)))where z(i,l) = gφ((i,l), x(i)) and (l) ∼ p()

      z가 동일한 input x에 대해서 noise가 더해지면서 매 학습마다 다른 값을 가지게 되는데, decoder를 학습시킬 때, 안정적으로 수렴할 수 있음을 보증할 수 있나요?

  2. Sep 2024
    1. To capture the generation process, Theis & Bethge (2015)propose to use a two-dimensional LSTM network (Graves& Schmidhuber, 2009) that starts at the top left pixel andproceeds towards the bottom right pixel. The advantage ofthe LSTM network is that it effectively handles long-rangedependencies that are central to object and scene under-standing. The two-dimensional structure ensures that thesignals are well propagated both in the left-to-right and top-to-bottom directions.

      일반적으로 이미지를 생각하면 top left pixel은 중요하지 않은 배경 영역이 될 것 같습니다. 직관적으로 생각한다면, pixel들을 순차적으로 생성한다면 중요한 object가 있는 영역을 먼저 생성하는 것이 더 좋은 이미지를 생성하는데 도움이 되지 않을까요?