37 Matching Annotations
  1. Mar 2021
    1. So, Sentence-BERT is modification of the BERT model which uses siamese and triplet network structures and adds a pooling operation to the output of BERT to obtain fix-sized semantically meaningful sentence embeddings. These generated sentence embedding can further be used for sentence similarity comparison (using cosine similarity), clustering and semantic search.

      Sentence-BERT는 BERT에 조정을 가한 모델로서 문장 마다의 고정 길이 벡터를 출력하며 각 벡터는 semantic information을 반영한다.

    2. The state-of-the-art NLP model, BERT is great at the Semantic Textual Similarity tasks but the problem with is it would take very long time for a huge corpus ( 65 hours!! for 10,000 sentences) as it requires that both sentences are fed into the network and this increases the computation by huge factor.

      BERT는 SOTA모델로서 거대한 데이터 셋을 이용해 12개의 Transformers layer를 사전 학습한 모델이다.

    3. ELMo which stands for Embedding from Language Model, is developed by ALLenNLP and it uses bi-directional deep LSTM network for producing vector representation. ELMo considers words within which context they have been used rather than creating dictionary of words with its vector form.The model can represent the unknown or out of vocabulary words into vector form as the ELMo is character based.Like word2vec model, ELMo can also predict the next probable word in the sentence. And hence, if the model is trained on huge dataset set then it can be aware of the language pattern.

      ELMo는 'Embedding for Language Model'의 약자로서 '양방향 deep LSTM'을 이용해 문장을 양쪽 방향으로 학습하는 방식이다. 이는 각 단어의 사전을 만드는 작업이 아닌, 현재 문장에서 단어가 어떻게 사용되는 지를 학습하는 모델이라고 할 수 있다.

      통계에 기반하는 것이아닌 언어가 어떻게 사용되는지를 raw하게 보는 것 같다.

      ELMo는 OOV에 대응해 제대로 벡터화시키는데, 이는 모델이 character-based이기 때문이다.

      이 모델을 사용해 언어 모델을 학습시켜서 이전 단어들이나 현재까지 진행된 문장(맥락)을 참고해 다음 단어를 예상하는 등 언어가 사용되는 패턴을 학습킨다.

    4. Both the techniques of word embedding have given a decent result, but the problem is the approach is not accurate enough. As, they don’t take into consideration the order of words in which they appear which leads to loss of syntactic and semantic understanding of the sentence.For example, “You are going there to teach not play.” And “You are going there to play not teach.” Both of these sentences will have same representation in the vector space but they don’t mean the same.Also, the word embedding model cannot give satisfactory results on large amount of text data, as same word may different meaning in different sentence depending on the context of the sentence.

      하지만 지금까지 소개한 Word Embedding 모델들은 결국 문맥을 잘 고려하지 못한다는 단점이 있다. 그 예제로, 문장의 두 동사 위치가 바뀌었을 때 전체 맥락이 완전히 바뀌더라도 워드 임베딩 모델은 이를 반영하지 못하는 경우이다.

      또한 이들은 코퍼스 크기가 늘어나서 그 안에서 단어가 사용되는 맥락(다의어)이 늘어나도 이를 전부 반영하기 어렵다. 때문에 태생부터 맥락을 잘 반영하는 모델이 나오게 된다.

    5. 워드 임베딩은 단어 그 자체가 가지는 의미 관계를 파악한다. 때문에 개별 단어 간 거리를 알 수 있는 반면에 문장/문맥에 따른 의미 변화를 파악하기 힘들다.

  2. Feb 2021
  3. Jan 2021
    1. 21세기 초 구글은 규모와 복잡성 때문에 진정하게 안정적인 스택은 불가능하다는 것을 깨닳았음 ㅤ→ 해결책은 실패를 가정하여 구축하는 것이었고, 이에 따라 상대적으로 저렴한 x86 기반 데이터 센터를 구축했음

      x86을 이용한 시스템은 대안이 없기 때문에 지금까지 지속적으로 성장하는 시장을 만들었음. 그러나 안정성과 전력소모에서 ARM과 차이를 보임

  4. Sep 2020
    1. A PDCAAS rating of 1.0 is a perfect score, with eggs, milk, and whey protein scoring a perfect 1.0, and beef coming in right behind with .92. If you look at vegetarian sources of protein, you get kidney beans coming in at .54, red lentils at .53, and peanuts .52

      .c3

    2. For this, researchers have come up with something called the PDCAAS (protein digestibility-corrected amino acid score) score. The PDCAAS measures the quality of a protein for human consumption. It takes into account the amino acid composition, the digestibility of amino acids, and the bioavailability of the amino acids

      .c2

    3. What most people don’t know about this Oscar-winning producer and his wife, however, is that they’re also the founders of Verdiant Foods, an organic pea protein company[*].

      .c2

    1. This issue has been hotly debated, since many say that metabolic problems including diabetes, prediabetes, and obesity stem from eating too many calories, period, or too many calories from sugar regardless of the type.

      .c1

    2. A study published in the American Journal of Clinical Nutrition in 2004 proposed that the growing use of high-fructose corn syrup as a sweetener in processed foods could be linked to ballooning rates of obesity. It launched a long, contentious scientific debate.

      This is a controversial issue

    1. Using a combination of templates and block references in Roam — you can set up dynamic conversations with your past, present, and future selves using a rich library of prompts.

      .c3

    2. There are SO MANY amazing journaling and reflective prompts that I've either come across or thought of over the years — but I haven't been able to effectively integrate them into my life.

      .c2

    3. I love using prompts and cues because they allow me to visit a predetermined thought-space — A pattern of thinking that I want to engage with.

      .c1

    1. In the Pomodoro Technique , you alternate between set work intervals and set break intervals. Most people go with 25-minute work intervals followed by 5-minute breaks.

      .c1

    1. When data is grouped together, Pandas creates a groupby-object. There are plenty of functions that can be applied onto a grouped object like unique(), mean(), min() or max()

      .c1

    1. Remove Blank rows in Data, if anyChange all the text to lower caseWord TokenizationRemove Stop wordsRemove Non-alpha textWord Lemmatization

      .c2

    2. The difference is that a stemmer operates on a single word without knowledge of the context, and therefore cannot discriminate between words which have different meanings depending on part of speech.

      .c2

    3. The problem with interpreting the human language is that it is not a set of rules or binary data that can be fed into the system and understanding the context of a conversation or reading between the lines is altogether a different ball game.

      .c1 .Text-Classification

    4. Text Classification is an automated process of classification of text into predefined categories. We can classify Emails into spam or non-spam, news articles into different categories like Politics, Stock Market, Sports, etc.

      .Text-Classification

    1. 진나라는 앞서 말씀드렸듯이 당시 중국에선 변방지역이였고 사실 반 오랑캐 취급받던 국가였습니다. 거의 잡종 취급이였는데, 국가간도 그렇고 개인간에도 그렇지만 아무리 속으로 깔보던 결국 힘있는 놈에게 못당하는거라 진나라가 커져갈수록 위협감도 느끼는 동시에 그에 대해 마지못해 인정해주게 됩니다. 그리고 이 진나라는 사마착이 파촉을 정벌하면서 영토를 대거 넓히고 제도와 군비를 바로 잡아 국력을 신장시키면서 외교술과 암살 및 공작등 모든 수단을 동원해 주요국 육국 하나 하나를 제압해나가며 중국 문명을 전부 통일하고 진정한 의미로 '동아시아 최초의 제국' 이 됩니다.그리고 이 시기 연나라를 정벌하면서 요동까지 닿게 되고 이 때 이후로 소위 한민족과 중국 통일왕조란 거대한 제국의 길고 긴 관계가 시작되었죠. 진나라 자체야 비로소 단명했지만 이 짧은 기간동안 도량형부터 문자까지 통일시키는등 하나의 제국으로 지역내 풍속도 문화도 다른 민족들을 통합하는 프로세스 자체는 후대에 재통일한 한나라에게도 이어져 한나라에서 현재 중국의 주류 민족이라는 '한족'이 생겨나죠.

      한족의 역사

  5. Aug 2020
    1. “We have the largest Google doc,” said Merel Timmermans, 20, a rising junior at Grinnell College, who is renting a house in Utah with other Grinnell students. “There’s a Covid safety plan, all of our meals, a roommate contract, a ‘how things work’ guide, information on how we’re going to do chores, cook meals, and we have summaries of all the house meetings we’ve had over Zoom. We made a house Spotify playlist. We’re all filling out medical forms so we have them in case of emergency.”

      Google Docs for social distancing in Collab house

    1. 그러면 지역화는 대체 무슨 상관인가 싶으실겁니다. 금방 춘추시대를 제가 금방 문장의 말미에 언급했는데, 현재 중국의 영토는 위구르 티베트 뿐만 아니라 심지어 중국의 고유영토라 인식되는 중원-강남 지역조차 명백한 한족의 영토는 아니였습니다. 이게 무슨 한국의 국수주의자들이 말하는 환웅 및 동이족 얘기가 아니라 처음에 한족의 뿌리가 될 수 있는 상나라 시절의 한족 정확히는 화하족의 문화가 공유된 지역은 지금의 하남성과 산시성 일부 그 이상을 벗어나기 힘들었고 그 이외에는 그들이 북적, 남만, 서융, 동이라 불리는 오랑캐들의 미개 지역이었고요.

      지역화가 진전되면서 '지역'이 가지는 범위가 넓어진건가?