274 Matching Annotations
  1. May 2024
    1. Diversity of Demonstrations: Another important factor in the success of few-shot learning isthe diversity of the demonstrations. Naik et al. (2023) propose DiversePrompting where for thequestion of a demonstration, an LLM is used to generate different ways of solving the problem,and then those solutions are used in the prompt. Zhang et al. (2022b) propose to select a diverseset of questions as few-shot examples. Ma et al. (2023) propose a fairness metric for selectingdemonstrations which encourages selecting diverse few-shot demonstrations that produce a nearuniform predictive distribution for a semantic-free input

      Độ đa dạng của các ngữ cảnh. Naik đã đề xuất phương pháp DiversePrompting. Trong đó, câu hỏi của một ngữ cảnh sẽ được sử dụng để LLMs có thể tạo ra nhiều cách khác nhau để giải quyết và các câu trả lời này sẽ được sử dụng làm ngữ cảnh tham khảo. Zhang và cộng sự đã đề xuất việc chọn một tập đa dạng các câu hỏi làm ngữ cảnh. Ma đã đề xuất một độ đo về tính công bằng cho việc chọn các ngữ cảnh, khuyến khích việc chọn một tập đa dạng các ngữ cảnh có thể tạo ra mổ phân bố dựa đoán gần chuẩn cho một đầu vào không liên quan đến ngữ nghĩa.

    2. Order of Demonstrations: The order of demonstrations has been shown to substantially affect themodel performance. For example, Lu et al. (2022b) show that on some tasks, the model performancecan range from near-random to state-of-the-art depending on the order of the prompts, and Zhao et al.(2021) show that answers appearing toward the end of the prompt are more likely to be predicted bythe model

      Thứ tự của ngữ cảnh có ảnh hướng rất lớn đến kết quả của mô hình. Nghiên cứu của zhao cho thấy các câu trả lời xuất hiện ở gần cuối của prompt khả năng cao sẽ được dự đoán bởi mô hình.

    3. umber of Demonstrations: LLMs generally benefit from more demonstrations, but as the numberof demonstrations increases the rate of improvement typically decreases (Brown et al., 2020; Ye et al.,2023b; Min et al., 2022b). Generation tasks have been shown to benefit from an increased number ofdemonstrations more than classification tasks (Li et al., 2023b). Toward increasing the number ofdemonstrations, one barrier is the maximum context size of the LLM. While the size of the contexthas been increasing over time with newer LLMs, it may still be problematic for datasets with longinput texts or classification datasets with many classes

      LLM nhìn chung có kết quả tốt hơn khi có nhiều ngữ cảnh hơn. Tuy nhiên, số lượng ngữ cảnh chuyền vào càng nhiều thì tốc độ tăng của kết quả càng giảm. Ngoài ra, việc tăng số lượng ngữ cảnh còn bị giới hạn bởi kích thước context window của LLMs.

    4. Several works try to provide theoretical justifications and insights into how LLMs learn from a fewin-context demonstrations (Xie et al., 2021; Garg et al., 2022; Von Oswald et al., 2023). However,the exact reasons behind this capability are still largely unclear making it difficult to select optimalfew-shot demonstrations

      Đã có một số nghiên cứu cung cấp những lý giải mang tính lý thuyết và các phân tích cho việc LLMs có thể học từ các ngữ cảnh như thế nào. Tuy nhiên, lý do chính xác cho khả năng này của LLMs là chưa được rõ ràng, từ đó khiến cho việc chọn được các ngữ cảnh tối ưu trở nên khó khăn.

    5. This not only improves the efficiency and scalability of the learningprocess but also has been shown to reduce biases inherent in manual exampleselection. I

      Phương pháp mới không chỉ giúp tăng hiệu quả và khả năng mở rộng của quá trình học mà còn hạn chế được sự thiên lệch đến từ việc chọn ngữ cảnh thủ công

    6. However, the model’sability to perform ICL is sensitive to the choice of the few-shot demonstrations.Instead of using a fixed set of demonstrations, one recent development is to retrievedemonstrations tailored to each input query

      khả năng học ICL của mô hình LLMs rất nhạy cảm với việc chọn các mẫu few-shot. Một phương pháp mới nổi lên gần đây với việc truy xuất các mẫu ngữ cảnh dựa trên truy vẫn thay vì luôn sử dụng một bộ mẫu ngữ cảnh cố định.

  2. Apr 2024
    1. 1) The biggest challenges of multi-intent detec-tion (MID) in the deployment is the heavy coderefactoring on a running dialogue system whichalready does a good job in single-intent detection.It motivates us to design DialogUSR, which servesas a plug-in module and eases the difficulties ofincremental development.2) Prior work on MID has higher cost of dataannotation and struggles in the open-domain or do-main transfer scenarios. Only NLU experts canadequately annotate the intent/slot info for a MIDuser query, and the outputs of MID NLU modelsare naturally limited by the pre-defined intent/slotontology. In contrast, DialogUSR datasets can be1Code and data are provided in https://github.com/MrZhengXin/multi_intent_2022.!"#=>ChechowH#I:;Chec[SP]thereOPI9:TranRST12DEChec[SP]speedRV$H%PChec=>TH%P:;Chec[SP]fromH%P:;Z[Chec[SP]there^"_abSabSStep1. Initial Query Collection+,-./012345678Check the high-speed train from Xiamen toNanjing on Friday afternoonTask-orientedQuery Datasetsfghi:+,A/j12klh-./0345678Hi, I wanna check the high-speed train thatdeparts from Xiamen and arrives in Nanjing onFriday afternoonSamplingSentenceSimplificationStep2. Follow-up Query Creation'(* +,-./012345678Check the high-speed train from Xiamen to Nanjing on Friday afternoon'K* 9:;<=>How long does it take'Q* +A/BC6DEFGCheck out the special cuisine thereStep3. Query Aggregation'(* +,-./012345678Check the high-speed train from Xiamen to Nanjing on Friday afternoon'K* 9:;<=>How long does it take'Q* +A/BC6DEFGCheck out the special cuisine theremccnPcV%JS"* +,-./0123456789:;<=>?@+A/BC6DEFGCheck the high-speed train from Xiamen to Nanjing on Friday afternoon,how long does the journey take, then check out the special food there.'K* 9:;<=>How long does it take'Q* +A/BC6DEFGCheck out the specialcuisine there'KonPb* 123456789:;<=>How long does it take to travel fromXiamen to Nanjing in high-speed train'QonPb* +A/456DEFGCheck out the special cuisine in NanjingStep4. Query CompletionFigure 2: The overview for the data collection proce-dure of DialogUSR. Firstly we sample initial queriesfrom task-oriented NLU datasets (Sec. 2.1), then wehire crowdsource workers to write follow-up queries(Sec. 2.2). To aggregate the annotated queries, we pro-pose text filler templates (marked in red, Sec. 2.3) andpost-processing procedure. Finally we ask annotatorsto recover the missing information in the incompleteutterances (marked in blue, Sec. 2.4).easily annotated by non-experts, and the derivedmodels are domain-agnostic in the sense that thelearned query splitting, coreference/omission re-covery skills are generic for distinct domains3) Presumably MID is more difficult than sin-gle intent detection (SID) given the same inten-t/slot ontology. From the perspective of task(re)formulation, DialogUSR is the first to converta MID task to multiple SID tasks (the philosophyof ’divide and conquer’) with a relatively low er-ror propagation rate, providing an alternative andeffective way to handle the MID task.

      Đóng góp chính của bài báo: - Thách thức lớn nhất hiện nay đối với việc xử lý các câu multi-intent là phải triển khai lại việc huấn luyện hệ thống hội thoại vốn đã hoạt động tốt trong việc xử lý câu single-intent. - Các nghiên cứu trước đó trong việc xử lý câu multi-intent thường có phí chú thích cao và gặp khó khăn với trường hợp miền mở. - Ngay từ đầu, việc xử lý các câu multi-intent đã khó hơn so với xử lý câu single-intent ovwis cùng cách gán intent và entity. DialogUSR là phương pháp đầu tiên giúp chuyển đổi một câu multi-intent thành nhiều câu single-intent với khả năng xảy ra lỗi lan truyền thấp

    2. he anno-tators are instructed to write up to 3 subsequentqueries on what they need or what they would liketo know about according to the designated initialquery

      Người xây dựng được hướng dẫn viết thêm nhiều nhất 3 truy vấn con về cái họ cần hoặc muốn biết dựa trên câu truy vấn ban đầu

    3. we ask human an-notators to put themselves in the same position ofa real end user and imagine they are eliciting mul-tiple intents in a single complex user query whileinteracting with conversational agents

      người làm dữ liệu được yêu cầu đặt bản thân vào vị trí của người dùng thực sự và tự đưa ra các câu multi-intent.

    4. sample an initial query from twoChinese user query understanding datasets fortask-oriented conversational agents, namely SMP-ECDT2(Zhang et al., 2017) and RiSAWOZ3 (Quanet al., 2020). Then we ask human annotators to sim-plify the initial queries that have excessive length(longer than 15 characters), or are too verbose orrepetitive in terms of semantics

      Các truy vấn ban đầu được lấy mẫu từ 2 bộ dữ liệu là SMP-ECDT và RiSAWOZ. Người tạo data thủ câu sau đó được yêu cầu đơn giản hóa các truy vẫn ban đầu có độ dài lớn hơn 15 ký tự, hoặc quá lòng vòng hoặc có sự lặp lại về mặt ngữ cảnh

    5. we propose com-plex dialogue utterance splitting and reformulation(DialogUSR) task with corresponding benchmarkdataset that firstly splits the multi-intent query intoseveral single-intent sub-queries and then recoverthe coreferred and omitted information in the sub-queries,

      Đề xuất phương pháp phân chia các câu hội thoại phức tạp và tái cấu trúc (DialogUSR)

    6. Tointegrate the multi-intent detection model into aproduct dialogue system, the developers wouldmake extra efforts in continuous deployment, i.e.technical support for both single-intent and multi-intent detection models, and system modifications,i.e. changes in the APIs and implementations ofNLU and other related modules

      Để tích hợp các mô hình phát hiện multi-intent vào hệ thống hội thoại, nhà phát triển cần cố gắng phát triển liên tục cho cả 2 mô hình single-intent và multi-intent

    7. o handle multi-intent user queries, a straight-forward solution is to train a dedicated natural lan-guage understanding (NLU) system for multi-intentdetection

      Để xử lý được các truy vấn đa ý định, một cách đơn giản là huấn luyện một hệ thống NLU có vai trò phát hiện multi-intent

  3. Mar 2024
    1. n the context of the TOD system, two crucialcomponents for measuring the success of a dia-logue are belief state and system response

      2 thành phần quan trọng cho việc đánh giá một hệ thống hội thoại tốt là lelief state và system response.

    2. he main contributions of our work can be sum-marized as follows:1. We design a prompt construction methodbased on domain and slot information.2. We proposed an adaptive prompt generationframework for the comprehensive black-box LLM-based TOD system.3. Experimental results demonstrate the effec-tiveness of our approach in enhancing the capabili-ties of LLMs.

      Đóng góp chính của bài báo: - thiết kế một phương pháp xây dựng prompt dựa trên thông tin về miền và giá trị thực thể. - Đề xuất một framework với các prompt có tính thích ứng cho một hệ thống TOD LLM tổng quát - Các kết quả nghiên cứu chứng minh được sự hiệu quả trong phương pháp được đề xuất trong việc làm tăng khả năng của LLM.

    3. e de facto way of utilizing black-box largelanguage models (LLMs) to perform variousdownstream tasks is prompting. However,obtaining suitable prompts for specific tasksis still a challenging problem. While exist-ing LLM-based methods demonstrate promis-ing performance in the task-oriented dialogue(TOD) task, they often require manual adjust-ment in prompt selection or focus solely on dia-logue understanding or generation. To addressthese issues, we propose an adaptive promptgeneration framework to fully unleash the po-tential of LLMs for the comprehensive TODsystem. Firstly, we design a trainable slot gen-erator (TSG) that can generate domain and slotinformation in the belief state, which serves asprior knowledge for subsequent prompt genera-tion. Next, we propose an adaptive prompt gen-erator (APG) that utilizes the prior knowledgeto generate prompts for the LLM, deriving thebelief state and system response of the dialoguefor evaluation. Finally, we evaluate our frame-work on the MultiWOZ 2.0 dataset. Extensiveexperiments demonstrate th

      intro

    1. With the Meta NLG tasks defined above, we formulate themeta-learning objective of Meta-NLG as below:θM eta = M etaLearn(T1, ..., TK )= arg maxθ EiEDTi ,D′TiLD′Ti(fθ′i) (4)θ′i = Adapt(DTi , θ) = θ − α∇θ LDTi (fθ ) (5)

      hàm học tối ưu Meta-NLG

    2. Low-resource Adaptation. To simulate the process ofadapting to a low-resource NLG task, the sizes of both sub-sets DTi and D′Ti , especially DTi , are set small. Therefore,when the model is updated on DTi as a part of the later meta-learning steps, it only sees a small amount of samples in thattask. This setup embeds the goal of low-resource adaptation.

      Thích ứng với bài toán ít tài nguyên: Để mô phỏng quá trình thích ứng với 1 bài toán NLG ít tài nguyên, kích thước của cả 2 tập DTi và D'Ti, đặc biệt là DTi, được cài đặt là nhỏ. Vì vậy, khi mô hình được cập nhật trên bộ DTi như 1 phần của bước meta-learning tiếp theo, nó sẽ chỉ nhìn thấy một lượng nhỏ mẫu của bài toán này.

    3. Task Generalization. To generalize to new NLG tasks,Meta NLG tasks follow the same modality as the target task.For example, if our target task is to adapt to DA-utterancepairs in a new domain, then DA-utterance pairs in each Tiare sampled from the same source domain. We also consideradapting to new DA types in later experiments. In this case,DA-utterance pairs in each Ti have the same DA type. Thissetting merges the goal of task generalization.

      Tổng quát hóa bài toán: Để có thể tổng quát hóa các bài toán NLG mới, các bài toán Meta NLG sẽ đi theo phương thức giống với các bái toán mục tiêu. Ví dụ, nếu bài toán mục tiêu là thích ứng với các cặp DA-utterance ở trong 1 miền mới, thì các cặp DA-utterance ở mỗi Ti sẽ được lấy mẫu từ cùng miền gốc.

    4. Therefore, the first step is to construct a set of auxiliaryMeta NLG tasks (T1, ..., TK ) to simulate the low-resourcefine-tuning process. We construct a Meta NLG task Ti by:Ti = (DTi , D′Ti ) (3)DTi and D′Ti of each Ti are two independent subsets of DA-utterance pairs from high-resource source data Ds. DTi andD′Ti correspond to meta-train (support) and meta-test (query)sets of a typical meta-learning or few-shot learning setup, andTi is often referred to as a training episode. This meta setupwith both DTi and D′Ti in one Meta NLG task allows ourMeta-NLG algorithm to directly learn from different MetaNLG tasks. The usage of them will be elaborated later. MetaNLG tasks are constructed with two additional principles:

      Bước đầu là xây dựng một tập các bài toán Meta NLG (T1, ..., Tk) để mô phỏng quá trình fine-tune ít tài nguyên. Một bài toán Ti được thể hiện như sau: Ti = (DTi, D'Ti) Dti và D'Ti của mỗi bài toán Ti là 2 tập con độc lập gồm các cặp DA-utterance từ dữ liệu nhiều tài nguyên Ds. DTi và D'Ti tương ứng với tập meta-train và meta-test cho một bài toán few-shot learning vầ meta-learning đặc trưng. Với 2 tập DTi và D'Ti, cài đặt này cho phép thuật toán Meta-NLG trực tiếp học từ các bài toán Meta NLG khác nhau.

    5. the idea of our Meta-NLG algorithm isto repeatedly simulate auxiliary Meta NLG tasks from Ds tomimic the fine-tuning process in Eq.(2).

      Ý tưởng chính của thuật toán Meta-NLG là lặp lại việc mô phỏng các bài toán Meta NLG từ tập dữ liệu Ds để bắt chước quá trình fine-tuning ở biểu thức (2).

    6. uppose fθ is the base NLG model parameterized by θ, andwe have an initial θs pre-trained with DA-utterance pairsDs = {(dj , Yj )}j∈s from a set s of high-resource sourcetasks. When we adapt fθ to some low-resource task t withDA-utterance pairs Dt = (dt, Yt), the fine-tuning processon Dt can be formulated as follows:θ∗ = Adapt(Dt, θ = θs) = arg maxθ LDt (fθ )= arg maxθ∑(dt ,Yt )∈DtlogP (Yt|dt; θ) (2)The parameter θs will be used for initialization, and themodel is further updated by new observations Dt. The sizeof Dt in low-resource NLG tasks is very small due to thehigh annotation cost, therefore, a good initialization parame-ter θs learned from high-resource source tasks is crucial forthe adaptation performance on new low-resource NLG tasks.Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence (IJCAI-19)3152

      Tham số theta^S sẽ lấy được sau khi pretrain mô hình với một bộ dữ liệu có các bài toán nhiều tài nguyên. Tham số theta^S sẽ được dùng để khởi tạo để huấn luyện mô hình với bộ dữ liệu ít tài nguyên.

    7. hieved state-of-the-art perfor-mance by directly optimizing the gradient towards a goodparameter initialization for easy fine-tuning on low-resourcescenarios. It introduces no additional architectures nor pa-rameters.

      Thuật toán MAML đạt được kết quả SOTA bằng cách trực tiếp tối ưu việc đạo hàm thông qua việc có khởi tạo tham số tốt cho việc fine-tuning dễ dàng trên các ngữ cảnh ít tài nguyên.

    8. The optimization algorithm itself canbe designed in a way that favors fast adaption

      Ý tưởng chính là tự tìm cách tối ưu thuật toán tối ưu theo hướng thích ứng nhanh.

    9. The idea is to use an additional meta-learnerto learn to update the original learner with a few trainingexamples. [Andrychowicz et al., 2016] developed a meta-learner based on LSTMs. Hypernetwork [Ha et al., 2016],MetaNet [Munkhdalai and Yu, 2017], and TCML [Mishraet al., 2017] also learn a separate set of representations forfast model adaptation. [Ravi and Larochelle, 2017] proposedan LSTM-based meta-learner to learn the optimization algo-rithm (gradients) used to train the original network

      Ý tưởng chính là sử dụng một mô hình bổ sung cho meta-learning để cập nhật cho mô hình gốc với 1 ít dữ liệu huấn luyện. Tiêu biểu là nghiên cứu của Ravi và Larochelle với một mô hình meta-learning dựa trên mô hình LSTM để học thuật toán tối ưu hóa được sử dụng để huấn luyện mô hình mới.

    10. The idea is to learn a metric space and thenuse it to compare low-resource testing samples to rich train-ing samples

      Ý tưởng chính là học một không gian đánh giá và sử dụng nó để so sánh các mẫu kiểm thử ít tài nguyên với các mẫu huấn luyện nhiều tài nguyên.

    11. A fundamental problem is “fastadaptation to new and limited observation data”

      bài toán căn bản của meta-learning là tạo ra sự thích nghi nhanh với dữ liệu quan sát mới và hạn chế

    12. We formulate the problem froma meta-learning perspective, and propose a gen-eralized optimization-based approach (Meta-NLG)based on the well-recognized model-agnostic meta-learning (MAML) algorithm.

      Bài toán được bố cục theo góc nhìn của meta-learning. Phương pháp dựa trên tối ưu hóa tổng quát hóa (generalized optimization based approach) được đề xuất Phương pháp này được triển khai dựa trên thuật toán meta-learning không dựa trên mô hình MAML (model-agnositc meta-learning algorithm)

    13. Inthis paper, we study NLG in a low-resource settingto generate sentences in new scenarios with handfultraining examples

      Đề xuất phương pháp học với ít dữ liệu. Phương pháp NLG với cài đặt ít tài nguyên để tạo sinh các câu trong các ngữ cảnh mới với một lượng nhỏ số lượng mẫu huấn luyện.

    14. As Meta-NLG is model-agnostic as long asthe model can be optimized by gradient descent, we could ap-ply it to any existing NLG models to optimize them in a waythat adapt better and faster to new low-resource tasks

      Thuật toán Meta-NLG là một thuật toán không dựa trên mô hình miễn sao mô hình có thể được tối ưu hóa bằng xuống đồi đạo hàm, ta có thể áp dụng bất kì mô hình NLG nào để tối ưu hóa chúng theo cách giúp chúng thích ứng tốt hơn và nhanh hơn với các bài toán ít dữ liệu mới

    15. Then, we proposed a generalizedNLG algorithm called Meta-NLG based on MAML by view-ing languages in different domains or dialog act types as sep-arate Meta NLG tasks.

      Thuật toán Meta-NLG là một thuật toán NLG tổng quát hóa dựa trên thuật toán MAML bằng cách xem xét các ngôn ngữ trong nhiều miền khác nhau hoặc các kiểu hành động hội thoại như các bài toán Meta-NLG riêng biệt

    16. nstead of casting the problem as model-based approaches, we propose a generalized optimization-based meta-learning approach to directly enhance the opti-mization procedure for the low-resource NLG task

      phương pháp được đề xuất dựa trên meta-learning và tối ưu hóa tổng quát bằng cách trực tiếp tăng cường quy trình tối ưu hóa cho các bài toán NLG ít dữ liệu

    17. Although promis-ing results were reported, we found that datasets used bythese methods are simple which tend to enumerate many slotsand values in an utterance without much linguistic variations.

      Dù kết quả được báo cáo là rất hứa hẹn, các dữ liệu được sử dụng trong các bài báo cáo này đều khá đơn giản. Chúng có xu hướng liệt kê các giá trị thực thể mà không có sự đa dạng trong ngữ nghĩa.

    18. Meta-NLG defines aset of meta tasks, and directly incorporates the ob-jective of adapting to new low-resource NLG tasksinto the meta-learning optimization process.

      Meta-NLG định nghĩa một tập các bái toán Meta, và trực tiếp hợp nhất mục tiêu của việc thích nghi với các bài toán NLG ít tài nguyên và quá trình tối ưu hóa meta-learning

    19. De-spite the recent success of neural approaches forNLG, they are typically developed for particulardomains with rich annotated training examples

      Dù hiện nay, các phương pháp tiếp cận cho NLG hiện tại đã đạt được nhiều thành công nhưng chúng vẫn cần một lượng dữ liệu đã đước gán nhãn rất lớn.

    1. fine-tune SC-GPT on limited amounts of domain-specific labels for adaptation

      Đối với một miền giá trị mới, một hành động hội thoại thường chứa các intents mới cùng với các cặp slot-value và một số lượng hạn chế các mẫu huấn luyện.SC-GPT sẽ được fine-tune với lượng hạn chế các nhãn trên một miền cụ thể cho việc thích nghi

    2. Finally, thesequentialized dialog act A′ is concatenated withits augmented response x′, and then fed into GPT-2.

      Cuối cùng, hành động hội thoại được tuần tự hóa A' được nối với phản hồi được mở rộng x' và được cho vào GPT-2.

    3. We firstly pre-process dialog act A into a se-quence of control codes using the following format:A′ = [ I ( s1 = v1 , · · · sP = vP ) ] (4)Meanwhile, the output sequence x′ is pre-processed via appending x with a special start to-ken [BOS] and an end token [EOS].

      Đầu tiên, hành động hội thoại A được tiền xử lý thành một chuỗi code với format như sau: A' = [I (s1 = v1, …, sp = vp)] Trong khi đó, chuỗi đầu ra x' được tiền xử lý bằng việc thêm vào x 2 token đặc biệt là [BOS] và [EOS].

    4. To enablethe guidance of dialog act in response generation,we propose to continuously pre-train the GPT-2model on large amounts of annotated (dialog act,response) pairs. The pre-training dataset3 includesannotated training pairs from Schema-Guided Dia-log corpus, MultiWOZ corpus, Frame corpus, andFacebook Multilingual Dialog Corpus. The totalsize of the pre-training corpus is around 400k ex-amples

      Để thực hiện được chỉ dẫn về hành động hội thoại trong việc sinh phản hồi, GPT-2 được pretrain liên tục trên một một lượng lớn các cặp (dialog act, response). Dữ liệu tiền huấn luyện bao gồm các cặp được chú thích.

    5. Existing methods for NLG can be broadly sum-marized into two major categories. (i) Template-1Semantically-Conditioned Generative Pre-Trainingbased methods require domain experts to handcrafttemplates for each domain, and the system fills inslot-values afterward (Cheyer and Guzzoni, 2014;Langkilde and Knight, 1998). Thus, the producedresponses are often adequate to contain the requiredsemantic information, but not always fluent and na-ture, hurting users’ experiences. (ii) Statistical lan-guage models such as neural networks (Gao et al.,2019) learn to generate fluent responses via train-ing from labelled corpus. One canonical model issemantically conditioned LSTM (SC-LSTM) (Wenet al., 2015b), which encodes dialog acts with one-hot representations and uses it as an extra feature toinform the sentence generation process.

      NLG Chia làm 2 loại: - Dạng form mẫu (template): các form mẫu được làm tay và hệ thống sẽ điền giá trị thực thể được trích xuất vào đó. Vì vậy, phản hồi có thông tin đầy đủ về ngữ cảnh, tuy nhiên lại không uyển chuyển và tự nhiên. - Mô hình ngôn ngữ thống kê: mô hình được học để tạo sinh ra các phản hồi uyển chuyển. SC-LSTM (senmatically conditioned LSTM (LSTM gán điều kiện ngữ cảnh) đươc huấn luyện để mã hóa các hành động hội thoại thành 1 vector one-hot và dùng vector này là thông tin bổ sung để thêm vào sự sinh câu lệnh

    6. ayer Transformer neural language model, trainedin three steps: (i) Pre-trained on plain text, similarto GPT-2 (Radford et al.); (ii) Continuously pre-trained on large amounts of dialog-act labeled utter-ances corpora to acquire the ability of controllablegeneration; (iii) Fine-tuned for a target domain us-ing very limited amounts of domain labels.

      SC-GPT là một mô hình transformer đa lớp, được huấn luyện với 3 bước: - Huấn luyện trên văn bản thông thường, tương tự GPT-2 - Tiếp tục huấn luyện với lượng lớn ngữ liệu câu truy vấn trong hội thoại được gán nhãn để có được khả năng tạo sinh có thể kiểm soát - fine-tune mô hình đến miền mục tiêu sử dụng một lượng rất nhỏ các nhãn miền.

    7. o simulatesuch a few-shot learning setting, we have devel-oped a new benchmark dataset, called FEWSHOT-WOZ, based on the MultiWOZ (Budzianowskiet al., 2018) and Cambridge NLG datasets (Wenet al., 2016a). F

      Để mô phỏng được cài đặt học máy few-shot, một bộ dữ liệu mẫu mới, gọi là FEWSHOT-WOZ đã được xây dựng.

    8. In a typical task-oriented dialogsystem, the Natural Language Generation (NLG)module plays a crucial role: it converts a systemaction (e.g., often specified in a semantic form se-lected by a dialog policy) into a final response innatural language. Hence, the response should beadequate to represent semantic dialog actions, andfluent to engage users’ attention

      Trong hệ thống hội thoại hướng mục đích, NLG có vai trò chuyển hóa hành động của hệ thống (dưới dạng 1 form ngữ nghĩa) thành 1 phản hồi cối cùng dưới dạng ngôn ngữ tự nhiên

    1. Regression Objective Function. The cosine-similarity between the two sentence embeddingsu and v is computed (Figure 2). We use mean-squared-error loss as the objective function

      Hàm mục tiêu hồi quy: Độ tương đồng cosine giữa 2 vector câu u và v được tính

    2. Classification Objective Function. We con-catenate the sentence embeddings u and v withthe element-wise difference |u − v| and multiply itwith the trainable weight Wt ∈ R3n×k:o = softmax(Wt(u, v, |u − v|))where n is the dimension of the sentence em-beddings and k the number of labels. We optimizecross-entropy loss.

      Hàm mục tiêu phân loại: 2 vector nhúng câu u và v và vector khoảng cách |u-v| được nối với nhau và được nhân với một ma trận trọng số Wt = R^(3n x k). Trong đó: - n: số chiều của vector nhúng câu - k : số nhãn

    3. SBERT adds a pooling operation to the outputof BERT / RoBERTa to derive a fixed sized sen-tence embedding. We experiment with three pool-ing strategies: Using the output of the CLS-token,computing the mean of all output vectors (MEAN-strategy), and computing a max-over-time of theoutput vectors (MAX-strategy). The default config-uration is MEAN.

      SBERT là BERT được thêm 1 lớp pooling trên đầu để lấy được vector có kích thước cố định . 3 loại pooling được sử dụng - Lấy đầu ra của token CLS (CLS) - Lấy TB của tất cả các token (MEAN) - Lấy max của tất cả các token (MAX)

      Pooling mặc định là MEAN

    1. The field of text generation systems shifted from traditional approaches to statistical approacheswhere the focus was on exploiting patterns in text data and building models to make a predictionbased on the text it has see

      NLG thống kê, tập trung vào việc khai thác các yếu tố có trong dữ liệu văn bản và đưa ra dự đoán dựa trên văn bản mà nó đã thấy.

    2. Notably, we iden-tify three important areas of further research towards building more effective dialogue systems:1) incorporating larger context, including conversation context and world knowledge; 2) addingpersonae or personality in the NLG system; and 3) overcoming dull and generic responses thataffect the quality of system-produced responses. We provide pointers on how to tackle these openproblems through the use of cognitive architectures that mimic human language understanding andgeneration capabilities

      xác định 3 lĩnh vực quan trọng để hướng tới việc xây dựng module NLG hiệu quả hơn cho hệ thống hội thoại hướng mục đích: - Tích hợp ngữ cảnh rộng hơn cho mô hình, bao gồm cả ngữ cảnh giao tiếp và ngữ cảnh bên ngoài. - Thêm vào module NLG tính cá nhân hóa - Loại bỏ, hạn chế các phản hồi sai và quá bao quát, không tập trung.

    1. Featurization Firstly, the policy featurizes theuser input, system actions and slots.

      Giai đoạn 1: Mô hình TED đặc trưng hóa đầu vào của người dùng, hành động của hệ thống và giá trị của các khe (slot).

    2. Similar to the REDP, we do not use aclassifier to select a system action. Instead, we jointlytrain embeddings for the dialogue state and each of thesystem actions by maximizing a similarity function be-tween them

      Tương tự như REDP, TED không sử dụng 1 hàm phân lớp để chọn hành động cho hệ thống và huấn luyện đồng thời vector nhúng của trạng thái hội thoại và của mỗi hành động bằng cách tối đa hóa hàm tương đồng giữa chúng.

    3. Vlasov etal. [2] introduced the Recurrent Embedding Dialogue Pol-icy (REDP) architecture. The ablation study in this workhighlighted that the improved performance of REDP isdue to an attention mechanism over the dialogue historyand a copy mechanism to recover from unexpected userinput. This modification to the standard RNN structureenables the dialogue policy to ‘skip’ specific turns in thedialogue history and produce an encoder state which isidentical before and after the unexpected input.

      Vlasov và cộng sự đã phát triển kiến trúc REDP. Thực nghiệm cho thấy REDP có cải thiện nhờ vào cơ chế chú ý trên lịch sử hội thoại và cơ chế sao chép để khôi phục từ đầu vào không mong muốn của người dùng. 2 cải tiến này so với kiến trúc RNN tiêu chuẩn cho phép DP có thể bỏ qua các lượt cụ thể trong lịch sử hội thoại và đưa ra được các trạng thái encoder tương tư nhau ở trước và sau đầu vào không mong muốn

    4. Topic disentanglement in task-oriented dialogueRecent work has attempted to produce neural architec-tures for dialogue policies which can handle interleaveddiscourse segments in a single conversation

      Sự mất tập trung trong topic của các cuộc hội thoại hướng mục đích: Các nghiên cứu gần đây đã cố gắng xây dựng các kiến trúc nơ rôn cho các chiến lược hội thoại nhằm có thể xử lý trường hợp các topic đan xen vào nhau trong 1 cuộc hội thoại đơn lẻ.

    5. n the example above, theuser might follow up with a further question like so thatused up my credit, right?. If the topic of refund creditshas been popped from the stack, this can no longer helpclarify what the user wants to know

      Trong trường hợp này, người dùng có thể muốn có câu trả lời rõ ràng hơn bằng cách đặt ra 1 câu trả lời theo sau câu trả lời trước "So that used up my credit, right ?". Nếu topic này bị loại khỏi stack thì nó không thể làm rõ dc thứ mà người dùng muốn là gì.

    6. The authors of RavenClaw argue forexplicitly tracking topics to enable the contextual inter-pretation of the user intents

      Các tác giả của Ravenclaw cũng lên tiếng về việc cần có các topic theo dõi một cách tường minh nhằm cho phép các suy luận ngữ cảnh của ý định người dùng

    7. While a stack naturally allows for sub-dialogues to behandled and concluded, the strict structure of a stackis also limiting

      Trong khi 1 chồng có thể cho phép các đoạn hội thoại con được xử lý và hoàn thành 1 cách tự nhiên, cấu trúc khắt khe của một chồng cũng có sự hạn chế.

    8. The assistant’s question Shall Iplace the order? prompts the return to the task at hand:completing a purchase. One model is to think of thesesub-dialogues as existing on a stack, where new topicsare pushed on to the stack when they are introduced andpopped off the stack once concluded

      Câu hỏi của chatbot :"Shall I place the order ?" nhắc nhở đến sự trở lại của tác vụ hiện tại: hoàn thành giao dịch. Mô hình sẽ nghĩ những cuộc hội thoại con này đều nằm trên 1 chống, nơi mà các topic mới được đẩy vào chồng khi nó được đề cập đến và được đẩy ra một khi kết thúc.

    9. discourse segments, where a discourse seg-ment (or topic) is a set of utterances that directly re-spond to each other.

      discourse segment (hay topic): là một tập các câu thoại trực tiếp phản hổi lần nhau

    10. The proposed TED architecture should bethought of as a candidate building block for use in de-veloping state-of-the-art architectures in various dialoguetasks.

      Kiến trúc của mô hình TED được để xuất nên được coi là 1 khối xây dựng ứng viên nhằm sử dụng cho việc phát triển các kiến trúc SOTA trong nhiều tác vụ hội thoại.

    11. Interpretingsimple instructions like please turn on the lights is rela-tively straightforward, but to handle more complex tasks,these systems must be able to engage in multi-turn con-versations.

      Để giải quyết được những nhiệm vụ phức tạp hơn yêu cầu hệ thống phải có khả năng xử lý được các cuộc hội thoại nhiều lượt.

    1. ith higherrequirements on product experience, actual di-alog scenarios become more complex, and DMneeds to be further improved. Traditional DMis usually built in a clear dialog script sys-tem (searching for matching answers, query-ing the user intent, and then ending the dia-log) with pre-defined system action space, userintent space, and dialog body. However, dueto unpredictable user behaviors, traditional di-alog systems are less responsive and have agreater difficulty dealing with undefined sit-uations. In addition, many actual scenariosrequire cold start without sufficient tagged di-alog data, resulting in high data cleansing andtagging costs. DM based on deep reinforce-ment learning requires a large amount of datafor model training. According to the experi-ments in many academic papers, hundreds ofcomplete sessions are required to train a dialogmodel, which hinders the rapid developmentand iteration of dialog systems.To solve the limitations of traditional DM,researchers in academic and industry circleshave begun to focus on how to strengthen theusability of DM. Specifically, they are workingto address the following shortcomings in DM:• Poor scalability• Insufficient tagged data• Low training efficiency

      Tổng quan về các loại DM và các hạn chế của DM.

    2. sign and removing the isolation between mod-ules. However, the end-to-end model placeshigh requirements on the quantity and qualityof data and does not provide clear modelingfor processes such as slot filling and API call-ing. This model is still being explored and is asyet rarely applied in the industry.

      Ưu, nhược điểm của hệ thống hội thoại hướng tác vụ end-to-end

    3. This modular system structure is highly in-terpretable, easy to implement, and applied inmost practical task-oriented dialog systems inthe industry. However, this structure is notflexible enough. The modules are independentof each other and difficult to optimize together.This makes it difficult to adapt to changing ap-plication scenarios. Additionally, due to theaccumulation of errors between modules, theupgrade of a single module may require theadjustment of the whole system

      Ưu, nhược điểm của hệ thống hội thoại tuần tự

    4. ask-oriented dialog systems are divided byarchitecture into two categories. One type isa pipeline system that has a modular struc-ture(Wen et al., 2016), as shown in Figure 1.It consists of four key modules:

      Hệ thống hội thoại hướng mục đích được chia thành 2 loại dựa trên cấu trúc. Loại 1 là loại tuần tự, bao gồm 4 thành phần: - Bộ hiểu ngôn ngữ (NLU) - Bộ theo dõi trạng thái hội thoại (DST) - Bộ chính sách hội thoại (DP) - Bộ sinh ngôn ngữ (NLG) Có 1 loại khác là các hệ thống hội thoại hướng tác vụ có dạng end-to-end.

    5. Common dialog systems are divided into thefollowing three types: chatting systems, task-oriented dialog systems, and QA systems. In achatting systems, the system generates inter-esting and informative natural responses to al-low human-machine dialog to proceed(Serbanet al., 2017)

      Các hệ thống hội thoại được chia làm 3 loại: - hệ thống nhắn tin - hệ thống hướng tác vụ - hệ thống hỏi-đáp

    6. The di-alog state is obtained by directly calculat-ing the maximum conditional probability in-stead of the Bayesian a posteriori probabil-ity.

      Trạng thái hội thoại cũng được xác định bằng cách tính giá trị xác xuất lớn nhất một cách trực tiếp thay vì tính xác suất hậu tố Bayes.

    7. n recent years, with breakthroughs in deeplearning in the image, voice, and text fields,third-generation dialog systems built arounddeep learning have emerged.

      Các hệ thống hội thoại hiện nay sử dụng các mô hình học sâu kết hợp dữ liệu thống kê.

    8. The first-generation dialog systems weremainly rule-based. For example, the ELIZAsystem(Weizenbaum, 1966) developed by MITin 1966 was a psychological medical chatbotthat matched methods using templates.

      Hệ thống hội thoại đời đầu chủ yếu là rule-based.

    9. At that time, re-inforcement learning was widely studied andapplied in dialog systems. A representative ex-ample is the statistical dialog system based onthe Partially Observable Markov Decision Pro-cess (POMDP) proposed by Professor SteveYoung of Cambridge University in 2005(Younget al., 2013)

      Hệ thống hội thoại thế hệ 2 sử dụng dữ liệu thống kê, nổi lên cùng với sự phát triển của dữ liệu lớn. Các hệ thống hội thoại sử dụng học tăng cường. Ví dụ điển hình là hệ thống hội thoại thống kê dựa trên chuỗi Markov quan sát một phần (POMDP)

    10. Turing test. Topass this test, the machine had to commu-nicate with a real person so that this per-son believed they were talking to another per-son

      Bài kiểm tra Turing (1950): Để vượt qua bài kiểm tra này, cỗ máy phải giao tiếp với một người thật sao cho người này tin rằng mình cũng đang nói chuyện với một người thật khác.

    11. Inthis paper, we survey recent advances andchallenges within three critical topics forDM: (1) improving model scalability to fa-cilitate dialog system modeling in new sce-narios, (2) dealing with the data scarcityproblem for dialog policy learning, and (3)enhancing the training efficiency to achievebetter task-completion performance

      Khảo sát trên về tiến bộ và thách thức trong 3 vấn đề chính: - cải thiện khả năng mở rộng quy mô của mô hình trong việc hỗ trọ mô hình hóa hệ thống hội thoại với các trường hợp mới - Đối phó với tình trạng thưa thớt dữ liệu trong việc học hội thoại. - Gia tăng hiệu quả của việc học.

    12. Given the dialog history, DM pre-dicts the dialog state and decides thenext action that the dialog agent shouldtake.

      Định nghĩa bài toán DM: Cho một lịch sử hội thoại, DM phải dự đoán dc hành động tiếp theo mà chatbot nên làm

    1. n most cases, there are two kinds of errors in the Vietnamese language:mistyped errors and misspelled errors [11]. Mistyped errors are errors that occurduring the typing process. The majority of these mistakes are caused by the

      Có 2 loại lỗi phổ biến: - Lỗi đánh máy sai:là các lỗi gõ sai chữ trong quá trình đánh máy. Chỉ dừng ở mức âm tiết. Có thể chia thành 2 loại lỗi là: lỗi từ giả và lỗi từ thật. Lỗi từ thật là khi xảy ra lỗi thì từ lỗi đó lại có trong từ điển. Lỗi từ giả thì ngược lại. - Lỗi phát âm sai là lỗi đánh sai về phát âm ( lỗi d-r, l-n, ...)