- Last 7 days
-
arxiv.org arxiv.org
-
Optimization problem description. The first part is the text description of the optimization problem,including the objective function and solution constraints. For example, for prompt optimization,the LLM can be instructed to “generate a new instruction that achieves a higher accuracy”, and wedenote such instructions in the meta-prompt as meta-instructions. We can also provide customized
2 phần quan trọng của meta-prompts: - Mô tả bài toán tối ưu: Phần đầu tiên là mô tả bằng văn bản của bài toán tối ưu, bao gồm hàm mục tiêu và ràng buộc giải pháp. Ví dụ, đối với việc tối ưu hóa prompt, LLM có thể được hướng dẫn để "tạo sinh ra 1 chỉ dẫn mới giúp đạt được điểm accuracy cao hơn". và các chỉ dẫn như vậy trong các meta-prompt được gọi là meta-instructions.
-
illustrates the overall framework of OPRO. In each optimization step, the LLM generatescandidate solutions to the optimization task based on the optimization problem description andpreviously evaluated solutions in the meta-prompt. Then the new solutions are evaluated and added tothe meta-prompt for the subsequent optimization process. The optimization process terminates whenthe LLM is unable to propose new solutions with better optimization scores, or a maximum numberof optimization steps has reached
Kiến trúc tổng thể của OPRO. Ở mỗi bước tối ưu, LLM sẽ đưa ra các giải pháp tiềm năng cho bài toán tối ưu dựa trên mô tả bài toán tối ưu hóa và các prompt đã được đánh giá từ trước trong meta-prompt. Sau đó các giải pháp mới sẽ được đánh giá và đưa vào meta-prompt cho quá trình tối ưu kế tiếp. Qúa trình tối ưu kết thúc khi LLM không thể đưa ra các giải pháp mới với điểm tối ưu cao hơn hoặc số bước tối ưu chạm ngưỡng.
-
eachoptimization step in our work generates new prompts that aim to increase the test accuracy based ona trajectory of previously generated prompts, instead of editing one input prompt according to naturallanguage feedback (Pryzant et al., 2023) or requiring the new prompt to follow the same semanticmeaning (Zhou et al., 2022b)
Khác với các nghiên cứu gần đây sử dụng LLM cho việc sinh prompt tự động, mỗi bước tối ưu hóa sẽ tạo sinh các prompt mới có mục tiêu tăng điểm accuracy dựa trên lân cận của các prompt đã được tạo sinh trước đó, thay vì chỉnh sửa một prompt đầu vào dựa trên phản hồi ngôn ngữ tự nhiên hoặc yêu cầu prompt mới phải có ý nghĩa ngữ cảnh tương tự.
-
The meta-prompt contains two core pieces of information. The first piece ispreviously generated prompts with their corresponding training accuracies. The second piece is theoptimization problem description, which includes several exemplars randomly selected from thetraining set to exemplify the task of interest
Meta-prompt (prompt dùng cho LLM để làm trình tối ưu) có 2 phần thông tin chính. - Thông tin chính đầu tiên là các prompt đã được tạo sinh từ trước cùng với điểm accuracy tương ứng. - Thông tin chính thứ 2 là mô tả bài toán tối ưu hóa chứa một vài mẫu ví dụ được lấy ngẫu nhiên từ tập huấn luyện để minh họa cho bài toán.
-
wever, the large and discrete prompt space makes itchallenging for optimization, especially when only API access to the LLM is available. Followingprior work on continuous and discrete prompt optimization (Lester et al., 2021; Li & Liang, 2021;Zhou et al., 2022b; Pryzant et al., 2023), we assume a training set is available to compute the trainingaccuracy as the objective value for optimizatio
Tiếp nối các công trình trước đó nghiên cứu bài toán tối ưu prompt liên tục và rời rạc, nhóm nghiên cứu quy ước rằng một tập huấn luyện là có sẵn để tính toán điểm accuracy trên tập train như một giá trị mục tiêu cho bài toán tối ưu hóa, và kết quả thực nghiệm cho thấy việc tối ưu hóa prompt dựa trên điểm accuracy trên 1 tập huấn luyện nhỏ là đủ để đạt được kết quả cao trên tập test.
-
the optimal prompt formats can be model-specific and task-specific (Ma et al., 2023;Chen et al., 2023c). Therefore, prompt engineering is often important for LLMs to achieve goodperformance (Reynolds & McDonell, 2021).
các bố cục prompt tối ưu có thể được cụ thể hóa dựa trên mô hình và bài toán. Vì vậy, prompt engineering thường quan trọng với LLM để đạt được hiệu quả tốt nhất.
-
Specifically, we focus on natural language tasks where both the taskinput and output are texts. LLMs are shown to be sensitive to the prompt format
Các bài toán được tập trung đánh giá liên quan đến ngôn ngữ tự nhiên mà trong đó cả đầu vào và đầu ra đều là văn bản. LLM được chứng minh là nhạy cảm với bố cục của prompt
-
Their ability to understand natural language lays out a new possibility for optimization: instead offormally defining the optimization problem and deriving the update step with a programmed solver,we describe the optimization problem in natural language, then instruct the LLM to iteratively generatenew solutions based on the problem description and the previously found solutions. Optimizationwith LLMs enables quick adaptation to different tasks by changing the problem description in theprompt, and the optimization process can be customized by adding instructions to specify the desiredproperties of the solutions.
Khả năng của LLM trong việc hiểu ngôn ngữ tự nhiên đã đặt ra một khả năng mới cho bài toán tối ưu hóa: thay vì phải xác định bài toán tối ưu hóa và thu được bước cập nhật cùng với một phần mềm, bài toán tối ưu hóa được mô tả bằng ngôn ngữ tự nhiên, sau đó hướng dẫn LLM tạo sinh các giải pháp mới một cách lặp lại dựa trên mô tả của bài toán và các giải pháp trước đó. Việc tối ưu bằng LLM cho phép việc thích nghi nhanh với các bài toán khác nhau bằng cách thay đổi mô tả bài toán trong prompt, và quá trình tối ưu có thể được tùy chỉnh bằng việc thêm các chỉ dẫn để cụ thể hóa các tính chất cần có của các giải pháp.
-
We first showcaseOPRO on linear regression and traveling salesman problems, then move on to ourmain application in prompt optimization, where the goal is to find instructionsthat maximize the task accuracy
Phương pháp OPRO được thử nghiệm với bài toán hồi quy tuyến tính (linear regression) và bái toán người giao hàng (traveling salesman), sau đó được đánh giá trên bài toán chính trong việc tối ưu hóa prompt mà trong đó, mục tiêu là tìm các prompt giúp tối đa hóa điểm accuracy.
-
In this work, we propose Optimization by PROmpting(OPRO), a simple and effective approach to leverage large language models (LLMs)as optimizers, where the optimization task is described in natural language. Ineach optimization step, the LLM generates new solutions from the prompt thatcontains previously generated solutions with their values
Bài báo đề xuất phương pháp OPRO, một phương pháp đơn giản và hiệu quả tận dụng LLM làm trình tối ưu, trong đó bài toán tối ưu được mô tả dưới dạng ngôn ngữ tự nhiên. Ở mỗi bước tối ưu, LLM sẽ tạo ra các giải pháp mới từ prompt chứa các giải pháp được tạo trước đó với các giá trị của chúng, sau đó các giải pháp mới sẽ được đánh giá và thêm vào prompt cho bước tối ưu tiếp theo.
-
- Nov 2024
-
arxiv.org arxiv.org
-
In the decoding phase, we employ a greedy spansection (Zaratiana et al., 2022) that selects en-tity spans based on matching scores, to ensuretask/dataset specific constraints. This strategy is ap-plied independently to each sentence. Only, spans(i, j) with matching scores φ(i, j, c) > 0.5 are con-sidered for selection.Flat NER: The algorithm chooses the highest-scoring non-overlapping span and continues thisprocess until all spans are evaluated.Nested NER: Similar to Flat NER, but the algo-rithm allows selection of fully nested spans withinother entities while still avoiding partial overlaps.Algorithm Efficiency: The decoding is imple-mented using a priority queue for spans, ensuringan O(n log n) complexity, with n being the numberof candidate spans.
giải thuật decode: sử dụng thuật toán tham lam theo đoạn, sẽ chọn các đoạn phù hợp dựa trên các điểm. Các đoạn có điểm > 0.5 sẽ được coi là đúng. Có 3 giải thuật decode:
- Flat NER: giải thuật này chọn đoạn không chồng chéo có điểm cao nhất và tiếp tục như vaatyj đến khi nào tất cả các đoạn đều được chọn.
- Nested NER: tương tự NestNER, nhưng cho phép chọn các đoạn được đóng gói toàn bộ trong các thực thể khác mà vẫn tránh được bị chồng chéo 1 phần.
- Hiệu quả thuật toán: Chiến lược decode được cài đặt sử dụng hàng đợi ưu tiên cho các đoạn, đảm bảo độ phức tạp là O(n log n) với n là số lượng đoạn ứng viên.
-
our objective is to optimize modelparameters to enhance the matching score for cor-rect span-type pairs (positive pairs) and reduce itfor incorrect pairs (negative pairs). A span (i, j)paired with an entity type t forms a positive pair(s ∈ P) if the span is labeled with type t in the train-ing data. Otherwise, it is a negative pair (s ∈ N ).The training loss for an individual example, com-prising spans S and entity types T , is defined as:LBCE = − ∑s∈S×TIs∈P log φ(s)+Is∈N log (1 − φ(s))(3)The variable s represents a pair of span/entitytype and I is an indicator function, which returns1 when the specified condition is true and 0 oth-erwise. This loss function corresponds to binarycross-entropy
Mục tiêu của quá trình huấn luyện là cải thiện điểm phù hợp của các cặp đoạn-nhãn đúng và giảm thiểu điểm của các cặp sai. Hàm mất mát được sử dụng ở mỗi mẫu dữ liệu, bao gồm 1 các đoạn S và các nhãn T, được định nghĩa như sau:....
biến s tượng trưng cho cặp đoạn-nhãn
-
To evaluatewhether a span (i, j) corresponds to entity type t,we calculate the following matching score:φ(i, j, t) = σ(STij qt) ∈ R (2)In this equation, σ denotes a sigmoid activationfunction. As we train with binary cross-entropyloss (see next sec. 2.2), φ(i, j, t) can be interpretedas the probability of the span (i, j) being of type t.
Để đánh giá xem đoạn từ i đến j có ứng với nhãn thực thể t hay không, điểm phù hợp sẽ được tính như sau: ......
-
The computation of all span represen-tations can be easily parallelized. Moreover, we setan upper bound to the length (K=12) of the span inorder to keep linear complexity, without harmingrecall.
Trên thực tế, việc tính toán của tất cả các đoạn đều có thể được song song hóa. Giới hạn độ dài của đoạn là 12 để đảm bảo độ phức tạp tuyến tính.
-
he entity representa-tion is computed by refining the initial represen-tation p using a two-layer feedforward network,resulting in q = {qi}M −10 ∈ RM ×D. The repre-sentation of a span starting at position i and endingat position j in the input text, Sij ∈ RD, is com-puted as:Sij = FFN(hi ⊗ hj ) (1)Here, FFN denotes a two-layer feedforward net-work, and ⊗ represents the concatenation operation.
Thể hiện của thực thể được tính bằng cách tinh chỉnh thể hiện ban đầu p thành thể hiện q thông qua một mạng gồm 2 lớp feed-forward. Thể hiện của 1 đoạn văn bản xuất phát từ vị trí i và kế thúc tại j, gọi là Sij, được tính như sau:
Sij = FFN(hi.. hj)
Với FFN là mang gồm 2 lớp feed-forward và .. là phép nối 2 vector.(Sị in R^D)
-
h = {hi}N −10 ∈ RN ×D denotes the representationof each word in the input text. For words tokenizedinto multiple subwords, we use the representationof the first subword, which is a standard choice inthe NER literature
h là thể hiện của các từ có trong văn bản đầu vào. Với các từ được chia thành nhiều subword, thể hiện của subword đầu tiên sẽ được sử dụng để thể hiện từ đó.
-
Let p = {pi}M −10 ∈ RM ×D represent the en-coder’s output for each entity type, correspondingto all the [ENT] token representation
p = {p_i}0->(M-1) in R^{M x D}thể hiện đầu ra của encoder với mỗi nhãn thực thể, tương ứng với thể hiện của các token [ENT]
-
put format The input to our model comprises aunified sequence combining entity types (expressedin natural language) and the input text from whichentities are to be extracted. The input format is asfollows:Human: What describes organization in the text ?Assistant: [‘Mcgill University’]Bidirectional LMs(BERT, DeBERTa)(0,1, person)(4,5, organization)[ENT] person [ENT] location [ENT] organization [SEP]+Alain Farley works at McGill Universitya) UniNER (prev) : Prompting LLM for Open NER.b) GLiNER (Ours): Prompting BiLM for Open NER.[ENT] [ENT] ... [ENT] [SEP] ...t0 t1 tM−1 x0 x2 xN−1[ENT] token represents a special token placedbefore each entity type and the [SEP] token func-tions as a delimiter, separating the sequence of en-tity types from the input text. They are initializedrandomly at the start of training
Dạng đầu vào bao gồm 2 chuỗi được nối lần lượt với nhau bằng token [SEP] là chuỗi thực thể và chuỗi văn bản. Chuỗi thực thể gồm tên các thực thể, vơi mỗi tên thực thể đều có token [ENT] đứng liền trước nó.
-
Our model has threemain components: i) a pre-trained textual encoder(a BiLM such as BERT), ii) a span representationmodule which computes span embeddings from to-ken embeddings, iii) an entity representation mod-
Mô hình gồm 3 thành phần chính: - Một bộ encode văn bản (BiLM như BERT) - một module thể hiện đoạn văn bản, có chức năng tính toán các embedding văn bản từ embedding của các token. - Một module thể hiện thực thể, có chức nằng tính các embedding của thực thể mà mô hình cần trích xuất ra.
Mục tiêu là có được thể hiện thực thể va thể hiện văn bản ở trong cùng 1 không gian ẩn để đạt được tính phù hợp trong việc bắt cặp.
-
turally solves the scalabilityissues of autoregressive models and allows for bidi-rectional context processing, which enables richerrepresentations
Hướng tiếp cận này giải quyết vấn đề mở rộng quy mô của các mô hình LLMS và cho phép việc xử lý ngữ cảnh song hướng, cho phép có nhiều thông tin ngữ cảnh hơn,
-
n our work, we propose a model that addressesthe above-mentioned problems. Instead of relyingon large autoregressive models, we utilize smaller-scale Bidirectional Language Models (BiLM), suchas BERT (Devlin et al., 2019) or deBERTa (Heet al., 2021). The core concept of our model in-volves treating the task of Open NER as matchingentity type embeddings to textual span represen-tations in latent spac
Trong bài báo này, mô hình ngôn ngữ song hướng (BiLM) được sử dụng. Bài toán NER điwọc coi như giống với việc ghép cặp vector embedding của 1 thực thể với thể hiện của văn bản trong không gian ẩn.
-
While these works have achievedremarkable results, they present certain limitationswe seek to address: They use autoregressive lan-guage models, which can be slow due to token-by-token generation; Moreover, they employ largemodels with several billion parameters, limitingtheir deployment in compute-limited scenarios.Furthurmore, as NER is treated as a text gener-ation problem, the generation of entities is donein several decoding steps, and there is no way toperform the prediction of multiple entity types inparalle
Trong khi hướng tiếp cận fine-tune open-source llm cho bài toan NER có đạt được một số bước tiến đáng kể, nó vãn tồn tại một số hạn chế: - Các mô hình này sử dụng cơ chế tạo sinh tự động hồi quy (autoregressive), vì vậy có thể rất chậm do việc tạo sinh tuần từ từng token. - Các mô hình này có kích thước hàng tỉ tham số, hạn chế khả năng được triển khai trong các trường hợp ít tài nguyên. - Khi bài toán NER được xử lý tượng tự 1 bài toán tạo sinh văn bản, việc tạo sinh các entity sẽ hoàn thành sau các bước decoding. và sẽ không có cách để thực hiện việc dự đoán nhiều thực thể khác nhau 1 cách song song.
-
powerfulLLMs typically consist of billions of parametersand thus require substantial computing resources.Although it is possible to access some LLMs viaAPIs (OpenAI, 2023), using them at scale can incurhigh cost
các mô hình llm mạnh yêu cầu tài nguyên tính toán lớn. Mặc dù có thể truy cập vào các LLM này thông qua API, ví dụ như openAI, việc sử dụng chúng ở một quy mô nhất định sẽ dấn đến phát sinh chi phí lớn.
-
Traditional NER models arelimited to a predefined set of entity types. Expand-ing the number of entity types can be beneficial formany applications but may involve labeling addi-tional datasets
Các mô hình NER truyền thống bị giới hạn với tập nhãn được xác định từ trước. Việc mở rộng số lượng nhãn có thể là rất có lợi, nhưng sẽ yêu cầu quá trình gán nhãn bổ sung.
-
veraging a bidirectional transformer en-coder, our model, GLiNER, facilitates parallelentity extraction, an advantage over the slowsequential token generation of LLMs. Throughcomprehensive testing, GLiNER demonstratestrong performance, outperforming both Chat-GPT and fine-tuned LLMs in zero-shot evalua-tions on various NER benchmarks
Tận dụng khả năng trích xuất thực thể song song - 1 lợi thế so với việc tạo sinh tuần tự của LLM, GLiNER đã chứng minh là có kết quả tốt hơn so với ChatGPT và các LLM được fine-tune trong việc infer zero-shot.
-
- Oct 2024
-
arxiv.org arxiv.org
-
Data construction prompt. Fig. 6 shows theprompt used for Chinese distillation data construc-tion. We follow Zhou et al. (2024) to design theprompt for Chinese data construction. We adoptthe data construction prompt of Pile-NER-type 3,since it shows the best performance as in (Zhouet al., 2024).Figure 6: Data construction prompt for Chinese opendomain NER.Data processing. Following (Zhou et al., 2024),we chunk the passages sampled from the Sky cor-pus4 to texts of a max length of 256 tokens andrandomly sample 50K passages. Due to limitedcomputation resources, we sample the first twentyfiles in Sky corpus for data construction, since thesize of the entire Sky corpus is beyond the pro-cessing capability of our machines. We conductthe same data processing procedures including out-put filtering and negative sampling as in UniNER.Specifically, the negative sampling strategy for en-tity types, is applied with a probability proportionalto the frequency of entity types in the entire con
Qúa trình xây dựng dữ liệu Sky-NER (Open NER tiếng Trung): - Xây dựng prompt: Dựa trên chiến lược của bài UniversalNER. - Xử lý dữ liệu: Thu thập dữ liệu bằng cách cắt đoạn văn trong sky-scorpus thành các đoạn văn bản có độ dài tối đa là 256 token và chọn ra ngẫu nhiên 50K đoạn văn.
-
ference with out-domain examples. Duringinference, since examples from the automaticallyconstructed data is not aligned with the domainsand schemas of the human-annotated benchmarks,we refer to them as out-domain examples. Fig. 4shows the results of inference with out-domain ex-amples using diverse retrieval strategies. We usethe model trained with NN strategy here. After ap-plying example filtering such as BM25 scoring, in-ference with out-domain examples shows improve-ments compared to the baseline, suggesting theneed of example filtering when implementing RAGwith out-domain examples
Qúa trình infer với các mẫu out-domain: Trong quá trình infer, bởi vì các mẫu từ tập dữ liệu xây dựng tự động có domain và format không giống với dữ liệu được gán nhãn bởi con người, các mẫu này sẽ được gọi là out-domain.
Trong thực nghiệm ở hình 4, mô hình RA-IT được huấn luyện với chiến lược truy xuất NN. Sau khi áp dụng bộ lọc BM25, việc infer với các mẫu out-domain cho thấy cải thiện so với baseline, từ đó cho thấy tầm quan trọng trong việc thêm bộ lọc khi áp dụng RAG với các mẫu out-domain.
-
Training with diverse retrieval strategies. Fig.3 visualize the results of training with various re-trieval strategies. We conduct inference with andwithout examples for each strategy, and set the re-trieval strategy of inference the same as of training.The most straight forward method NN shows bestperformances, suggesting the benefits of semanti-cally similar examples. Random strategy, though in-Figure 4: Impacts of inferece with out-domain examplesusing various retrieval strategies. The average F1 valueof the evaluated benchmarks are reported. w/o exmp.means inference without example. Applying examplefiltering strategy such as BM25 filtering benefits RAGwith out-domain examples.Figure 5: Impacts of inference with in-domain examples.The average F1 value of the evaluated benchmarks arereported. N -exmp. means the example pool of size N .Sufficient in-domain examples are helpful for RAG.ferior to NN, also shows improvements, indicatingthat random examples might introduce some gen-eral information of NER taks to the model. Mean-while, inference with examples does not guaranteeimprovements and often hurt performances. Thismay due to the differences of the annotation schemabetween the automatically constructed data and thehuman-annotated benchmarks
Huấn luyện với các chiến lược truy xuất khác nhau: Được thể hiện ở hình 3. Qúa trình infer được tiến hành có hoặc không có các mẫu tham khảo với mỗi chiến lược trích xuất, và chiến lược trích xuất trong cả quá trình huấn luyện và quá trình infer là giống nhau.
Kết quả cho thấy NN là chiến lược truy xuất tốt nhất, từ đó cho thấy tầm quan trọng của các mẫu tham khảo có sự tương đồng về mặt ngữ nghĩa. Trong khi đó, việc infer với các ví dụ thì không đảm bảo sự tăng tiến và thường ảnh hưởng tiêu cực đến kết quả.
-
Diverse retrieval strategies. The followingstrategies are explored in the subsequent analysis.(1) Nearest neighbor (NN), the strategy used in themain experiments, retrieves k nearest neighborsof the current sample. (2) Nearest neighbor withBM25 filter (NN, BM), where we apply BM25 scor-ing to filters out NN examples not passing a prede-fined threshold. Samples with no satisfied exam-ples are used with the vanilla instruction template.(3) Diverse nearest neighbor (DNN), retrieves Knearest neighbors with K >> k and randomly se-lects k examples from them. (4) Diverse nearestwith BM25 filter (DNN,BM), filters out DNN exam-ples not reaching the BM25 threshold. (5) Random,uniformly selects k random examples. (6) Mixednearest neighbors (MixedNN), mixes the using ofthe NN and random retrieval strategies with theratio of NN set to a.
Các chiến lược truy xuất chính: - Nearest neighbor (NN): Chiến lược được sử dụng trong các thực nghiệm chính, có khả năng trích xuất ra k mẫu gần với mẫu cần truy xuất nhất. - NN với bộ lọc BM25 (NN, BM): bộ lọc BM25 được sử dụng để lọc các mẫu NN có độ tương đồng ko vượt qua 1 ngưỡng nhất định - NN đa dạng: truy xuất K mẫu NN với K >> k, sau đó chọn ngẫu nhiên k mẫu trong K mẫu NN trên. - Random - NN hỗn hợp:Sử dụng kết hợp NN và các chiến lược chọn ngẫu nhiên với tỉ lệ chọn của NN là alpha
-
We explore the impacts of diverse retrieval strate-gies. We conduct analysis on 5K data size for costsaving as the effect of RA-IT is consistent acrossvarious data sizes as shown in Section 3.4. Wereport the average results of the evaluated bench-marks here
Phân tích: Phân tích này được thực hiện để khám phá mức độ ảnh hưởng của các chiến lược truy xuất khác nhau. Phân tích được tiến hành với mẫu dữ liệu có kích thước 5K.
-
The main results are summarized in Table 1 and2 respectively. We report the results of inferencewithout examples for RA-IT here, since we foundthis setting exhibits more consistent improvements.The impacts of inference with examples are studiedin Section 3.5. As shown in the tables, RA-ITshows consistent improvements on English andChinese across various data sizes. This presumablybecause the retrieved context enhance the model
Kết quả chính: Được thể hiện ở bảng 1 và bảng 2. Chú ý rằng, thực nghiệm trong 2 bảng này đã thực hiện quá trình infer mà không có few-shot, lý do bởi việc infer này đem lại sự tăng tiến bền vững trong kết quả.
Kết quả cho thấy RA-IT đạt kết quả tốt nhất. Lý do cho sự tăng tiến này được cho là nhờ ngữ cảnh được truy xuất đã làm tăng cường khả năng hiểu đầu vào của mô hình, từ đó thể hiện sự cần thiết của các mẫu instruction có tăng cường ngữ cảnh.
-
We conduct a preliminary study on IT data effi-ciency in targeted distillation for open NER byexploring the impact of varous datas sizes: [0.5K,1K, 5K, 10K, 20K, 30K, 40K, 50K]. We use vanillaIT for preliminary study. Results are visualized inFig. 2. The following observations are consistentin English and Chinese: (1) a small data size al-ready surpass ChatGPT’s performances. (2) Perfor-mances are improving as the data sizes increased to10K or 20K, but begin to decline and then remainat a certain level as data sizes further increased to50K. Recent work for IT data selection, Xia et al.Figure 2: Preliminary study of IT data efficiency foropen NER in English (left) and Chinese (right) scenar-ios, where the training data are Pile-NER and Sky-NERrespectively. Average zero-shot results of evaluatedbenchmarks are illustrated. The performance does notnecessarily improve as the data increases.(2024); Ge et al. (2024); Du et al. (2023) also findthe superior performances of only limited data size.We leave selecting more beneficial IT data for IEas future work. Accordingly, we conduct mainexperiments on 5K, 10K and 50K data sizes
Nghiên cứu chuẩn bị cho đánh giá hiệu quả của dữ liệu: Nghiên cứu chuẩn bị được tiến hành cho việc đánh giá hiệu quả của bộ dữ liệu IT trong việc chiết xuất có mục tiêu của bài toán open NER bằng cách khám phá mức độ ảnh hưởng của dữ liệu ở nhiều kích thước khác nhau: [0.5K, 1K, 5K,...]. Mẫu IT đơn thuần được sử dụng để thực hiện nghiên cứu này.
Các kết luận rút ra: - Một lượng nhỏ dữ liệu đã có thể vượt qua được khả năng của chatGPT. - Kết quả có sự tăng tiến thuận theo độ tăng của kích thước mô hình (từ 10K lên 20K), nhưng bắt đầu giảm và ổn định ở một mức cụ thể khi dữ liệu tiếp tục tăng đến mức 50k. Các nghiên cứu gần đây về việc chọn dữ liệu IT cũng cho ra kết quả việc trội của bộ dữ liệu nhỏ có kích thước hạn chế.
-
Training data: For English, we use thetraining data Pile-NER released by Zhou et al.(2024). For Chinese, we use the training data Sky-NER constructed in this paper as described in Sec-tion 3.2. We use LoRA (Hu et al., 2021) to trainmodels. Retrieval: We adopt GTE-large2 (Liet al., 2023) to generate text embeddings and setk = 2 in main experiments. Evaluation: Wemainly focus on the zero-shot evaluation. ForEnglish, we adopt benchmarks CrossNER, MIT-Movie and MIT-restaurant following Zhou et al.(2024). For Chinese, we collect eight benchmarksacross diverse domains, of which details are in Ap-pendix D. We report micro-F1 value
Thực nghiệm: - Mô hình LLM: LLaMA-3-3B và Qwen-1.5.7B. - Bộ dữ liệu: Đối với tiếng Anh, bộ dữ liệu Pile-NER được sử dụng. Đối với tiếng Trung, bộ dữ liệu Sky-NER do chính nhóm tác giả xây dựng được sử dụng. LoRA được sử dụng trong quá trình huấn luyện LLM - Mô hình truy xuất: Sử dụng GTE-large để tạo ra các embedding câu và số lượng mẫu tương đồng được truy xuất là 2. - Phương pháp đánh giá: Tập trung vào đánh giá Zero-shot.
-
Retriever. We use sentence embedding-based re-trieval and adopt cosine similarity as our similaritymetric. We retrieve the k nearest neighbors as con-text. We also investigate various retrieval strategiesfor both training and inference stages
Truy xuất: các phương pháp truy xuất dựa trên embedding của câu được sử dụng cùng với điểm tương đồng cosine làm thước đo đánh giá. K câu tương đồng gần nhất sẽ được sử dụng làm ngữ cảnh.
-
RA-IT. We explore an alternative way to conductIT in targeted distillation: we introduce RA-IT, acontext-enhanced tuning approach, of which theoverview is in Fig. 1. In our RA-IT approach,each data is augmented with a retrieved context,which consists of k semantically similar exam-ples retrieved from the training dataset. The re-trieved context is prepended to the original conver-sation, forming the retrieval augmented instruction.By fine tuning LMs in this recipe, we equip theLMs with the ability to generate NER answer withon-demand RAG. This means we could flexiblyadapting LMs to different scenarios by determin-ing whether to use RAG during inference based onthe specific characteristics of the scenario.
RA-IT: Một cách khác để thực hiện instruction-tuning trong việc chiết xuất có mục tiêu, được thể hiện khái quát ở hình 1. Trong cách tiếp cận này, mỗi mẫu sẽ được tăng cường với một đoạn ngữ cảnh được truy xuất. Đoạn ngữ cảnh này bao gồm k mẫu dữ liệu tương đồng về mặt ngữ cảnh được trích xuất từ bộ dữ liệu huấn luyện. Đoạn ngữ cảnh này được thêm vào đoạn hội thoại gốc. từ đó tạo ra mẫu instruction được tăng cường truy xuất. Bằng cách tinh chỉnh các mô hình ngôn ngữ (LMs) theo hướng này, LMs sẽ được trang bị khả năng tạo sinh câu trả lời NER cùng với RAG. Điều này có nghĩa là LMs có thể được cài đặt dễ dàng để thích ứng với nhiều kịch bản khác nhau bằng cách xác định xem có cần sử udngj RAG trong quá trình infer ko dựa trên các đặc tính cụ thể của kịch bản
-
Vanilla IT. The original instruction tuning tem-plate used in targeted distillation is shown in thebottom part of Fig. 1, which we refer to as VanillaIT, where each passage and its associated entityoutput are converted into a multi-turn conversation.
IT đơn thuần: Mẫu instruction tuning ban đầu được sử dụng trong quá trình chiết xuất có mục tiêu được thể hiện ở bên dưới của hình 1, còn được gọi là mẫu IT đơn thuần. Trong mẫu này, mỗi câu đầu vào thô và các thực thể liên quan sẽ được hoán đổi thành một đoạn hội thoại có nhiều lượt.
-
reliminary: Targeted Distillation. We followUniNER (Zhou et al., 2024) to conduct our studyin the setting of targeted distillation, where theysuccessfully distill the strong capability of Chat-GPT in open NER into smaller models, without anyhuman-annotated data. The pipeline is as follows:(1) Data construction. They sample inputs froma large corpus across diverse domains, then useChatGPT to automatically generate NER outputs.(2) Distillation. After obtaining the automaticallyconstructed data, they apply IT to distill the openNER capability of ChatGPT into smaller models
Bước chuẩn bị: Chiết xuất có mục tiêu: Được làm dựa trên nghiên cứu UniNER, vốn đã thành công trong việc chiết xuất khả năng mạnh mẽ của chatGPT và truyền nó vào các mô hình nhỏ hơn mà không cần dữ liệu do con người gán nhãn. Qúa trình này bao gồm các bước: - Xây dựng dữ liệu: Các mẫu đầu vào thô được chọn từ nhiều domain đa dạng khác nhau và sử dụng chatGPT để gán nhãn. - Chiết xuất: Sau khi có được dữ liệu gán nhãn tự động, Instruction tuning được áp dụng để chiết xuất khả năng của chatGPT và truyền vào các mô hình nhỏ hơn.
-
1) Weempirically study the RA-IT framework for openNER. We prepare the retrieval augmented instruc-tion data with semantically similar examples. Weconduct thorough experimental analysis to studythe impact of various retrieval strategies. (2) We
Đóng góp chính của nhóm tác giả: - Tiến hành nghiên cứu RA-IT cho bài toán open NER. Các dữ liệu tăng cường truy xuất được chuẩn bị với các mẫu tương đồng về mặt ngữ nghĩa. Các thực nghiệm được tiến hành để đánh giá mức độ ảnh hưởng của các chiến lược truy xuất. - Xây dựng bộ dữ liệu IT cho bài toán open NER bằng tiếng Trung và tiến hành thực nghiệm đánh giá với cả tiếng Anh và tiềng Trung.
-
(1) RA-ITachieves consistent improvements on various datasizes, suggesting the need for context-enhancedfine-tuning. (2) Retrieving semantically similar ex-amples benefits the most for training among variousretrieval strategies. Random retrieval also exhibitsimprovement but shows inferior performance tosimilar examples. (3) Retrieving out-domain ex-amples for inference requires applying examplefiltering strategies to achieve improvements. Pro-viding in-domain examples benefits inference.
Các kết luận thu được: - RA-IT đạt được độ cải thiện bền vững với dữ liệu ở nhiều phạm vi khác nhau, từ đó thể hiện sự cần thiết của việc fine-tuning với ngữ cảnh được mở rộng. - Việc truy xuất các mẫu tương đồng về mặt ngữ cảnh làm cải thiện đáng kể chất lượng huấn luyện, tùy thuộc vào chiến lược chọn mẫu trích xuất. - Việc truy xuất các mẫu out-domain trong quá trình infer yêu cầu các chiến lược lọc mẫu để đạt được hiệu quả mong muốn. Ngược lại, việc cung cấp các mẫu in-domain sẽ làm gia tăng hiệu quả của quá trình infer.
-
our RA-IT approach, for each training sample,we retrieve semantically similar examples from thetraining dataset and prepend them to the original in-struction, forming the context-enhanced instruction.We also explore the impacts of diverse retrievalstrategies. Moreover, we construct a Chinese ITdataset for open NER and evaluate our methodin both English and Chinese scenarios. We con-duct thorough experiments across various data sizesand obtain the following key finding
Bằng hướng tiếp cận RA-IT, đối với mỗi mẫu huấn luyện, các mẫu tương đồng về mặt ngữ nghĩa sẽ được trích xuất từ bộ dữ liệu huấn luyện và được thêm vào mẫu dữ liệu huấn luyện gốc, tạo thành mẫu huấn luyện được tăng cường ngữ cảnh. Ngoài ra , một bộ dữ liệu huấn luyện bằng tiếng Trung cho bài toán openNER cũng được xây dựng và được dùng để đánh giá hiệu quả của mô hình trên cả tiếng Anh và tiếng Trung.
-
The previous work UniNER (Zhou et al., 2024)distills the strong capability of ChatGPT in openNER into smaller models through IT without anyhuman-annotated data. We follow this line andinvestigate RA-IT under this targeted distillationsetting. Other works of IT for IE like Sainz et al.(2024); Li et al. (2024) using code-style instructiondata, are orthogonal to this work since RA-IT canbe integrated into various instruction styles.
UniNER đã chắt lọc khả năng mạnh mẽ của ChatGPT trong bài toán open NER và truyền các mô hình bé hơn thông qua instruction tuning mà không cần dữ liệu do con người xây dựng. Nghiên cứu này được tiến hành theo hướng tương tự và RA-IT được điều tra theo hướng chắt lọc có mục tiêu (targeted distillation)
-
Inthis paper, we explore Retrieval AugmentedInstruction Tuning (RA-IT) for IE, focusingon the task of open named entity recognition(NER). Specifically, for each training sample,we retrieve semantically similar examples fromthe training dataset as the context and prependthem to the input of the original instruction.
Ý tưởng chính: Sử dụng phương pháp instruction tuning có tăng cường truy hồi (RA-IT) cho bài toán IE, tập trung vào bài toán Open NER. Cụ thể, với mỗi mẫu huấn luyện, các mẫu khác có tính tương đồng về mặt ngữ nghĩa sẽ được truy xuất ra từ bộ dữ liệu và thêm các mẫu này vào đầu vào của mẫu huấn luyện ban đầu.
-
- Aug 2024
-
arxiv.org arxiv.org
-
n summary, our contributions are three-fold: (i)We propose a framework CLUSTERLLM that uti-lizes sentence relations predicted from API-basedLLMs to guide clustering. Furthermore, it allowsusers to provide textual instructions and/or few-shot annotations to specify preferences on cluster-ing. (ii) In order to reduce API-queries, we proposea novel entropy-based sampling strategy to find themost informative triplets. Additionally, we utilizepairwise data sampled from hierarchical cluster-ing to determine cluster granularity. (iii) Extensiveexperiments show that our proposed method canimprove clustering performance at ∼$0.2 for per-spective and ∼$0.4 for granularity with GPT-3.5.
Tổng quan đóng góp: - Đề xuất phương pháp phân cụm CLUSTERLLM, tận dụng các mối quan hệ giữa các câu văn bản được dự đoán bởi LLM thông qua API để chỉ dẫn việc phân cụm. Hơn nữa, phương pháp này còn cho phép người dùng bổ sung thêm các chỉ dẫn ngữ cảnh hoặc 1 vài ví dụ tham khảo (đã gán nhãn) để thể hiện xu hướng mong muốn trong việc phân cụm. - Để tối ưu việc sử dụng LLM thông qua API, tác giả đề xuất chiến lược lấy mẫu dựa trên entropy để tìm ra các mẫu chứa nhiều thông tin nhất. Ngoài ra, tác giả còn tận dụng các cặp mẫu được lấy từ hệ thống phân cụm để xác định mức độ chi tiết của phân cụm.
-
n Stage 2, we first obtain the cluster hierarchythat starts from instance-level clusters and itera-tively merge two closest clusters until the entiredataset. And then we prompt LLMs to determinecluster granularity with a few annotated data pairsas demonstrations. We construct the data pairsto prompt by sampling from two clusters that aremerged at each step of hierarchical clustering, sothat they cover a wide range of granularities. Andthe final decision is made by measuring consistencybetween each level of clustering and predictions.
Ở bước 2, tác giả tạo ra một hệ thống phân cụm bắt đầu ở mức đơn mẫu (instance-level) và sẽ hợp nhất 2 mẫu gấn nhau nhất một cách lặp lại đến khi tại tạo lại thành dataset ban đầu. Sau đó, tác giả chỉ dẫn LLMs để nó xác định mức chi tiết của cụm với một vài cặp dữ liệu được gán nhãn làm ví dụ tham khảo. Tác giả xây dựng các cặp dữ liệu này bằng cách lấy mẫu từ 2 cụm được hợp nhất ở mỗi bước xây dựng hệ thống phân cụm. Nhờ vậy, hệ thống có thể bao quát nhiều mức độ chi tiết khác nhau. Và quyết định cuối cùng được thực hiện bằng cách tính toán sự bền vững giữa mỗi mức phân cụm và dự đoán.
-
In Stage 1, we prompt LLMs with a triplettask that predicts which one of the two candidatechoices is closer to anchor instance to understandthe user-preferred perspectives. We choose thistriplet task because (a) it is irrelevant with clustergranularity and (b) the produced triplets can fine-tune small embedder towards the right perspective.In order to improve sample efficiency, we furtherpropose entropy-based triplet sampling to find themost informative triplets. Specifically, we first cal-culate entropy for each instance based on clusterassignment probabilities, and then identify thosewith highest entropy. Two candidate choices arethen sampled from its nearest clusters to guaranteethey are close enough to the ancho
Ở bước 1, tác giả chỉ dẫn LLMs bằng một bài toán có 3 giá trị. LLMs có nhiệm vụ dự đoán xem trong 2 giá trị được chọn, giá trị nào giống với giá trị mỏ neo (anchor instance) hơn.
Lý do mà bài toán này được chọn: - Nó không liên quan đến tính chi tiết của cụm văn bản - Các bộ 3 giá trị trên có thể giúp tinh chỉnh mô hình embedder giúp mô hình này phân cụm chính xác hơn.
Để tăng hiệu quả của việc lấy các mẫu (mỗi mẫu gồm 3 giá trị), tác giả đề xuất lấy mẫu dựa trên entropy để tìm ra các mẫu chứa nhiều thông tin nhất. Cụ thể, tác giả tính entropy cho mỗi mẫu mỏ neo dựa trên xác suất gán cụm của mỗi mẫu đó, sau đó chọn ra các mẫu có điểm entropy cao nhất. Hai mẫu còn lại trong bộ 3 sau đó được chọn từ các cụm gần với mẫu mỏ neo nhất để đảm bảo 2 mẫu này đủ gần với mẫu mỏ neo.
-
We propose CLUSTERLLM, a framework thatutilizes LLM to guide a small embedder for findingtext clusters with a low cost, as shown in Figure 1.It comprises two stages that are specially designedfor two aspects of clustering: (1) perspective, i.e.,the grouping criterion such as topic, intent and emo-tion and (2) granularity, i.e. the scope of clusters
Tác giả đề xuất phương pháp CLUSTERLLM, 1 framework sử dụng LLM để chỉ dẫn một vector embedder nhỏ có thể tìm được cụm văn bản phù hợp với chi phí thấp. Phương pháp gồm 2 bước, được thiết kế cho 2 khía cạnh của việc phân cụm; - Các tiêu chí dùng để gom nhóm: cùng chủ đề (topic), cùng intent hoặc biểu cảm sắc thái. - Sự chi tiết: quy mô của các cụm văn bản
-
n this paper, we provide insights on the ques-tion: Can we leverage API-based LLMs to guidetext clustering efficiently? We attack this challeng-ing question by drawing inspiration from an obser-vation that humans represent an instance throughcomparing with others
Trong nghiên cứu này, tác giả đã đặt ra và phân tích câu hỏi sau :"Liệu có thể tận dụng LLM để chỉ dẫn việc phân cụm văn bản một cách hiệu quả". Tác giả đã giải quyết vấn đề này dựa trên quan sát: "con người thể hiện một sự vật thông qua việc so sánh nó với những sự vật khác."
-
State-of-the-artlarge language models (LLMs) such as recent GPTseries (Brown et al., 2020; Ouyang et al., 2022;OpenAI, 2023) have demonstrated extraordinarylanguage capabilities for various NLP applicationshowever, these GPT models can only be utilizedthrough the APIs without accessible embeddingvectors for clustering. Hence, LLMs cannot bedirectly applied on text clustering tasks
Các mô hình LLM hiện nay đều có hiệu quả cực kì tốt trên hầu hết các bài toán NLP. Tuy nhiên, các mô hình này chỉ có thể được sử dụng thông qua API mà không thể truy cập vào các vector embedding mà nó tại ra và dùng các vector này để phân cụm văn bản.
-
ext clustering, as a fundamental task in natural lan-guage processing (NLP), has a wide spectrum ofapplications, such as identifying public perceptionfrom social media (Park et al., 2022), analysingcause of accidents (Xu et al., 2022), and detectingemerging research topics (Martínez et al., 2022). Acommon practice for text clustering is to apply clus-tering algorithms (MacQueen, 1967; Zhang et al.,∗ Corresponding author.1The cost is calculated with gpt-3.5-turbo.Texts CABTraditional Text ClusteringChatGPT(API-based)🔒ClusterLLMCABTexts CABChatGPT(API-based)🔒A should be closerto C than B🧐Not Applicable ⛔Embedder(Instructor,E5,GTR ...)Embedder(Instructor,E5,GTR ...)Figure 1: LLMs like ChatGPT are not applicable for textclustering directly because of the inaccessible embed-dings. CLUSTERLLM resolves the dilemma by leverag-ing LLM as a guide on text clustering.2021a) on top of pre-trained embedders (Muen-nighoff et al., 2022; Wang et al., 2022; Su et al.,2022) which could achieve higher performancewith better pre-training quality
Các phương pháp phân cụm văn bản nổi tiếng hiện nay đều sử dụng các thuật toán phân cụm trên các mô hình pretrained.
-
-
-
Due to the diversity of possibilities in human lan-guage, it is rare for the same idea to be expressedidentically in multiple documents unless one ex-pression is derived from the other, or both are quot-ing from a shared source. This observation moti-vates deduplicating exact substrings. We call ourapproach EXACTSUBSTR. When two examplesxi and xj share a sufficiently long substring (thatis, a substring for which xa..a+ki = xb..b+kj ), thatsubstring is removed from one of them. Basedon statistical analyses (§B), we select k = 50 to-kens as the minimum matching substring length.3
Exact Substring Duplication: Khi 2 mẫu x_i và x_j chia sẻ chung 1 chuỗi con dài, chuỗi con này sẽ được loại bỏ ở 1 trong 2 mẫu trên.
-
We introduce two complementary methodsfor performing deduplication. First, using a suf-fix array (Manber and Myers, 1993), we removeduplicate substrings from the dataset if they oc-cur verbatim in more than one example. Second,we use MinHash (Broder, 1997), an efficient algo-rithm for estimating the n-gram similarity betweenall pairs of examples in a corpus, to remove entireexamples from the dataset if they have high n-gramoverlap with any other example
Nghiên cứu sử dụng 2 phương pháp bổ trợ cho nhau trong việc lọc trùng. Đầu tiên, một mảng hậu tố (suffix array) được sử dụng để loại bỏ các chuỗi con khỏi bộ dữ liệu nếu chúng xuất hiện trong nhiều hơn một mẫu dữ liệu. Thứ 2, Thuật toán MinHash được sử dụng để tính toán độ tương đồng n-gram giữa tất cả các cặp mẫu dữ liệu trong một bộ dữu liệu, để loại bỏ các mẫu dữ liệu có độ tương đồng n-gram lớn với bất kì mẫu dữ liệu nào khác có trong bộ dữ liệu.
-
n our research, we do not focus on the impact ofduplicate text in pretrained models on downstreambenchmark tasks; instead we address how duplicatetext in the LM training and validation sets impactsmodel perplexity and the extent to which generatedtext included memorized content
Nghiên cứu này đánh giá việc các văn bản trùng lặp trong tập dữ liệu huấn luyện và đánh giá của các mô hình ngôn ngữ tác động như thế nào vào điểm phức tạp (perplexity) của mô hình và mức độ mà các văn bản được tạo sinh chứa các nội dung đã được huấn luyện.
-
GPT-3(Brown et al., 2020, §5) did the reverse and re-moved downstream evaluation examples from theirtraining data by conservatively filtering out anytrain set examples with a 13-gram overlap withany evaluation example. Up to 90% of tasks wereflagged as potentially contaminate
GPT-3 làm ngược lại và loại bỏ các mẫu đánh giá khỏi bộ dữ liệu huấn luyện bằng cách lọc bất kì mẫu dữ liệu huấn luyện nào có độ trồng lấn 13-gram với bất kì mẫu dữ liệu đánh giá nào.
-
Trinh and Le (2018, Appendix B) removeddocuments from their CommonCrawl-based trainset that overlapped substantially with the common-sense reasoning used for evaluatio
Trinh và Le đã loại bỏ các tài liệu khỏi tập huấn luyện dựa trên CommonCrawl của họ các mấu dữ liệu có sự tương đồng đáng kể với các cách suy luận thường thức cho bộ dữ liệu đánh giá.
-
ontamination of downstream tasks. Whenmodels are trained on datasets constructed by crawl-ing the Internet, it is possible the model will trainon the test set of downstream target tasks
Khi mô hình được huấn luyện trên các bộ dữ liệu được xây dựng bằng cách lấy dữ liệu thô từ internet, có khả năng cao mô hình này cũng được huấn luyện trên bộ dữ liệu test của các bài toàn chuyên biệt.
-
We propose two scalable techniques to detectand remove duplicated training data. Exact sub-string matching identifies verbatim strings that arerepeated. This allows us to identify cases whereonly part of a training example is duplicated (§4.1).Approximate full document matching uses hash-based techniques (Broder, 1997) to identify pairsof documents with high n-gram overlap (§4.2).
2 kỹ thuật lọc trùng (có thể mở rộng) - Exact substring matching: xác định các chuỗi gốc được sử dụng lặp lại. Cho phép xác định các trường hợp khi mà chỉ có 1 phần của dữ liệu huấn luyện bị lặp lại. - Approximate full document matching sử dụng các kĩ thuật dạng băm (hash-based), dùng để xác định các cặp document với mức chồng lần n-gram lớn
-
- Jul 2024
-
arxiv.org arxiv.org
-
We run all instruction tuning experiments fromthe Hungarian pretrained model using 6 gigabytesof instruction tuning text data (2 billion tokens)and the same training settings. Each experimentis repeated 3 times with different random datasetsamples. For more details on instruction tuningdatasets or training settings see appendix C.2, C.4and D.2
Các thử nghiệm tinh chỉnh có hướng dẫn (instruction tuning) được thực hiện từ mô hình pretrain với tiếng Hungary sử dụng 6 GB dữ liệu văn bản tinh chỉnh có hướng dẫn (2 tỉ token). Mỗi thực nghiệm được thực hiện 3 lần với các mẫu dữ liệu khác nhau được chọn ngẫu nhiên. Thực nghiệm được dùng để đánh giá tác động của số lượng các dữ liệu IT khác nhau thuộc ngôn ngữ mới đối với hiệu quả của mô hình.
-
Given the same total amount of training data, we tested varying the percentage of English data (50%,25% and 0%) in the English/Hungarian bilingual data mixture. All training is run for 30k steps. Wealso compare this to training a pure Hungarian model using only Hungarian data [31], a Hungariantokenizer, from scratch for 100k steps. All the training details can be found in appendix D.1.
Số lượng mẫu dữ liệu trong bộ dữ liệu huấn luyện là như nhau, tuy nhiên tỉ lệ số mẫu tiếng Anh sẽ khác nhau (0, 25% và 50%).. Số bước huấn luyện là 30k. Các cấu hình được sử dụng để tiến hành thực nghiệm: 0%, 25%, 50% Các mô hình Hungary được huấn luyện từ đầu với bộ dữ liệu tiếng Hungary, sử dụng tokenizer cho tiếng Hungary
-
We categorize all evaluation tasks into 4 categories. Multiple Choice, for this category we appendeach candidate answer to the prompt and pick the highest probability answer. Open-ended QuestionAnswering, where we let the model generate an answer for each question, and report the averageF1 score between the model output and the ground truth. Summarization, where we let the modelgenerate a summary and report the average ROUGE-2 score between the model output and groundtruth. Translation, where we let the model generate translated text and report the BLEU scorebetween the model output and the ground truth. When we report the score for each category, it is theaveraged score of all the evaluation tasks that we classified into that category in appendix E.
Đánh giá được thực hiện trên 4 bài toán: - Multiple choice: các câu trả lời ứng viên sẽ được nối vào chỉ dẫn và câu trả lời có xác suất cao nhất sẽ được chọn. - Trả lời câu hỏi mở: mô hình được tạo sinh câu trả lời cho mỗi câu hỏi và các câu trả lời này sẽ được tính điểm F1 so với câu trả lời ground-truth. - Tóm tắt văn bản: Mô hình được phép tạo sinh ra một bản tóm tắt và được tính điểm trung bình ROUGE-2 so với bản tóm tắt ground-truth. - Dịch máy: mô hình được phép tạo ra bản dịch và được tính điểm BLEU so với bản dịch ground-truth
-
Training is done in a two stage pipeline. The first stage is adaptive pretraining (PT) where a basepretrained English 13B GPT-2 model (B) is continuously trained on a mixture composed of the newlanguage and English. Then, the adapted checkpoint is instruction tuned (IT) on a collection ofprompt completion pairs from the new language and English. For more information see appendixB,C
Qúa trình huấn luyện gồm 2 giai đoạn. Giai đoạn 1 là pretrain thích nghi mà trong đó, một mô hình base cho tiếng Anh được tiếp tục huấn luyện bộ dữ liệu trộn lẫn giữa ngôn ngữ mới và tiếng Anh. Sau đó, mô hình được tinh chỉnh có hướng dẫn (instruction tune) trên một bộ các cặp chỉ đẫn từ ngôn ngữ mới và tiếng Anh.
-
Once the datasets are prepared for both languages, we shuffle them at sample level, so that everybatch contains text from both languages during training. Note that in our experiments, we do notmake any further transformations to either the model or the datasets, after the data is preparedon each side, so that our study is orthogonal and complementary to existing proposed methods[24, 27, 28, 9, 12] focusing on training paradigm studies.
Một khi bộ dữ liệu đã được chuẩn bị cho cả 2 ngôn ngữ it tài nguyên (tiếng Hungary và tiếng Thái), các mẫu dữ liệu sẽ được trộn lấn với nhau sao cho mọi batch huấn luyện đều chứa các mấu dữ liệu của cả 2 ngôn ngữ này.
-
To adapt an existing tokenizer to a new language, tokens from the low resource language can beadded to the existing tokenizer’s vocabulary to improve its fertility. Fertility is defined as the averagenumber of tokens per word [22], and details about how we calculated it can be found in appendixA.1. In our work, instead of extending the tokenizer’s vocabulary, we replace the least frequenttokens from it with tokens from the new language. This way, we keep the model capability the sameby controlling the vocabulary and embedding table size. In particular, we train a BPE tokenizeron the new language with vocabulary size k and check the number of overlapping tokens o withthe original tokenizer. Then we replace the least important k − o non-overlapping tokens from theoriginal tokenizer with the new ones. We also reinitialize the corresponding embeddings in themodel. For more details see appendix A.2
Để LLMs có thể thích nghi với các ngôn ngữ mới, các tokens từ các ngôn ngữ này có thể được thêm vào. Tuy nhiên, thay vì mở rộng bộ từ điển của mô hình, nghiên cứu sẽ thay thể một số lượng nhất định các token ít phổ biến nhất trong tập từ điển hiện tại bằng các token mới. Cách này giúp cho kích thước tập từ vựng được giữ nguyên. Cụ thể, 1 BPE encoder với một tập từ điển gồm k từ của một ngôn ngữ nhất định sẽ được huấn luyện trên 1 bộ dữ liệu của ngôn ngữ đó. Sau đó, bộ từ điển của 2 BPE encoder sẽ được so sánh với nhau với o là tập các từ có trong cả 2 bộ từ điển của 2 BPE encoder. Sau đó, các từ xuát hiện ít nhất trong BPE encoder gốc mà không có trong tập o sẽ được thay thế bởi các từ mới có trong tập k. Các embedding tương ứng với các token bị thay thế cũng được tái khởi tạo.
-
fertility
Fertility: số lượng token trung bình mà tokenizer dùng để mã hóa 1 từ
-
We adapt an English-centric model to Hungarian and Thai, and our evaluations show that adding newtokens and mixing training data from both languages can retain the model’s English capabilities inaddition to improving the models ability to learn the new language. Some contemporary worksexplore similar, but far less efficient methods of training LLMs on low resource languages. [30]builds an English-Arabic bilingual LLM, but they train it from scratch; while [29] builds one forEnglish-Portuguese, but it does not optimize the tokenizer or mix the training data
Phương pháp đề xuất: thêm token mới vào bộ từ điển của mô hình chuyên dụng cho tiếng Anh và thêm một số lượng nhất định dữ liệu hỗn hợp vào dữ liệu đơn ngữ (tiếng anh) để pretrain và fine-tune
-
How to efficiently encode the new language? Byte Pair Encoding (BPE) [15] tokenizers are com-monly used in LLMs including GPT[16, 17], Llama [18, 19] and BLOOM [1, 2]. These tokenizersare able to encode text at the byte level so that they can generalize to characters that are outsideof their vocabulary; this means that any BPE tokenizer can be used for all languages. However,the BPE tokenizer has poor tokenization efficiency if it was not trained on a given language. Forexample, the original English-centric GPT2 tokenizer with a vocabulary size of 50k needs to use3.8 times more tokens to encode Thai compared to a smaller tokenizer with a vocabulary size of 5kthat is trained on Thai. This will inevitably cost us 3.8 times more compute in both training andinference. Furthermore, it has been shown that models with sub-optimal tokenizers can also haveworse evaluation results [20, 21]. In our work, we show how to improve tokenizer fertility[22] byreplacing the least frequent tokens in the base model with tokens from the new language.How to avoid catastrophic forgetting? Many works have shown that when continuing to train aLLM on data from a new domain, it undergoes catastrophic forgetting of the original domain it wastrained on [23], and similar issues appear when training on a new language [23, 9, 24, 2, 25, 10, 26].Different training paradigms including instruction-align[24], MAD-X [27], (IA)3 [28] are proposed
2 câu hỏi lớn được đặt ra: - Làm sao để mã hóa hiệu quả ngôn ngữ mới: Hầu hết LLM sử dụng BPE encoder với cơ chế mã hóa dựa trên byte. Vì vậy, theo lý thuyết, bất kì loại BPE encoder nào cũng có thể mã hóa mọi ngôn ngữ. Tuy nhiên, BPE encoder sẽ mã hóa rất tệ trên các loại ngôn ngữ ít tài nguyên nếu không được huấn luyện với ngôn ngữ đó. - Làm sao để tránh được việc quên kiến thức: Nhiều nghiên cứu trước đấy chỉ ra rằng khi tiếp tục huấn luyện LLM với dữ liệu từ miền lĩnh vực mới, nó sẽ trải qua quá trình quên các dữ liệu mà nó được huấn luyện ban đầu. Vấn đề tương tụ xảy ra với việc huấn luyện với một ngôn ngữ mới. Các chiến thuật huấn luyện mơi bao gồm đính kèm chỉ dẫn , MAD-X, (IA)3 được đề xuất để giảm thiểu vấn đề này, trong khi đó phương pháp trộn lẫn bộ ngữ liệu huấn luyện từ các ngôn ngữ khác là một hướng tiếp cận được sử dụng bởi tất cả các nghiên cứu trên.
-
Multilingual large language models have become prevalent recently [1, 2, 3, 4, 5, 6], and haveshown strong cross lingual knowledge and capability transfer [7, 8, 9, 10, 11, 12, 13]. However,these multilingual models tend to perform poorly on low-resource languages. On top of this, trainingmodels for low-resource languages from scratch is also challenging due to a lack of training data andprohibitive computational requirements. These challenges, along with the prevalence open sourcedEnglish models creates an interesting opportunity to see how they can be adapted to new languagesquickly, without wasting resources by pretraining from scratch. While prior work [9, 10, 11, 14, 13]has studied this concept, there are two important questions that warrant further investigation
Vấn đề đặt ra: - Các mô hình đa ngôn ngữ thể hiện kém trên các ngôn ngữ ít tài nguyên. - Việc huấn luyện lại LLM từ đầu với một ngôn ngữ khác là cực kì thách thức do sự thiếu thốn của các bộ dữ liệu có sẵn và yêu cầu cao về tài nguyên tính toán.
-
- Jun 2024
-
marllib.readthedocs.io marllib.readthedocs.io
-
When agents have different targets in a task, especially when the targets are adversarial, the task can become much more complicated. An example of such a task is a zero-sum game, where the total reward is fixed, and any reward gained by one agent results in an equal loss for another agent. A specific example can be found in MPE that in scenarios like simple_push, agent ONE is trying to gain more reward by getting closer to its target location while agent TWO gains reward by pushing agent ONE away from the target location. Moreover, the competitive-like mode can also be not so pure competitive. It can incorporate some cooperative agents’ relationships. This type of work mode is referred to as mixed mode. A representative task of mixed mode is MAgent, where agents are divided into several groups. Agents in the same group need to attack the enemy group cooperatively.
Loại bài toán đối kháng là khi các tác tử có mục tiêu trái ngược nhau.
-
Another mode is collaborative, where agents can access individual rewards. Under this mode, the agents tend to work together, but the target varies between different agents. Sometimes individual rewards may cause some potential interest conflict. Collaborative task mode has less restriction and richer reward information for wilder algorithms development: il is a good solution for collaborative tasks, as each agent has been allocated an individual reward for doing a standard RL. Centralized Critic is a more robust algorithm family for collaborative tasks as the improved critic help agent coordinate using global information. Value Decomposition-based methods are still applicable for collaborative tasks as we can integrate all the individual rewards received into one (only the agents act simultaneously). Cooperative mode can also be transformed to collaborative as we can copy the global reward to each agent and treat them as an individual reward
Một dạng khác là bài toán hợp tác mà trong đó, các tác tử có thể truy cập được vào phần thưởng riêng biệt của chúng.Trong bài toán này, các tác tử có xu hướng làm việc cùng nhau nhưng mục tiêu của mỗi tác tử lại có sự khác nhau.
-
The Cooperative-like task mode is prevalent in scenarios where agents are rewarded only when the team achieves a shared goal. This mode is considered a strict form of cooperation, where each agent cannot access its individual reward. In Cooperative tasks, agents must have a robust credit assignment mechanism to decompose the global reward and update their policies accordingly.
Trong loại bài toán hỗ trợ, mỗi tác tử không thể truy cập vào phần thưởng đơn lẻ của chúng. Vì vậy, các tác tử cần có một cơ chế phân chia phần thưởng bền vứng để có thể cập nhật chiến lược hiệu quả cho mỗi tác tử.
-
The current state of research on multi-agent reinforcement learning (MARL) is facing challenges regarding the diversity of multi-agent tasks and the categorization of MARL algorithms. These characteristics make it difficult to conduct a fair comparison of different algorithms and raise a question for researchers: should algorithms be developed for a specific task (task first) or for general tasks (algorithm first). This difficulty stems from the nature of multi-agent tasks, as well as the various learning styles and knowledge-sharing strategies.
Hiện nay, các bái toán của MARL phải đối mặt với vấn đề liên quan đến tính đa dạng của các bài toán đa tác tử và việc phân loại các thuật toán MARL. Các tính chất này khiến cho các nhà khoa học phải lựa chọn giữa việc phát triển thuật toán cho một bài toán cụ thể (task first) hoặc tổng quát cho tất cả các bài toán (algorithm first)
-
Despite the simple task setting, however, the game is still very challenging as one agent needs to coordinate with another agent to achieve the highest reward: the joint action with the highest reward is not a good option from the view of the first agent if it is not willing to cooperate with another agent. Two-step Game evaluates whether an agent has learned to cooperate by sacrificing its reward for a higher team reward.
Mặc dù có cài đặt đơn giản, bài toán này vẫn rất khó do các tác tử cần hợp tác với nhau để đạt được kết quả tốt nhất. Từ góc nhìn của các tác tử, đây không phải lựa chọn tốt nếu chúng không muốn hợp tác với các tác tử khác.
-
The first option for evaluating a new idea in MARL involves using a matrix and grid world task.One such example is the Two-step Game. In this task, two agents act in turn to gain the highest team reward. The task is very straightforward: two agents in the task the observation is a short vector with a length four two actions (A&B) to choose from
Lựa chọn đầu tiên trong việc đánh giá một ý tưởng mới trong MARL là sử dụng mộ ma trận và bài toán ma trận lưới. Trong bài toán này, 2 tác tử hành động theo lượt để lấy được phần thưởng cao nhất. Bài toán này khá đơn giản: - 2 tác tử trong 1 bài toán - các quan sát là một vector có kích thước 4. - 2 hành động A và B
-
In the context of Multi-Agent Reinforcement Learning (MARL), a dataset corresponds to a collection of scenarios that comprise a single multi-agent task. Multi-agent tasks are customizable on a variety of aspects, such as the number of agents, map size, reward function, and unit status. This section provides a brief overview of the categories of multi-agent tasks, ranging from the simplest matrix game to real-world applications.
Trong bối cảnh của bài toán MARL, một bộ dữ liệu tương ứng với một tập các kịch bản chứa một bài toán đa tác tử đơn lẻ. Các bài toán đa tác tử có thể được tùy biến ở hàng loạt yếu tố, ví dụ như số lượng tác tử, kích thước bản đồ, hàm phần thưởng,...
-
- May 2024
-
marllib.readthedocs.io marllib.readthedocs.io
-
On the other hand, value decomposition-based algorithms can only be applied to cooperative and collaborative scenarios. These algorithms use a value decomposition technique to decompose the value function into individual value functions, one for each agent. The agents then learn their own policies based on their individual value functions. Since value decomposition-based algorithms do not use a centralized critic, they cannot be applied to competitive scenarios where the agents’ objectives conflict.
Các thuật toán dựa trên phân giải giá trị chỉ được áp dụng cho các bài toán đa tác tử hợp tác. Các thuật toán này sử dụng một kỹ thuật để phân giải hàm giá trị thành các hàm giá trị cho từng tác tử. Các tác tử sau đó sẽ học chiến lược của riêng chúng dựa trên hàm giá trị đơn lẻ của chúng
-
Centralized critic-based algorithms are applicable to all types of multi-agent tasks, including cooperative, collaborative, competitive, and mixed. These algorithms use a centralized critic to approximate the state-action value function, which enables agents to learn a policy that considers the actions of other agents and the global state
các thuật toán dựa trên hàm critic tập trung hóa có thể được áp dụng cho mọi bài toán đa tác tử. Các thuật toán này sử dụng một hàm critic được tập trung hóa để ước lượng giá trị của hàm state-action, cho phép các tác tử học được chiến lược có tính đến hành động của các tác tử khác và trạng thái toàn cục.
-
CTDE strikes a balance between coordination learning and deployment cost, making it a popular framework in MARL. Since multi-agent tasks involve numerous agents, learning a policy that aligns with the group target requires incorporating extra information from other sources. Thus, centralized training is the preferred choice. However, after training, the delivery of centralized information is too costly during deployment, leading to delays in decision-making. Furthermore, centralized execution is insecure, as centralized information can be intercepted and manipulated during transmission.
framework CTDE có được sự cân bằng giữa việc huấn luyện hợp tác và chi phí triển khai. Với các bài toán đa tác tử, việc học một chiến lược gắn liền với một mục tiêu chung sẽ yêu cầu việc thống nhất thông tin từ các nguồn khác. Vì vậy, việc huấn luyện tập trung sẽ được ưu tiên sử dụng. Tuy nhiên, việc luân chuyển các thông tin có tính tập trung hóa yêu cầu chi phí cao trong quá trình triển khai, làm chậm đáng kể tốc độ đưa ra quyết định. Ngoài ra, việc luân chuyển loại thông tin này trong toàn bộ hệ thống là không đảm bảo do có thệ bị gián đoạn.
-
The CTDE framework, which stands for Centralized Training & Decentralized Execution, is a widely used approach in multi-agent reinforcement learning (MARL). In this setting, agents are trained together in a centralized manner where they can access all available information, including the global state, other agents’ status, and rewards. However, during the execution stage, agents are forced to make decisions based on their local observations, without access to centralized information or communication.
Trong framework CTDE, các tác tử được huấn luyện cùng nhau theo nguyên tắc tập trung hóa mà trong đó, chúng có quyền truy cập vào mọi thông tin hiện có, bao gồm trạng thái toàn cục, trạng thái của các tác tử khác và các phần thưởng. Tuy nhiên, trong quá trình suy luận, các tác tử sẽ phải đưa ra quyết định dựa trên quan sát cục bộ của riêng chúng mà không được phép truy cập vào các thông tin tập trung hóa.
-
In a Partially Observable Markov Decision Process (POMDP), the system states are unobservable and probabilistically mapped to observations. The agent’s access to the system state is limited, and taking the same action can result in different observations. The observation is, however, still dependent on the system state. Hence, the agent must learn or hold a belief about its observation and learn a policy that accounts for all possible states.
Trong POMDP, các trạng thái của hệ thống là không thể quan sát được và ở một xác suất nào đó được ghép nối với các quan sát. Mức độ truy cập của tác tử vào trạng thái của hệ thống là hữu hạn và việc thực hiện cùng một hành động có thể dẫn đến nhiều quan sát khác nhau. Tuy vậy, các quan sát vẫn phụ thuộc vào trạng thái của hệ thống.
-
-
arxiv.org arxiv.org
-
In Wang et al. (2023a), the authors proposed to train the demonstrationretriever model with combined objectives: (1) knowledge distillation from the trained reward modelwhich can capture the preferences of LLMs over the retrieved candidates (2) InfoNCE-based con-trastive loss to incorporate the in-batch negatives. More specifically, the resulting loss function is asfollows:Lcombined = αLcont + Ldistill
Nghiên cứu của Wang đề xuất huấn luyện mô hình truy xuất với việc kết hợp các hàm mất mát: tinh chiết kiến thức từ các mô hình phần thưởng đã được huấn luyện để có thể nắm bắt được xu hướng của LLM và hàm InfoNCE
-
nfoNCE Loss Another widely adopted training procedure is contrastive learning using the In-foNCE loss (Rubin et al., 2022; Cheng et al., 2023; Luo et al., 2023). When positive and negative11
Sử dụng contrastive learning. Khi các mẫu thuận và nghịch có thể được xác định chính xác, hàm InfoNCE là một hàm mất mát tốt bởi nó có thể tận dụng các nhãn giám sát để tạo ra thể hiện mà trong đó, các mẫu ngữ cảnh hữu ích sẽ được đặt riêng cho quá trình truy xuất.
-
The Determinantal Point Process model (Alex Kulesz, 2012) defines a proba-bility distribution over all the combinations of candidate demonstrations, giving high probability tosubsets that contain relevant and diverse items (Levy et al., 2022). It models diversity by incorporatingcross-candidate similarity scores, and models similarity via a per-candidate relevance score,
Mô hình DPP của Alex xác định phân bố xác xuất trên tất cả các cách kết hợp của các ngữ cảnh ứng viên, từ đó gán xác xuất cao cho các tập ngữ cảnh chứa các ngữ cảnh liên quan và đa dạng. Nó mô hình hóa sự đa dạng bằng cách hợp nhất các điểm tương đồng, và mô hình hóa sự tương đồng thong qua điểm liên quan của mỗi ngữ cảnh.
-
Wang et al. (2023a) and Li et al. (2023b) instead proposed to iterate the retrievermodel multiple times. More specifically, the retriever trained in iteration i will be employed toretrieve a new set of candidates for the subsequent iteration i + 1. Such an iterative training approachallows progressively improving retriever quality by mining better positive and hard negative examplesat each iteration
Nghiên cứu của Wang đã đề xuất việc lặp lại mô hình truy xuất nhiều lần. Cụ thể, mô hình truy xuất được huấn luyện ở vòng lặp thứ i sẽ được sử dụng để truy xuất một tập các ngữ cảnh cho vòng lặp tiếp theo là i +1.Việc huấn luyện như vậy sẽ giúp cải thiện dần chất lượng của mô hình truy xuất bằng cách xác định các mẫu thuận và nghịch tốt hơn.
-
Distillation by KL Divergence Ye et al. (2023a) claims that although the InfoNCE loss has beenfound effective in training demonstration retrievers and can learn which examples might be superiorto others, it has the same treatment for all negative examples and the predicted scores from LLMare not fully utilized.
Nghiên cứu của Ye tuyên bố rằng mặc dù hàm ìnoNCE được cho là rất hiệu quả trong việc huấn luyện các mô hình truy xuất và có thể học để biết được mẫu ngữ cảnh nào là tốt hơn, nó lại khiến cho mô hình xem các mẫu nghịch là như nhau và từ đó, việc chấm điểm từ LLM là không được tối ưu
-
s an alternative to train a demonstration retriever using positive and negativeexamples, Shi et al. (2022) proposed to train the retriever by directly distilling the LLM’s scoringfunction. More specifically, the retriever model is designed to produce ranking scores that matchthe usefulness of a demonstration to help with the LLM inference; this is done by minimizing theKL-divergence between the top K examples score distribution from scoring LLM and the rankingscore distribution produced by the retriever
Nghiên cứu của Shi đã đề xuất việc huấn luyện mô hình truy xuất bằng cách tinh chiết trực tiếp từ hàm cho điểm của LLM. Cụ thể hơn, mô hình truy xuất được thiết kể để đưa ra các điểm xếp hạng tương ứng với sự hữu dụng của các ngữ cảnh trong việc giúp LLM suy luận. Điều này được thực hiện bằng cách tối thiểu hóa độ phân kì KL giữa phân bố điểm chấm bởi LLM của k ngữ cảnh tốt nhất và phân bố điểm chấm bởi mô hình truy xuất.
-
In the list-wise ranking objective, retriever can benefit from the full ranking of the candidate set to makeaccurate predictions for the most relevant demonstrations. However, obtaining the full rankinglist and calculating the loss function on top of it might be very expensive and time-consuming.Additionally, the model is trained to discern the relative preferences between examples withoutexplicitly determining whether an example can serve as an absolute good demonstration
Việc sử dụng hàm huấn luyện xếp hạng list-wise giúp cho mô hình truy xuất hưởng lợi từ việc xếp hạng đầy đủ để có thể đưa ra được dự đoán chính xác cho các ngữ cảnh liên quan nhất. Tuy nhiên việc lấy tất cả các xếp hạng và tính toán hàm mất mát trên đó là rất đắt đỏ và tốn thời gian
-
he list-wise ranking approach looks at a list of candidate documents fora given query and tries to capture the correct ordering for it. Li et al. (2023b) proposed to inject theranking signals into the retriever using an approach inspired by LambdaRank (Burges, 2010
Hướng giải quyết dựa trên ranking-loss sẽ tìm kiếm một tập các ngữ cảnh ứng viên cho một đầu vào là cố gắng có được thứ tự đúng cho chúng. Nghiên cứu của Li đề xuất việc tích hợp các tín hiệu xếp hạng vào mô hình truy xuất
-
approach to collecting training data for demonstration retriever is to directlymeasure the similarity between the labels of the candidate demonstrations and the label of the query,and use this similarity as a proxy of the importance of a demonstration (Hu et al., 2022; Poesia et al.,2021).
Một cách tiếp cận khác là trực tiếp tính toán sự tương đồng giữa các nhãn của ngữ cảnh và các nhãn của đầu vào bài toán, và sử dụng độ tương đồng này làm độ quan trọng của ngữ cảnh
-
nce a score is obtained, a retriever can be trained that predicts these scores directly (Ye et al.,2023a). Alternatively, the candidate demonstrations can be ranked for each query based on theirscores
Một khi đã được tính điểm xong, mô hình truy xuất có thể được huấn luyện để đoán ra các điểm đó trực tiếp
-
ased on LLMs Signals A popular approach to collecting training examples is to use the su-pervisory signals from LLMs. In this case, a typical paradigm is to first employ some filteringmechanisms (Cheng et al., 2023) or unsupervised retrievers (e.g. BM25 and SBERT) (Luo et al.,2023) as the initial retriever, this step can help limit the pool size for mining the right training data.Then a scoring LLM, which serves as a proxy for the inference LLM, is used to score each candidatedemonstration d. Here the score is defined as s(e) = p(a|d, q) which is the conditional probability ofoutput answer a given the input query q and demonstration d. Another approach is to train a smallerreward model that can provide more fine-grained supervision for dense retrievers. For example, Wanget al. (2023a) proposed to finetune a cross-encoder model serving as a teacher model for training theretriever
Tạo dữ liệu dựa trên tín hiệu của LLM: Hướng tiếp cận này nhắm đến việc sử dụng các tín hiệu có giám sát từ LLMs. Một quy trình phổ biến được sử dụng là trước tiên, một số thuật toán sàng lọc và các mô hình truy xuất không giám sát sẽ được chọn làm mô hình truy xuất ban đầu, giới hạn kích thước của bộ ngữ cảnh. Sau đó, một LLM dùng để chấm điểm sẽ được sử dụng để chấm điểm cho mỗi ngữ cảnh.
-
Researchers thus have started to explore learning-based methods to further push theboundaries. A typical objective when designing a good demonstration retriever is: if an LLM finds ademonstration useful when being used as an illustrative example, the retriever should be encouragedto rank the demonstration higher
Các nhà khoa học bắt đầu khám phá các phương pháp dựa trên việc học tập để đẩy mạnh hơn nữa khả năng truy hồi. Một mục tiêu cụ thể khi thiết kế mô hình truy hồi tốt là: nếu LLM tìm ra một ngữ cảnh là hữu ích khi sử dụng nó làm ví dụ, mô hình truy xuất sẽ nên được khuyến khí để xếp hạng cao hơn cho ngữ cảnh đó.
-
Pretrained Dual Encoder In the context of demonstration retrieval where the goal is to identifyrelevant examples for a given query, the query is typically a question, while the examples maycontain additional information such as answers, chains of thoughts, supporting knowledge, or evenfollow different patterns. Therefore, transforming them into a uniform embedding space to calculaterelevance might not be the most effective approach. In this case, LLM retrieval architectures suchas Dual Encoder that are pretrained on retrieval or question-answering tasks can better grasp theintricate relationships between complex logical concepts and reasoning processes by employingdifferent semantic embeddings for queries and candidates (Li and Qiu, 2023b). In practice, traininga dual-encoder can be highly expensive as it typically requires a large training corpus. Fortunately,there are publicly available pretrained retrievers, although not specifically optimized for few-shotretrieval tasks, already demonstrating success in helping LLMs to learn from the selected examples.Luo et al. (2023) studied applying GTR (Ni et al., 2021) to select semantically similar examples asdemonstrations, and empirically proved that this approach brought in better performance gain thanrandom fewshots for both PaLM (Chowdhery et al., 2023) and FLAN (Chung et al., 2022) models.GTR is a T5-based dual encoder model that is pretrained on the CommunityQA (Abujabal et al.,2019) and finetuned on the MS Marco dataset (Nguyen et al., 2016). Moreover, Khattab et al. (2022)reported results for employing ColBERTv2 (Santhanam et al., 2021) as the retrieval module in theirDEMONSTRATE–SEARCH–PREDICT (DSP) framework for ICL. ColBERTv2 is a state-of-artretrieval model that adopts the late interaction architecture (Khattab and Zaharia, 2020) and is trainedon the MS Marco dataset. In the proposed framework, it is used to retrieve both (i) related knowledgeduring the search stage and (2) top k similar examples as demonstrations.
Trong bài toán truy xuất ngữ cảnh với mục tiêu là tìm được các mẫu ngữ cảnh liên quan nhất với đầu vào của bài toán. Trong ngữ cảnh, ngoài câu đầu vào thì còn chứa các bước suy luận, câu trả lời, kiến thức liên quan... nên việc mã hóa chúng vào cùng một không gian vector nhúng là không được tối ưu. Đối với trường hợp này, các kiến trúc truy hồi LLM như Dual Encoder được pretrain trên bài toán truy xuất hoặc các bài toán q-a sẽ nắm bắt được các mối quan hệ phức tạp giữa các khái niệm logic phức tạp bằng cách triển khai các không gian vector nhúng khác nhau cho đầu vào và các ngữ cảnh
-
Shi et al. (2022)extends the use case to cross-lingual few-shot retrieval in the Text to-SQL semantic parsing task, andthey use mSBERT (Reimers and Gurevych, 2019b), mUSE (Yang et al., 2019) and mT5 (Xue et al.,2020) as the baseline models for comparison. Other widely used baseline models for demonstrationretrieval include E5base (Wang et al., 2022b), SimCSE (Gao et al., 2021b). Instead of relying on“word matches” as in BM25, these sentence embedding similarity approaches can better capturesemantic similarity (
Nghiên cứu của Shi mở rộng việc sử dụng các mô hình truy hồi ngữ cảnh sang việc truy hồi ngữ cảnh trong bài toán phân tích ngữ nghĩa cross-lingual Text-to-SQL
-
Sentence Embedding Similarity In this approach, queries and documents are encoded to thesame dense embedding space using an off-the-shelf sentence embedding model, and then similarityscores (e.g. cosine similarity) are calculated to rank the most relevant documents for each query.A rich collection of sentence embedding methodologies exists in the literature.
Tìm dựa trên tương đồng của vector nhúng câu: Trong cách tiếp cận này, câu đầu vào và ngữ cảnh được mã hóa vào cùng 1 không gian vector nhúng bằng các mô hình nhúng có sẵn.
-
Term-based Similarity BM25 (Robertson et al., 2009) is one of the most popular term-basedscoring methods due to its simplicity and effectiveness in producing relevant results. It takes intoaccount both term frequencies and document lengths. It has been empirically demonstrated in variousworks (Luo et al., 2023; Rubin et al., 2022; Agrawal et al., 2022; Ye et al., 2023a; Dalvi et al., 2022)that using BM25 to select similar examples as few-shots in ICL can help improve the performance ofmany LLM inference tasks. While BM25 has become a standard baseline model in the field, it is notwithout its limitations. Due to its sole reliance on term frequency and document length, this approachmay overlook crucial aspects such as semantic meaning and sentence structure, potentially leading toinaccuracies in certain instances. Another drawback is that BM25 lacks the capability for fine-tuningin downstream tasks, making it less competitive compared to neural models which can be fine-tunedand customized for specific downstream tasks.
Tìm kiếm dựa trên tương đồng về từ ngữ: BM25 là một trong những phương pháp tìm kiếm dựa trên từ ngữ phổ biến nhất do tính đơn giản và hiệu quả trong việc cho ra các kết quả mong muốn. Nó dựa trên cả độ phổ biến của từ/cụm từ và độ dài của các tài liệu.
-
Free Form Corpus Another approach to deal with the lack of human-annotated data for similartasks is create pseudo-demonstrations from unstructured text. Toward this goal, Lyu et al. (2022)utilized the Demix dataset (Gururangan et al., 2022), which is not tailored for any specific task. Togenerate pusedo-demonstrations, a retriever selects the top-k most relevant sentences from the dataset.Subsequently, arbitrary labels are attached to each sentence to form the examples. Li et al. (2022)propose a synthetic question answering generation method to create QA pairs using the syntheticgenerated passages by an LLM
Một cách tiếp cận khác nhằm xử lý việc thiếu các dữ liệu được chú thích thủ công là tạo ra các ngữ cảnh giả từ văn bản không có cấu trúc. Nghiên cứu của Lyu đã tổng hợp bộ dữ liệu Demix. Để tạo các mẫu ngữ cảnh giả, một mô hình truy xuất sẽ chọn k câu liên quan nhất từ bộ dữ liệu. Sau đó, các nhãn tùy ý sẽ được gán vào mỗi câu để tạo ra mẫu ngữ cảnh hoàn chỉnh.
-
Unlabelled Queries with Automatically Generated Answers The previous three corpora allpresuppose the availability of human-annotated data. However, this assumption may not hold inreal-life scenarios, particularly in streaming settings where users can pose questions without anypre-annotated answers. Several studies (Zhang et al., 2022b; Li and Qiu, 2023b) have suggestedusing LLMs to generate answers for unlabeled data. They apply filtering techniques to determinethe quality of these generated answers, adding only those examples with high-quality answers to theretrieval corpus. The most widely used filtering technique is based on self-consistency (Wang et al.,2022c). This approach involves prompting the language model to generate multiple chains of thoughtand answers, then selecting the most common answer as the final response.
Các truy vấn không được gán nhãn với các câu trả lời được tạo sinh tự động: Một vài nghiên cứu đã đề xuất việc sử dụng LLMs để tạo sinh câu trả lời cho các mẫu dữ liệu không được gán nhãn. Các phương pháp sàng lọc đã được áp dụng để xác định chất lượng của các câu trả lời được tạo sinh
-
Cross-Domain In this setting, IID human-annotated demonstrations are not available for the testqueries, so one uses annotated demonstrations from other similar tasks (Cheng et al., 2023; Shi et al.,2022). Note that this is different from the mix-domain setting where part of the corpus is IID and partof it is not. For instance, Shi et al. (2022) describes a scenario where the goal is to parse a Chinesequery into SQL. However, the demonstrations are sourced from an English Text-to-SQL corpus, adomain with significantly more resources than the target domain. Shi et al. (2022) employs thishigh-resource data as the retrieval corpus. To adapt to the target domain during inference with a LLM,the target query is translated into the same language as the demonstrations. Nie et al. (2022) presentsa similar approach, retrieving demonstrations from high-resource domains to address low-resourcequeries. However, their retrieval pool consists of multiple high-resource sources
Cross-domain: Trong cài đặt này, các ngữ cảnh được chú thích thủ công sẽ không có sẵn cho các đầu vào của bộ dữ liệu kiểm thử,vì vậy các ngữ cảnh thuộc các bài toán gần tương tự sẽ được sử dụng. Một ví dụ điển hình như trong nghiên cứu của Shi và cộng sự đã mô tả một kịch bản mà trong đó, mục tiêu là phân tích một truy vấn bằng tiếng Trung sang dạng SQL. Tuy nhiên, các ngữ cảnh được lấy nguồn từ một tập dữ liệu Text-to-SQL tiếng Anh. Nghiên cứu đã sử dụng bộ dữ liệu này làm bộ dữ liệu ngữ cảnh, Để giúp LLM thích nghi được với bài toán mục tiêu trong quá trình suy luận, truy vấn mục tiêu sẽ được dịch sang ngôn ngữ giống với ngôn ngữ của các ngữ cảnh.
-
n the mix-domain setting (Wang et al., 2023a; Li et al.,2023b), the retrieval corpus is constructed from the combination of all tasks. At the inference time,given a question, the retriever will retrieve demonstrations from this mixed corpus; the demonstrationscan come from the same domain as the test question or from other tasks.
Mix-domain: trong cài đặt mix-domain, bộ dữ liệu truy hồi được xây dựng từ việc kết hợp tất cả các bài toán với nhau. Trong quá trình infer, với một câu hỏi, mô hình truy xuất sẽ truy xuất các ngữ cảnh từ bộ dữ liệu mix-domain, các ngữ cảnh có thể đến từ cùng một domain với đầu vào của bài toán hoặc từ một domain khác.
-
n this setting, an in-domain training set, independently and identically distribution(IID) with the test queries, is available and serves as the retrieval corpus. Most existing work takethe full training set as the corpus. However, to be more annotation efficient, Hongjin et al. (2022)uses only a subset M of the training set N which includes the most representative and diverse ones,where |M | << |N |. One question that remains unanswered from the work of Hongjin et al. (2022)is how the predictive performance is affected as a function of retrieving from a subset M insteadof the entire training set N . While there is no follow-up work to answer this question, the closestcomparison we find is the results in Ye et al. (2023a) where a similar setup as Hongjin et al. (2022) isused except that they use the entire training set as the retrieval corpus, and report lower performanceon the SST-5 dataset (compare the Figure 3 in Hongjin et al. (2022) and Table 3 in (Ye et al., 2023a)).While there might be other differences between the two setups that may affect the final performance,this comparison implies that retrieving from a carefully selected subset might have comparable resultsto retrieving from the entire training set.
In-domain: Trong cài đặt này, một bộ dữ liệu huấn luyện in-domain, có phân bố độc lập với bộ dữ liệu test, là có sẵn và đóng vai trò là bộ dữ liệu truy hồi. Hầu hết các nghiên cứu hiện nay đều sử dụng toàn bộ dữ liệu. Tuy nhiên Hongjin đã chỉ sử dụng một tập nhỏ dữ liệu M trong đó sao cho tập nhỏ này bao hàm các mẫu đa dạng và có thể đại diện cho toàn bộ bộ dữ liệu.
-
This setting assumesthat training data related to a task is available, and thus can be used as the retrieval corpus
Lưu ý: Bộ dữ liệu huấn luyện liên quan đến một bài toán đã được quy ước là có sẵn, vì vậy có thể được sử dụng làm bộ dữ liệu truy hồi.
-
terative Retrieval The earlier retrieval strategies acquire each demonstration independently.However, in iterative retrieval, a retriever selects demonstrations based on both the query andpreviously retrieved demonstrations. This process starts with a single query, for which the retrieverfinds one best demonstration. The query is then augmented (e.g. combined with the demonstration) toretrieve the next demonstration. This step is iteratively executed k times to gather k demonstrations.The general idea is to select the demonstrations that can complement each other. An an example of awork from this categorym, Scarlatos and Lan (2023) train an LSTM retriever using a reinforcementlearning framework. During the inference phase, the retriever processes the input query to select thebest initial demonstration. It then generates a new query representation by integrating the query withprior demonstrations, specifically utilizing the hidden state representation from the LSTM model.This process of updating the query representation and obtaining subsequent demonstrations continuesiteratively until k demonstrations are retrieved
Truy xuất lặp lại: khác với các phương pháp trên truy xuất ngữ cảnh một cách độc lập với nhau, phương pháp này chọn ngữ cảnh dựa trên đầu vào của bài toán và các ngữ cảnh được lấy trước đó. Nguyên tắc chính của phương pháp này là chọn các ngữ cảnh có thể hoàn thiện ý nghĩa cho nhau.
-
Clustering Retrieval To mitigate the issue of homogeneity in one-hot retrieval, clustering retrievalapproaches (Li et al., 2022; Zhang et al., 2022b; Li and Qiu, 2023b) categorize all demonstrationsinto k sub-groups aiming to group similar demonstrations together. Then given a query, the retrieverpicks the most similar demonstration from each sub-group resulting in a final set of k demonstrations.The core principle of clustering is to select a diverse range of demonstrations. Most of the work useSBERT Reimers and Gurevych (2019a) to encode the demonstrations (only the question or the entiredemonstrations) and then apply k-means for clustering.
Truy xuất phân cụm: Để hạn chế sự đơn điệu trong phương pháp truy xuất one-hoc, các phương pháp truy xuất phân cụm sẽ chia tất cả các ngữ cảnh thành k cụm. Với mỗi đầu vào của bài toán, ngữ cảnh có sự tương đồng cao nhất sẽ được chọn. Từ đó, k ngữ cảnh được chọn. Nguyên tắc chính của phương pháp truy xuất này là chọn một tập các ngữ cảnh đa dạng.
-
One-hoc Retrieval This is the most basic retrieval strategy. To obtain k demonstrations, given aquery, the retriever ranks the demonstrations based on some scoring criteria and then selects the top-kdemonstrations. Thus, each demonstration is chosen independently of the others. This method isstraightforward and fast, however, it might not yield the best combination of k demonstrations asthese demonstrations might be homogeneous.
Truy xuát one-hoc: đây là phương pháp truy xuất cơ bản nhất.Mô hình truy xuất các ngữ cảnh dựa trên một số tiêu chí và chọn ra k ngữ cảnh tốt nhất. Vì vậy, các ngữ cảnh được chọn độc lập với nhau.
-
Levy et al. (2022) found thatdiversity and coverage are important when the model is unfamiliar with the output symbols space. Itis noteworthy that researchers have found that ICL benefits more from demonstrations with highercomplexity in some scenarios (Fu et al., 2022), where they define the complexity in terms of the querylength or reasoning steps
Nghiên cứu của Levy cho thấy độ đa dạng và tính bao phủ là rất quan trọng, khi mà mô hình không quen với các nhãn trong tập nhãn đầu ra. Đáng lưu ý là các nhà khoa học đã phát hiện ra rằng phương pháp ICL được hưởng lợi từ việc các ngữ cảnh có độ phức tạp cao trong một vài kịch bản nhất định
-
Beyond similarity, some work has found that the diversity of demonstrationsis important. The motivations for diversity include avoiding repetitive demonstrations (Zhanget al., 2022b), bringing different perspectives (Yu et al., 2023), and maximizing the demonstrations’coverage of the test query, in terms of covering either its words or syntactic structures (Levy et al.,2022).
Bên cạnh việc tìm kiếm dựa trên sự tương đồng, một số nghiên cứu còn cho thấy sự đa dạng cảu các ngữ cảnh cũng rất quan trọng. Động lực cho các nghiên cứu này bao gồm việc tránh phải việc chọn phải các ngữ cảnh giống nhau, mang đến nhiều góc nhìn mới và tốt đa hóa độ bao phủ của các ngữ cảnh đối với đầu vào của bài toán trên phương diện về từ ngữ và các cấu trúc cú pháp.
-
Similarity involves selecting demonstrations most akin to the query and can be basedon language similarity (term matching or semantic matching), structural aspects (sentence structure,reasoning structure, etc.), or other criteria. Most studies focus on language similarity, with feweraddressing structural similarity, often due to the challenges in extracting a query’s structure in manytasks (Levy et al., 2022).
Sự tương đồng liên quan đến việc chọn các ngữ cảnh giống với đầu vào của người dùng nhất, dựa trên tương đồng về mặt ngôn ngữ (tương đồng trong câu từ hoặc ngữ nghĩa), tương đồng về cấu trúc (cấu trúc câu, câu trúc suy luận,...) và các tiêu chí khác. Hầu hết mọi nghiên cứu đều tập trung vào tương đồng về mặt ngôn ngữ thay vì đề cập đến tương đồng về mặt cấu trúc, chủ yếu là do các thách thức trong việc trích xuất cấu trúc có trong đầu vào của nhiều bài toán.
-
here are two primary retrieval objectives for selecting demonstrations: similarityand diversity.
Hai mục tiêu chính trong việc chọn các ngữ cảnh: độ tương đồng và độ đa dạng.
-
emonstration Formatting: Various works have shown that the formatting and wording of theprompts can play a crucial role in the performance of the LLM (Jiang et al., 2020; Shin et al., 2020;Kojima et al.; Yang et al., 2023). For example, Kojima et al. show that simply adding Let’s thinkstep by step to the prompt makes LLMs reason step by step and solve substantially more problems,and Weller et al. (2023) show that adding According to Wikipedia to the prompt makes them morefactual. Moreover, Min et al. (2022b) shows that besides the text formatting, the label space and thedistribution of the input text in the demonstrations are also of immense importance
Bố cục của prompt ảnh hưởng đáng kể đến hiệu quả của LLMs. Nghiên cứu của Min và cộng sự cho thấy bên cạnh bố cục của chỉ dẫn, tập nhãn và phân bố của các văn bản đầu vào trong tập ngữ cảnh cũng vô cùng quan trọng.
-
Traditionally, the same set of few-shot demonstrations is used on all queries, which can be suboptimalespecially when there are high variations among the queries. An alternative is to retrieve few-shotdemonstrations that are tailored to the current query. Previous work has shown that demonstrationretrieval leads to substantial improvements in the task metrics, compared to manually curated orrandomly selected demonstrations (Luo et al., 2023; Ye et al., 2023a). Furthermore, LLMs have beenshown to become less sensitive to the factors such as demonstration ordering (Section 2.2) whenretrieved demonstrations are used (Li et al., 2023b)
Việc sử dụng bộ ngữ cảnh cố định cho tất cả các đầu vào là không tối ưu, đặc biệt là với các bài toán có sự khác nhau lớn giữa các đầu vào. Một cách tiếp cận mới được sử dụng là truy hồi một lượng ngữ cảnh nhất định và nối đầu vào của bài toàn vào đó. Nghiên cứu của Li cũng cho thấy LLM ít nhạy cảm hơn với các yêu tố như thứ tự của ngữ cảnh khi các ngữ cảnh được truy xuất.
-
Chain of Thought (CoT): It has been shown that including a rationale for the answer significantlyimproves model performance, especially for models that are larger than a certain size (Suzgun et al.,2022). The rationale is commonly known as chain of thought (CoT) (Wei et al., 2022). In the case ofCoT prompting, the demonstrations are typically formatted as:
Việc thêm các bước lý giải vào giữa đầu vào và đầu ra của một ngữ cảnh giúp tăng đáng kể hiệu quả của mô hình. Các bước lý giải này thường được gọi là một chuỗi suy nghĩ.
-
Diversity of Demonstrations: Another important factor in the success of few-shot learning isthe diversity of the demonstrations. Naik et al. (2023) propose DiversePrompting where for thequestion of a demonstration, an LLM is used to generate different ways of solving the problem,and then those solutions are used in the prompt. Zhang et al. (2022b) propose to select a diverseset of questions as few-shot examples. Ma et al. (2023) propose a fairness metric for selectingdemonstrations which encourages selecting diverse few-shot demonstrations that produce a nearuniform predictive distribution for a semantic-free input
Độ đa dạng của các ngữ cảnh. Naik đã đề xuất phương pháp DiversePrompting. Trong đó, câu hỏi của một ngữ cảnh sẽ được sử dụng để LLMs có thể tạo ra nhiều cách khác nhau để giải quyết và các câu trả lời này sẽ được sử dụng làm ngữ cảnh tham khảo. Zhang và cộng sự đã đề xuất việc chọn một tập đa dạng các câu hỏi làm ngữ cảnh. Ma đã đề xuất một độ đo về tính công bằng cho việc chọn các ngữ cảnh, khuyến khích việc chọn một tập đa dạng các ngữ cảnh có thể tạo ra mổ phân bố dựa đoán gần chuẩn cho một đầu vào không liên quan đến ngữ nghĩa.
-
Order of Demonstrations: The order of demonstrations has been shown to substantially affect themodel performance. For example, Lu et al. (2022b) show that on some tasks, the model performancecan range from near-random to state-of-the-art depending on the order of the prompts, and Zhao et al.(2021) show that answers appearing toward the end of the prompt are more likely to be predicted bythe model
Thứ tự của ngữ cảnh có ảnh hướng rất lớn đến kết quả của mô hình. Nghiên cứu của zhao cho thấy các câu trả lời xuất hiện ở gần cuối của prompt khả năng cao sẽ được dự đoán bởi mô hình.
-
umber of Demonstrations: LLMs generally benefit from more demonstrations, but as the numberof demonstrations increases the rate of improvement typically decreases (Brown et al., 2020; Ye et al.,2023b; Min et al., 2022b). Generation tasks have been shown to benefit from an increased number ofdemonstrations more than classification tasks (Li et al., 2023b). Toward increasing the number ofdemonstrations, one barrier is the maximum context size of the LLM. While the size of the contexthas been increasing over time with newer LLMs, it may still be problematic for datasets with longinput texts or classification datasets with many classes
LLM nhìn chung có kết quả tốt hơn khi có nhiều ngữ cảnh hơn. Tuy nhiên, số lượng ngữ cảnh chuyền vào càng nhiều thì tốc độ tăng của kết quả càng giảm. Ngoài ra, việc tăng số lượng ngữ cảnh còn bị giới hạn bởi kích thước context window của LLMs.
-
Several works try to provide theoretical justifications and insights into how LLMs learn from a fewin-context demonstrations (Xie et al., 2021; Garg et al., 2022; Von Oswald et al., 2023). However,the exact reasons behind this capability are still largely unclear making it difficult to select optimalfew-shot demonstrations
Đã có một số nghiên cứu cung cấp những lý giải mang tính lý thuyết và các phân tích cho việc LLMs có thể học từ các ngữ cảnh như thế nào. Tuy nhiên, lý do chính xác cho khả năng này của LLMs là chưa được rõ ràng, từ đó khiến cho việc chọn được các ngữ cảnh tối ưu trở nên khó khăn.
-
This not only improves the efficiency and scalability of the learningprocess but also has been shown to reduce biases inherent in manual exampleselection. I
Phương pháp mới không chỉ giúp tăng hiệu quả và khả năng mở rộng của quá trình học mà còn hạn chế được sự thiên lệch đến từ việc chọn ngữ cảnh thủ công
-
However, the model’sability to perform ICL is sensitive to the choice of the few-shot demonstrations.Instead of using a fixed set of demonstrations, one recent development is to retrievedemonstrations tailored to each input query
khả năng học ICL của mô hình LLMs rất nhạy cảm với việc chọn các mẫu few-shot. Một phương pháp mới nổi lên gần đây với việc truy xuất các mẫu ngữ cảnh dựa trên truy vẫn thay vì luôn sử dụng một bộ mẫu ngữ cảnh cố định.
-
- Apr 2024
-
arxiv.org arxiv.org
-
1) The biggest challenges of multi-intent detec-tion (MID) in the deployment is the heavy coderefactoring on a running dialogue system whichalready does a good job in single-intent detection.It motivates us to design DialogUSR, which servesas a plug-in module and eases the difficulties ofincremental development.2) Prior work on MID has higher cost of dataannotation and struggles in the open-domain or do-main transfer scenarios. Only NLU experts canadequately annotate the intent/slot info for a MIDuser query, and the outputs of MID NLU modelsare naturally limited by the pre-defined intent/slotontology. In contrast, DialogUSR datasets can be1Code and data are provided in https://github.com/MrZhengXin/multi_intent_2022.!"#=>ChechowH#I:;Chec[SP]thereOPI9:TranRST12DEChec[SP]speedRV$H%PChec=>TH%P:;Chec[SP]fromH%P:;Z[Chec[SP]there^"_abSabSStep1. Initial Query Collection+,-./012345678Check the high-speed train from Xiamen toNanjing on Friday afternoonTask-orientedQuery Datasetsfghi:+,A/j12klh-./0345678Hi, I wanna check the high-speed train thatdeparts from Xiamen and arrives in Nanjing onFriday afternoonSamplingSentenceSimplificationStep2. Follow-up Query Creation'(* +,-./012345678Check the high-speed train from Xiamen to Nanjing on Friday afternoon'K* 9:;<=>How long does it take'Q* +A/BC6DEFGCheck out the special cuisine thereStep3. Query Aggregation'(* +,-./012345678Check the high-speed train from Xiamen to Nanjing on Friday afternoon'K* 9:;<=>How long does it take'Q* +A/BC6DEFGCheck out the special cuisine theremccnPcV%JS"* +,-./0123456789:;<=>?@+A/BC6DEFGCheck the high-speed train from Xiamen to Nanjing on Friday afternoon,how long does the journey take, then check out the special food there.'K* 9:;<=>How long does it take'Q* +A/BC6DEFGCheck out the specialcuisine there'KonPb* 123456789:;<=>How long does it take to travel fromXiamen to Nanjing in high-speed train'QonPb* +A/456DEFGCheck out the special cuisine in NanjingStep4. Query CompletionFigure 2: The overview for the data collection proce-dure of DialogUSR. Firstly we sample initial queriesfrom task-oriented NLU datasets (Sec. 2.1), then wehire crowdsource workers to write follow-up queries(Sec. 2.2). To aggregate the annotated queries, we pro-pose text filler templates (marked in red, Sec. 2.3) andpost-processing procedure. Finally we ask annotatorsto recover the missing information in the incompleteutterances (marked in blue, Sec. 2.4).easily annotated by non-experts, and the derivedmodels are domain-agnostic in the sense that thelearned query splitting, coreference/omission re-covery skills are generic for distinct domains3) Presumably MID is more difficult than sin-gle intent detection (SID) given the same inten-t/slot ontology. From the perspective of task(re)formulation, DialogUSR is the first to converta MID task to multiple SID tasks (the philosophyof ’divide and conquer’) with a relatively low er-ror propagation rate, providing an alternative andeffective way to handle the MID task.
Đóng góp chính của bài báo: - Thách thức lớn nhất hiện nay đối với việc xử lý các câu multi-intent là phải triển khai lại việc huấn luyện hệ thống hội thoại vốn đã hoạt động tốt trong việc xử lý câu single-intent. - Các nghiên cứu trước đó trong việc xử lý câu multi-intent thường có phí chú thích cao và gặp khó khăn với trường hợp miền mở. - Ngay từ đầu, việc xử lý các câu multi-intent đã khó hơn so với xử lý câu single-intent ovwis cùng cách gán intent và entity. DialogUSR là phương pháp đầu tiên giúp chuyển đổi một câu multi-intent thành nhiều câu single-intent với khả năng xảy ra lỗi lan truyền thấp
-
he anno-tators are instructed to write up to 3 subsequentqueries on what they need or what they would liketo know about according to the designated initialquery
Người xây dựng được hướng dẫn viết thêm nhiều nhất 3 truy vấn con về cái họ cần hoặc muốn biết dựa trên câu truy vấn ban đầu
-
we ask human an-notators to put themselves in the same position ofa real end user and imagine they are eliciting mul-tiple intents in a single complex user query whileinteracting with conversational agents
người làm dữ liệu được yêu cầu đặt bản thân vào vị trí của người dùng thực sự và tự đưa ra các câu multi-intent.
-
sample an initial query from twoChinese user query understanding datasets fortask-oriented conversational agents, namely SMP-ECDT2(Zhang et al., 2017) and RiSAWOZ3 (Quanet al., 2020). Then we ask human annotators to sim-plify the initial queries that have excessive length(longer than 15 characters), or are too verbose orrepetitive in terms of semantics
Các truy vấn ban đầu được lấy mẫu từ 2 bộ dữ liệu là SMP-ECDT và RiSAWOZ. Người tạo data thủ câu sau đó được yêu cầu đơn giản hóa các truy vẫn ban đầu có độ dài lớn hơn 15 ký tự, hoặc quá lòng vòng hoặc có sự lặp lại về mặt ngữ cảnh
-
we propose com-plex dialogue utterance splitting and reformulation(DialogUSR) task with corresponding benchmarkdataset that firstly splits the multi-intent query intoseveral single-intent sub-queries and then recoverthe coreferred and omitted information in the sub-queries,
Đề xuất phương pháp phân chia các câu hội thoại phức tạp và tái cấu trúc (DialogUSR)
-
Tointegrate the multi-intent detection model into aproduct dialogue system, the developers wouldmake extra efforts in continuous deployment, i.e.technical support for both single-intent and multi-intent detection models, and system modifications,i.e. changes in the APIs and implementations ofNLU and other related modules
Để tích hợp các mô hình phát hiện multi-intent vào hệ thống hội thoại, nhà phát triển cần cố gắng phát triển liên tục cho cả 2 mô hình single-intent và multi-intent
-
o handle multi-intent user queries, a straight-forward solution is to train a dedicated natural lan-guage understanding (NLU) system for multi-intentdetection
Để xử lý được các truy vấn đa ý định, một cách đơn giản là huấn luyện một hệ thống NLU có vai trò phát hiện multi-intent
-
- Mar 2024
-
aclanthology.org aclanthology.org
-
n the context of the TOD system, two crucialcomponents for measuring the success of a dia-logue are belief state and system response
2 thành phần quan trọng cho việc đánh giá một hệ thống hội thoại tốt là lelief state và system response.
-
he main contributions of our work can be sum-marized as follows:1. We design a prompt construction methodbased on domain and slot information.2. We proposed an adaptive prompt generationframework for the comprehensive black-box LLM-based TOD system.3. Experimental results demonstrate the effec-tiveness of our approach in enhancing the capabili-ties of LLMs.
Đóng góp chính của bài báo: - thiết kế một phương pháp xây dựng prompt dựa trên thông tin về miền và giá trị thực thể. - Đề xuất một framework với các prompt có tính thích ứng cho một hệ thống TOD LLM tổng quát - Các kết quả nghiên cứu chứng minh được sự hiệu quả trong phương pháp được đề xuất trong việc làm tăng khả năng của LLM.
-
e de facto way of utilizing black-box largelanguage models (LLMs) to perform variousdownstream tasks is prompting. However,obtaining suitable prompts for specific tasksis still a challenging problem. While exist-ing LLM-based methods demonstrate promis-ing performance in the task-oriented dialogue(TOD) task, they often require manual adjust-ment in prompt selection or focus solely on dia-logue understanding or generation. To addressthese issues, we propose an adaptive promptgeneration framework to fully unleash the po-tential of LLMs for the comprehensive TODsystem. Firstly, we design a trainable slot gen-erator (TSG) that can generate domain and slotinformation in the belief state, which serves asprior knowledge for subsequent prompt genera-tion. Next, we propose an adaptive prompt gen-erator (APG) that utilizes the prior knowledgeto generate prompts for the LLM, deriving thebelief state and system response of the dialoguefor evaluation. Finally, we evaluate our frame-work on the MultiWOZ 2.0 dataset. Extensiveexperiments demonstrate th
intro
-
-
www.ijcai.org www.ijcai.org
-
With the Meta NLG tasks defined above, we formulate themeta-learning objective of Meta-NLG as below:θM eta = M etaLearn(T1, ..., TK )= arg maxθ EiEDTi ,D′TiLD′Ti(fθ′i) (4)θ′i = Adapt(DTi , θ) = θ − α∇θ LDTi (fθ ) (5)
hàm học tối ưu Meta-NLG
-
Low-resource Adaptation. To simulate the process ofadapting to a low-resource NLG task, the sizes of both sub-sets DTi and D′Ti , especially DTi , are set small. Therefore,when the model is updated on DTi as a part of the later meta-learning steps, it only sees a small amount of samples in thattask. This setup embeds the goal of low-resource adaptation.
Thích ứng với bài toán ít tài nguyên: Để mô phỏng quá trình thích ứng với 1 bài toán NLG ít tài nguyên, kích thước của cả 2 tập DTi và D'Ti, đặc biệt là DTi, được cài đặt là nhỏ. Vì vậy, khi mô hình được cập nhật trên bộ DTi như 1 phần của bước meta-learning tiếp theo, nó sẽ chỉ nhìn thấy một lượng nhỏ mẫu của bài toán này.
-
Task Generalization. To generalize to new NLG tasks,Meta NLG tasks follow the same modality as the target task.For example, if our target task is to adapt to DA-utterancepairs in a new domain, then DA-utterance pairs in each Tiare sampled from the same source domain. We also consideradapting to new DA types in later experiments. In this case,DA-utterance pairs in each Ti have the same DA type. Thissetting merges the goal of task generalization.
Tổng quát hóa bài toán: Để có thể tổng quát hóa các bài toán NLG mới, các bài toán Meta NLG sẽ đi theo phương thức giống với các bái toán mục tiêu. Ví dụ, nếu bài toán mục tiêu là thích ứng với các cặp DA-utterance ở trong 1 miền mới, thì các cặp DA-utterance ở mỗi Ti sẽ được lấy mẫu từ cùng miền gốc.
-
Therefore, the first step is to construct a set of auxiliaryMeta NLG tasks (T1, ..., TK ) to simulate the low-resourcefine-tuning process. We construct a Meta NLG task Ti by:Ti = (DTi , D′Ti ) (3)DTi and D′Ti of each Ti are two independent subsets of DA-utterance pairs from high-resource source data Ds. DTi andD′Ti correspond to meta-train (support) and meta-test (query)sets of a typical meta-learning or few-shot learning setup, andTi is often referred to as a training episode. This meta setupwith both DTi and D′Ti in one Meta NLG task allows ourMeta-NLG algorithm to directly learn from different MetaNLG tasks. The usage of them will be elaborated later. MetaNLG tasks are constructed with two additional principles:
Bước đầu là xây dựng một tập các bài toán Meta NLG (T1, ..., Tk) để mô phỏng quá trình fine-tune ít tài nguyên. Một bài toán Ti được thể hiện như sau: Ti = (DTi, D'Ti) Dti và D'Ti của mỗi bài toán Ti là 2 tập con độc lập gồm các cặp DA-utterance từ dữ liệu nhiều tài nguyên Ds. DTi và D'Ti tương ứng với tập meta-train và meta-test cho một bài toán few-shot learning vầ meta-learning đặc trưng. Với 2 tập DTi và D'Ti, cài đặt này cho phép thuật toán Meta-NLG trực tiếp học từ các bài toán Meta NLG khác nhau.
-
the idea of our Meta-NLG algorithm isto repeatedly simulate auxiliary Meta NLG tasks from Ds tomimic the fine-tuning process in Eq.(2).
Ý tưởng chính của thuật toán Meta-NLG là lặp lại việc mô phỏng các bài toán Meta NLG từ tập dữ liệu Ds để bắt chước quá trình fine-tuning ở biểu thức (2).
-
uppose fθ is the base NLG model parameterized by θ, andwe have an initial θs pre-trained with DA-utterance pairsDs = {(dj , Yj )}j∈s from a set s of high-resource sourcetasks. When we adapt fθ to some low-resource task t withDA-utterance pairs Dt = (dt, Yt), the fine-tuning processon Dt can be formulated as follows:θ∗ = Adapt(Dt, θ = θs) = arg maxθ LDt (fθ )= arg maxθ∑(dt ,Yt )∈DtlogP (Yt|dt; θ) (2)The parameter θs will be used for initialization, and themodel is further updated by new observations Dt. The sizeof Dt in low-resource NLG tasks is very small due to thehigh annotation cost, therefore, a good initialization parame-ter θs learned from high-resource source tasks is crucial forthe adaptation performance on new low-resource NLG tasks.Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence (IJCAI-19)3152
Tham số theta^S sẽ lấy được sau khi pretrain mô hình với một bộ dữ liệu có các bài toán nhiều tài nguyên. Tham số theta^S sẽ được dùng để khởi tạo để huấn luyện mô hình với bộ dữ liệu ít tài nguyên.
-
hieved state-of-the-art perfor-mance by directly optimizing the gradient towards a goodparameter initialization for easy fine-tuning on low-resourcescenarios. It introduces no additional architectures nor pa-rameters.
Thuật toán MAML đạt được kết quả SOTA bằng cách trực tiếp tối ưu việc đạo hàm thông qua việc có khởi tạo tham số tốt cho việc fine-tuning dễ dàng trên các ngữ cảnh ít tài nguyên.
-
The optimization algorithm itself canbe designed in a way that favors fast adaption
Ý tưởng chính là tự tìm cách tối ưu thuật toán tối ưu theo hướng thích ứng nhanh.
-
The idea is to use an additional meta-learnerto learn to update the original learner with a few trainingexamples. [Andrychowicz et al., 2016] developed a meta-learner based on LSTMs. Hypernetwork [Ha et al., 2016],MetaNet [Munkhdalai and Yu, 2017], and TCML [Mishraet al., 2017] also learn a separate set of representations forfast model adaptation. [Ravi and Larochelle, 2017] proposedan LSTM-based meta-learner to learn the optimization algo-rithm (gradients) used to train the original network
Ý tưởng chính là sử dụng một mô hình bổ sung cho meta-learning để cập nhật cho mô hình gốc với 1 ít dữ liệu huấn luyện. Tiêu biểu là nghiên cứu của Ravi và Larochelle với một mô hình meta-learning dựa trên mô hình LSTM để học thuật toán tối ưu hóa được sử dụng để huấn luyện mô hình mới.
-
The idea is to learn a metric space and thenuse it to compare low-resource testing samples to rich train-ing samples
Ý tưởng chính là học một không gian đánh giá và sử dụng nó để so sánh các mẫu kiểm thử ít tài nguyên với các mẫu huấn luyện nhiều tài nguyên.
-
A fundamental problem is “fastadaptation to new and limited observation data”
bài toán căn bản của meta-learning là tạo ra sự thích nghi nhanh với dữ liệu quan sát mới và hạn chế
-
We formulate the problem froma meta-learning perspective, and propose a gen-eralized optimization-based approach (Meta-NLG)based on the well-recognized model-agnostic meta-learning (MAML) algorithm.
Bài toán được bố cục theo góc nhìn của meta-learning. Phương pháp dựa trên tối ưu hóa tổng quát hóa (generalized optimization based approach) được đề xuất Phương pháp này được triển khai dựa trên thuật toán meta-learning không dựa trên mô hình MAML (model-agnositc meta-learning algorithm)
-
Inthis paper, we study NLG in a low-resource settingto generate sentences in new scenarios with handfultraining examples
Đề xuất phương pháp học với ít dữ liệu. Phương pháp NLG với cài đặt ít tài nguyên để tạo sinh các câu trong các ngữ cảnh mới với một lượng nhỏ số lượng mẫu huấn luyện.
-
As Meta-NLG is model-agnostic as long asthe model can be optimized by gradient descent, we could ap-ply it to any existing NLG models to optimize them in a waythat adapt better and faster to new low-resource tasks
Thuật toán Meta-NLG là một thuật toán không dựa trên mô hình miễn sao mô hình có thể được tối ưu hóa bằng xuống đồi đạo hàm, ta có thể áp dụng bất kì mô hình NLG nào để tối ưu hóa chúng theo cách giúp chúng thích ứng tốt hơn và nhanh hơn với các bài toán ít dữ liệu mới
-
Then, we proposed a generalizedNLG algorithm called Meta-NLG based on MAML by view-ing languages in different domains or dialog act types as sep-arate Meta NLG tasks.
Thuật toán Meta-NLG là một thuật toán NLG tổng quát hóa dựa trên thuật toán MAML bằng cách xem xét các ngôn ngữ trong nhiều miền khác nhau hoặc các kiểu hành động hội thoại như các bài toán Meta-NLG riêng biệt
-
nstead of casting the problem as model-based approaches, we propose a generalized optimization-based meta-learning approach to directly enhance the opti-mization procedure for the low-resource NLG task
phương pháp được đề xuất dựa trên meta-learning và tối ưu hóa tổng quát bằng cách trực tiếp tăng cường quy trình tối ưu hóa cho các bài toán NLG ít dữ liệu
-
Although promis-ing results were reported, we found that datasets used bythese methods are simple which tend to enumerate many slotsand values in an utterance without much linguistic variations.
Dù kết quả được báo cáo là rất hứa hẹn, các dữ liệu được sử dụng trong các bài báo cáo này đều khá đơn giản. Chúng có xu hướng liệt kê các giá trị thực thể mà không có sự đa dạng trong ngữ nghĩa.
-
Meta-NLG defines aset of meta tasks, and directly incorporates the ob-jective of adapting to new low-resource NLG tasksinto the meta-learning optimization process.
Meta-NLG định nghĩa một tập các bái toán Meta, và trực tiếp hợp nhất mục tiêu của việc thích nghi với các bài toán NLG ít tài nguyên và quá trình tối ưu hóa meta-learning
-
De-spite the recent success of neural approaches forNLG, they are typically developed for particulardomains with rich annotated training examples
Dù hiện nay, các phương pháp tiếp cận cho NLG hiện tại đã đạt được nhiều thành công nhưng chúng vẫn cần một lượng dữ liệu đã đước gán nhãn rất lớn.
-
-
viblo.asia viblo.asia
-
Git - Học nghiêm túc một lần
pay attention !
-
-
aclanthology.org aclanthology.org
-
fine-tune SC-GPT on limited amounts of domain-specific labels for adaptation
Đối với một miền giá trị mới, một hành động hội thoại thường chứa các intents mới cùng với các cặp slot-value và một số lượng hạn chế các mẫu huấn luyện.SC-GPT sẽ được fine-tune với lượng hạn chế các nhãn trên một miền cụ thể cho việc thích nghi
-
Finally, thesequentialized dialog act A′ is concatenated withits augmented response x′, and then fed into GPT-2.
Cuối cùng, hành động hội thoại được tuần tự hóa A' được nối với phản hồi được mở rộng x' và được cho vào GPT-2.
-
We firstly pre-process dialog act A into a se-quence of control codes using the following format:A′ = [ I ( s1 = v1 , · · · sP = vP ) ] (4)Meanwhile, the output sequence x′ is pre-processed via appending x with a special start to-ken [BOS] and an end token [EOS].
Đầu tiên, hành động hội thoại A được tiền xử lý thành một chuỗi code với format như sau: A' = [I (s1 = v1, …, sp = vp)] Trong khi đó, chuỗi đầu ra x' được tiền xử lý bằng việc thêm vào x 2 token đặc biệt là [BOS] và [EOS].
-
To enablethe guidance of dialog act in response generation,we propose to continuously pre-train the GPT-2model on large amounts of annotated (dialog act,response) pairs. The pre-training dataset3 includesannotated training pairs from Schema-Guided Dia-log corpus, MultiWOZ corpus, Frame corpus, andFacebook Multilingual Dialog Corpus. The totalsize of the pre-training corpus is around 400k ex-amples
Để thực hiện được chỉ dẫn về hành động hội thoại trong việc sinh phản hồi, GPT-2 được pretrain liên tục trên một một lượng lớn các cặp (dialog act, response). Dữ liệu tiền huấn luyện bao gồm các cặp được chú thích.
-
Existing methods for NLG can be broadly sum-marized into two major categories. (i) Template-1Semantically-Conditioned Generative Pre-Trainingbased methods require domain experts to handcrafttemplates for each domain, and the system fills inslot-values afterward (Cheyer and Guzzoni, 2014;Langkilde and Knight, 1998). Thus, the producedresponses are often adequate to contain the requiredsemantic information, but not always fluent and na-ture, hurting users’ experiences. (ii) Statistical lan-guage models such as neural networks (Gao et al.,2019) learn to generate fluent responses via train-ing from labelled corpus. One canonical model issemantically conditioned LSTM (SC-LSTM) (Wenet al., 2015b), which encodes dialog acts with one-hot representations and uses it as an extra feature toinform the sentence generation process.
NLG Chia làm 2 loại: - Dạng form mẫu (template): các form mẫu được làm tay và hệ thống sẽ điền giá trị thực thể được trích xuất vào đó. Vì vậy, phản hồi có thông tin đầy đủ về ngữ cảnh, tuy nhiên lại không uyển chuyển và tự nhiên. - Mô hình ngôn ngữ thống kê: mô hình được học để tạo sinh ra các phản hồi uyển chuyển. SC-LSTM (senmatically conditioned LSTM (LSTM gán điều kiện ngữ cảnh) đươc huấn luyện để mã hóa các hành động hội thoại thành 1 vector one-hot và dùng vector này là thông tin bổ sung để thêm vào sự sinh câu lệnh
-
ayer Transformer neural language model, trainedin three steps: (i) Pre-trained on plain text, similarto GPT-2 (Radford et al.); (ii) Continuously pre-trained on large amounts of dialog-act labeled utter-ances corpora to acquire the ability of controllablegeneration; (iii) Fine-tuned for a target domain us-ing very limited amounts of domain labels.
SC-GPT là một mô hình transformer đa lớp, được huấn luyện với 3 bước: - Huấn luyện trên văn bản thông thường, tương tự GPT-2 - Tiếp tục huấn luyện với lượng lớn ngữ liệu câu truy vấn trong hội thoại được gán nhãn để có được khả năng tạo sinh có thể kiểm soát - fine-tune mô hình đến miền mục tiêu sử dụng một lượng rất nhỏ các nhãn miền.
-
o simulatesuch a few-shot learning setting, we have devel-oped a new benchmark dataset, called FEWSHOT-WOZ, based on the MultiWOZ (Budzianowskiet al., 2018) and Cambridge NLG datasets (Wenet al., 2016a). F
Để mô phỏng được cài đặt học máy few-shot, một bộ dữ liệu mẫu mới, gọi là FEWSHOT-WOZ đã được xây dựng.
-
In a typical task-oriented dialogsystem, the Natural Language Generation (NLG)module plays a crucial role: it converts a systemaction (e.g., often specified in a semantic form se-lected by a dialog policy) into a final response innatural language. Hence, the response should beadequate to represent semantic dialog actions, andfluent to engage users’ attention
Trong hệ thống hội thoại hướng mục đích, NLG có vai trò chuyển hóa hành động của hệ thống (dưới dạng 1 form ngữ nghĩa) thành 1 phản hồi cối cùng dưới dạng ngôn ngữ tự nhiên
-
-
aclanthology.org aclanthology.org
-
Regression Objective Function. The cosine-similarity between the two sentence embeddingsu and v is computed (Figure 2). We use mean-squared-error loss as the objective function
Hàm mục tiêu hồi quy: Độ tương đồng cosine giữa 2 vector câu u và v được tính
-
Classification Objective Function. We con-catenate the sentence embeddings u and v withthe element-wise difference |u − v| and multiply itwith the trainable weight Wt ∈ R3n×k:o = softmax(Wt(u, v, |u − v|))where n is the dimension of the sentence em-beddings and k the number of labels. We optimizecross-entropy loss.
Hàm mục tiêu phân loại: 2 vector nhúng câu u và v và vector khoảng cách |u-v| được nối với nhau và được nhân với một ma trận trọng số Wt = R^(3n x k). Trong đó: - n: số chiều của vector nhúng câu - k : số nhãn
-
SBERT adds a pooling operation to the outputof BERT / RoBERTa to derive a fixed sized sen-tence embedding. We experiment with three pool-ing strategies: Using the output of the CLS-token,computing the mean of all output vectors (MEAN-strategy), and computing a max-over-time of theoutput vectors (MAX-strategy). The default config-uration is MEAN.
SBERT là BERT được thêm 1 lớp pooling trên đầu để lấy được vector có kích thước cố định . 3 loại pooling được sử dụng - Lấy đầu ra của token CLS (CLS) - Lấy TB của tất cả các token (MEAN) - Lấy max của tất cả các token (MAX)
Pooling mặc định là MEAN
-
-
arxiv.org arxiv.org
-
The field of text generation systems shifted from traditional approaches to statistical approacheswhere the focus was on exploiting patterns in text data and building models to make a predictionbased on the text it has see
NLG thống kê, tập trung vào việc khai thác các yếu tố có trong dữ liệu văn bản và đưa ra dự đoán dựa trên văn bản mà nó đã thấy.
-
Notably, we iden-tify three important areas of further research towards building more effective dialogue systems:1) incorporating larger context, including conversation context and world knowledge; 2) addingpersonae or personality in the NLG system; and 3) overcoming dull and generic responses thataffect the quality of system-produced responses. We provide pointers on how to tackle these openproblems through the use of cognitive architectures that mimic human language understanding andgeneration capabilities
xác định 3 lĩnh vực quan trọng để hướng tới việc xây dựng module NLG hiệu quả hơn cho hệ thống hội thoại hướng mục đích: - Tích hợp ngữ cảnh rộng hơn cho mô hình, bao gồm cả ngữ cảnh giao tiếp và ngữ cảnh bên ngoài. - Thêm vào module NLG tính cá nhân hóa - Loại bỏ, hạn chế các phản hồi sai và quá bao quát, không tập trung.
-
Some of the early success in the field of language generation was building systems like Eliza(Weizenbaum, 1966) and PARRY
NLG rule-based
-
-
arxiv.org arxiv.org
-
Featurization Firstly, the policy featurizes theuser input, system actions and slots.
Giai đoạn 1: Mô hình TED đặc trưng hóa đầu vào của người dùng, hành động của hệ thống và giá trị của các khe (slot).
-
Similar to the REDP, we do not use aclassifier to select a system action. Instead, we jointlytrain embeddings for the dialogue state and each of thesystem actions by maximizing a similarity function be-tween them
Tương tự như REDP, TED không sử dụng 1 hàm phân lớp để chọn hành động cho hệ thống và huấn luyện đồng thời vector nhúng của trạng thái hội thoại và của mỗi hành động bằng cách tối đa hóa hàm tương đồng giữa chúng.
-
Vlasov etal. [2] introduced the Recurrent Embedding Dialogue Pol-icy (REDP) architecture. The ablation study in this workhighlighted that the improved performance of REDP isdue to an attention mechanism over the dialogue historyand a copy mechanism to recover from unexpected userinput. This modification to the standard RNN structureenables the dialogue policy to ‘skip’ specific turns in thedialogue history and produce an encoder state which isidentical before and after the unexpected input.
Vlasov và cộng sự đã phát triển kiến trúc REDP. Thực nghiệm cho thấy REDP có cải thiện nhờ vào cơ chế chú ý trên lịch sử hội thoại và cơ chế sao chép để khôi phục từ đầu vào không mong muốn của người dùng. 2 cải tiến này so với kiến trúc RNN tiêu chuẩn cho phép DP có thể bỏ qua các lượt cụ thể trong lịch sử hội thoại và đưa ra được các trạng thái encoder tương tư nhau ở trước và sau đầu vào không mong muốn
-
Topic disentanglement in task-oriented dialogueRecent work has attempted to produce neural architec-tures for dialogue policies which can handle interleaveddiscourse segments in a single conversation
Sự mất tập trung trong topic của các cuộc hội thoại hướng mục đích: Các nghiên cứu gần đây đã cố gắng xây dựng các kiến trúc nơ rôn cho các chiến lược hội thoại nhằm có thể xử lý trường hợp các topic đan xen vào nhau trong 1 cuộc hội thoại đơn lẻ.
-
n the example above, theuser might follow up with a further question like so thatused up my credit, right?. If the topic of refund creditshas been popped from the stack, this can no longer helpclarify what the user wants to know
Trong trường hợp này, người dùng có thể muốn có câu trả lời rõ ràng hơn bằng cách đặt ra 1 câu trả lời theo sau câu trả lời trước "So that used up my credit, right ?". Nếu topic này bị loại khỏi stack thì nó không thể làm rõ dc thứ mà người dùng muốn là gì.
-
The authors of RavenClaw argue forexplicitly tracking topics to enable the contextual inter-pretation of the user intents
Các tác giả của Ravenclaw cũng lên tiếng về việc cần có các topic theo dõi một cách tường minh nhằm cho phép các suy luận ngữ cảnh của ý định người dùng
-
While a stack naturally allows for sub-dialogues to behandled and concluded, the strict structure of a stackis also limiting
Trong khi 1 chồng có thể cho phép các đoạn hội thoại con được xử lý và hoàn thành 1 cách tự nhiên, cấu trúc khắt khe của một chồng cũng có sự hạn chế.
-
The assistant’s question Shall Iplace the order? prompts the return to the task at hand:completing a purchase. One model is to think of thesesub-dialogues as existing on a stack, where new topicsare pushed on to the stack when they are introduced andpopped off the stack once concluded
Câu hỏi của chatbot :"Shall I place the order ?" nhắc nhở đến sự trở lại của tác vụ hiện tại: hoàn thành giao dịch. Mô hình sẽ nghĩ những cuộc hội thoại con này đều nằm trên 1 chống, nơi mà các topic mới được đẩy vào chồng khi nó được đề cập đến và được đẩy ra một khi kết thúc.
-
discourse segments, where a discourse seg-ment (or topic) is a set of utterances that directly re-spond to each other.
discourse segment (hay topic): là một tập các câu thoại trực tiếp phản hổi lần nhau
-
The proposed TED architecture should bethought of as a candidate building block for use in de-veloping state-of-the-art architectures in various dialoguetasks.
Kiến trúc của mô hình TED được để xuất nên được coi là 1 khối xây dựng ứng viên nhằm sử dụng cho việc phát triển các kiến trúc SOTA trong nhiều tác vụ hội thoại.
-
Interpretingsimple instructions like please turn on the lights is rela-tively straightforward, but to handle more complex tasks,these systems must be able to engage in multi-turn con-versations.
Để giải quyết được những nhiệm vụ phức tạp hơn yêu cầu hệ thống phải có khả năng xử lý được các cuộc hội thoại nhiều lượt.
-
-
arxiv.org arxiv.org
-
ith higherrequirements on product experience, actual di-alog scenarios become more complex, and DMneeds to be further improved. Traditional DMis usually built in a clear dialog script sys-tem (searching for matching answers, query-ing the user intent, and then ending the dia-log) with pre-defined system action space, userintent space, and dialog body. However, dueto unpredictable user behaviors, traditional di-alog systems are less responsive and have agreater difficulty dealing with undefined sit-uations. In addition, many actual scenariosrequire cold start without sufficient tagged di-alog data, resulting in high data cleansing andtagging costs. DM based on deep reinforce-ment learning requires a large amount of datafor model training. According to the experi-ments in many academic papers, hundreds ofcomplete sessions are required to train a dialogmodel, which hinders the rapid developmentand iteration of dialog systems.To solve the limitations of traditional DM,researchers in academic and industry circleshave begun to focus on how to strengthen theusability of DM. Specifically, they are workingto address the following shortcomings in DM:• Poor scalability• Insufficient tagged data• Low training efficiency
Tổng quan về các loại DM và các hạn chế của DM.
-
sign and removing the isolation between mod-ules. However, the end-to-end model placeshigh requirements on the quantity and qualityof data and does not provide clear modelingfor processes such as slot filling and API call-ing. This model is still being explored and is asyet rarely applied in the industry.
Ưu, nhược điểm của hệ thống hội thoại hướng tác vụ end-to-end
-
This modular system structure is highly in-terpretable, easy to implement, and applied inmost practical task-oriented dialog systems inthe industry. However, this structure is notflexible enough. The modules are independentof each other and difficult to optimize together.This makes it difficult to adapt to changing ap-plication scenarios. Additionally, due to theaccumulation of errors between modules, theupgrade of a single module may require theadjustment of the whole system
Ưu, nhược điểm của hệ thống hội thoại tuần tự
-
ask-oriented dialog systems are divided byarchitecture into two categories. One type isa pipeline system that has a modular struc-ture(Wen et al., 2016), as shown in Figure 1.It consists of four key modules:
Hệ thống hội thoại hướng mục đích được chia thành 2 loại dựa trên cấu trúc. Loại 1 là loại tuần tự, bao gồm 4 thành phần: - Bộ hiểu ngôn ngữ (NLU) - Bộ theo dõi trạng thái hội thoại (DST) - Bộ chính sách hội thoại (DP) - Bộ sinh ngôn ngữ (NLG) Có 1 loại khác là các hệ thống hội thoại hướng tác vụ có dạng end-to-end.
-
Common dialog systems are divided into thefollowing three types: chatting systems, task-oriented dialog systems, and QA systems. In achatting systems, the system generates inter-esting and informative natural responses to al-low human-machine dialog to proceed(Serbanet al., 2017)
Các hệ thống hội thoại được chia làm 3 loại: - hệ thống nhắn tin - hệ thống hướng tác vụ - hệ thống hỏi-đáp
-
The di-alog state is obtained by directly calculat-ing the maximum conditional probability in-stead of the Bayesian a posteriori probabil-ity.
Trạng thái hội thoại cũng được xác định bằng cách tính giá trị xác xuất lớn nhất một cách trực tiếp thay vì tính xác suất hậu tố Bayes.
-
n recent years, with breakthroughs in deeplearning in the image, voice, and text fields,third-generation dialog systems built arounddeep learning have emerged.
Các hệ thống hội thoại hiện nay sử dụng các mô hình học sâu kết hợp dữ liệu thống kê.
-
The first-generation dialog systems weremainly rule-based. For example, the ELIZAsystem(Weizenbaum, 1966) developed by MITin 1966 was a psychological medical chatbotthat matched methods using templates.
Hệ thống hội thoại đời đầu chủ yếu là rule-based.
-
At that time, re-inforcement learning was widely studied andapplied in dialog systems. A representative ex-ample is the statistical dialog system based onthe Partially Observable Markov Decision Pro-cess (POMDP) proposed by Professor SteveYoung of Cambridge University in 2005(Younget al., 2013)
Hệ thống hội thoại thế hệ 2 sử dụng dữ liệu thống kê, nổi lên cùng với sự phát triển của dữ liệu lớn. Các hệ thống hội thoại sử dụng học tăng cường. Ví dụ điển hình là hệ thống hội thoại thống kê dựa trên chuỗi Markov quan sát một phần (POMDP)
-
Turing test. Topass this test, the machine had to commu-nicate with a real person so that this per-son believed they were talking to another per-son
Bài kiểm tra Turing (1950): Để vượt qua bài kiểm tra này, cỗ máy phải giao tiếp với một người thật sao cho người này tin rằng mình cũng đang nói chuyện với một người thật khác.
-
Inthis paper, we survey recent advances andchallenges within three critical topics forDM: (1) improving model scalability to fa-cilitate dialog system modeling in new sce-narios, (2) dealing with the data scarcityproblem for dialog policy learning, and (3)enhancing the training efficiency to achievebetter task-completion performance
Khảo sát trên về tiến bộ và thách thức trong 3 vấn đề chính: - cải thiện khả năng mở rộng quy mô của mô hình trong việc hỗ trọ mô hình hóa hệ thống hội thoại với các trường hợp mới - Đối phó với tình trạng thưa thớt dữ liệu trong việc học hội thoại. - Gia tăng hiệu quả của việc học.
-
Given the dialog history, DM pre-dicts the dialog state and decides thenext action that the dialog agent shouldtake.
Định nghĩa bài toán DM: Cho một lịch sử hội thoại, DM phải dự đoán dc hành động tiếp theo mà chatbot nên làm
-
-
arxiv.org arxiv.org
-
n most cases, there are two kinds of errors in the Vietnamese language:mistyped errors and misspelled errors [11]. Mistyped errors are errors that occurduring the typing process. The majority of these mistakes are caused by the
Có 2 loại lỗi phổ biến: - Lỗi đánh máy sai:là các lỗi gõ sai chữ trong quá trình đánh máy. Chỉ dừng ở mức âm tiết. Có thể chia thành 2 loại lỗi là: lỗi từ giả và lỗi từ thật. Lỗi từ thật là khi xảy ra lỗi thì từ lỗi đó lại có trong từ điển. Lỗi từ giả thì ngược lại. - Lỗi phát âm sai là lỗi đánh sai về phát âm ( lỗi d-r, l-n, ...)
-