Python知識分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
大模型(LLMs)LLM生成SFT數(shù)據(jù)方法面 PDF 下載
匿名網(wǎng)友發(fā)布于:2025-05-01 10:00:56
(侵權(quán)舉報)
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

大模型(LLMs)LLM生成SFT數(shù)據(jù)方法面  PDF 下載 圖1

 

 

資料內(nèi)容:

 
一、SFT數(shù)據(jù)集如何生成?
SFT數(shù)據(jù)集構(gòu)建通常有兩種方法:人工標(biāo)注和使用LLM(比如GPT-4)來生成的,人工標(biāo)注對于構(gòu)
建垂直領(lǐng)域比較合適,可以減少有偏數(shù)據(jù),但是成本略高;使用LLM生成,可以在短時間內(nèi)生成大
量數(shù)據(jù)。
 
二、Self-Instruct
2.1 什么是 Self-Instruct ?
一個通過預(yù)訓(xùn)練語言模型自己引導(dǎo)自己來提高 的指令遵循能力的框架。
 
2.2 Self-Instruct 處理思路?
步驟1:作者從 175個種子任務(wù)中隨機(jī)抽取 8 條自然語言指令作為示例,并提示InstructGPT
成更多的任務(wù)指令。
步驟2:作者確定步驟1中生成的指令是否是一個分類任務(wù)。如果是,他們要求 InstructGPT
據(jù)給定的指令為輸出生成所有可能的選項,并隨機(jī)選擇特定的輸出類別,提示 InstructGPT
成相應(yīng)的輸入內(nèi)容。對于不屬于分類任務(wù)的指令,應(yīng)該有無數(shù)的輸出選項。作者提出了
入優(yōu)先策略,首先提示 InstructGPT根據(jù)給定的指令生成輸入,然后根據(jù)指令和生成的
生成輸出。
步驟3:基于第 2 步的結(jié)果,作者使用 InstructGPT 生成相應(yīng)指令任務(wù)的輸入輸出,采用
輸出優(yōu)先輸入優(yōu)先的策略。
步驟4:作者對生成的指令任務(wù)進(jìn)行了后處理(例如,過濾類似指令,去除輸入輸出的重復(fù)數(shù)
據(jù)),最終得到52K條英文指令