开源垂域高质量数据组成结构!专业QA主动生成,来自上海AI Lab

liukang20242天前今日吃瓜1059
GraphGen团队 投稿量子位 | 大众号 QbitAI
垂域模型练习,高质量问答数据稀缺一直是职业痛点。
在笔直范畴大模型练习中,人工标示本钱昂扬,组成数据又常堕入质量与专业性难以兼得的窘境。
为此,上海AI实验室等提出GraphGen。
经过“常识图谱引导+双模型协同”机制,明显增强模型对垂域的理解能力。
一起,研讨团队现已在OpenXLab布置了Web运用,上传你的文本块(如海事、海洋常识)、填写SliconCloud API Key,即可在线生成LLaMA-Factory、XTuner所需的练习数据。
布景阐明
垂域模型(如医疗、农业)练习中,获取QA(问答对)数据常常面临以下难题:
量大。仅仅学习回复风格只需数百条,姑且能人工标示;用SFT(Supervised Fine-Tuning)给模型注入新常识,需求数十万的样本量,此刻数据组成手法是刚需。
专业布景。开源LLM在小众范畴现已体现不错,但垂域应对的是实在的“硬骨头”。面临范畴数据,普通人或许每个字都知道,但连在一起并不知道什么意义。比方,不借助东西,请试着读懂这句:
质量把控。“LLM-RAG-打分”一般也被拿来组成 SFT 数据,但这条pipeline存留一些问题:
正确性。在LLM不具备范畴常识时,直接给范畴问答数据打分,简略堕入“先有鸡先有蛋”的难题
简略的相关度得分也不足以衡量数据质量,不只没有回复长度、信息丰度等目标,更短少语义层面的确保
计划介绍
为了处理以上问题,上海AI Lab开源了GraphGen,一个在常识图谱引导下的组成数据生成结构,旨在常识密集型使命中生成问答
这是根据GraphGen和SiliconCloud Qwen2.5-7B-Instruct API实跑的 QA 样例:
GraphGen会运用到两个LLM,一个是组成模型,担任构建常识图谱、组成数据等;另一个是学生模型,用来辨认它自己的常识盲点,便利针对性的挑选数据。
上图是GraphGen工作流:
首要输入一段原始文本,运用组成模型从源文本构建细粒度的常识图谱。
然后,运用预期校准差错(Expected Calibration Error, 简称 ECE)来辨认学生模型的常识盲点,针对常识盲点优先生成针对高价值、长尾常识的问答对。
接着,GraphGen结构结合多跳邻域采样来捕捉杂乱的相关信息,并选用风格操控生成技能来使生成的问答数据多样化。
终究得到一系列和原始文本相关的问答对。用户不能自制直接用这批数据在llama-factory或许xtuner这样的练习结构中进行SFT。
优异的数据组成办法有许多,研讨团队在论文中做了比照测验:
研讨团队选用的是客观目标:
MTLD(Measure of Textual Lexical Diversity)经过核算文本中接连词串的均匀长度来点评词汇的多样性
Uni(Unieval Score)是根据对话模型的天然度、共同度、可理解度点评目标
Rew(Reward Score)是BAAI和OpenAssistant开源的两个Reward Model核算的得分
由上图可见,GraphGen能给出相对较好的组成数据。
一起研讨团队在开源数据集(SeedEval、PQArefEval、HotpotEval 别离对应农业、医学、通用)练习测验,结果表明GraphGen自动组成的数据不能自制下降Comprehension Loss(越低代表学生模型的常识盲点越少),增强模型对垂域的理解力。
东西运用
研讨团队现已在OpenXLab渠道推出了一个快捷的Web运用。用户不能自制轻松上传各类文本块(例如海事、海洋常识等),并经过填写SiliconCloud API Key,快速生成适配LLaMA-Factory和XTuner练习结构所需的高质量练习数据。
需求留意的是:
为了便利试用,默许装备免费的7B模型。实在事务中请用更大的组成模型(14B 及以上),并敞开Trainee 难例发掘
Web运用默许装备SiliconCloud做API Key,也支撑本地vllm布置,请自行修正base URL
GitHub 和论文地址:https://github.com/open-sciencelab/GraphGenOpenXLab Web
体会地址:
https://g-app-center-000704-6802-aerppvq.openxlab.space
告发/反应

相关文章

美现役军人自焚身亡,五角大楼回应

汹涌新闻记者 南博一据《环球网》征引路透社、美国《纽约邮报》等媒体报导,关于“一名美国武士在以色列驻美大使馆前自焚逝世”一事,美国五角大楼发言人赖德2月26日在记者会上回应称,防长奥斯汀正重视有关状况...

最好的办理:少讲道理,多打胜仗

来历:中外办理咱们既要有“能交兵”的才干,也要有“打胜仗”的成果,职工由于看见这个成果,所以挑选信任,有由于信任,所以能看见更高远的山、更宽广的海。文:柏奕晗首先是战之必胜的决计得到App与罗辑思想创...

2008年5月12日,举国同悲!汶川地震17周年 咱们永久铭记

00:142008年5月12日,举国同悲!汶川地震17周年祭,其时的画面仍然看一次哭一次,旧日山河破碎,现在涅槃重生,咱们永久铭记!告发/反应...

咱们这两个重要邦邻,又到了战役的边际

不由叹一口气,咱们这两个重要邦邻,又到了战役的边际。哪两个邦邻?一个是印度,另一个是巴基斯坦。形势很风险。工作的原因,印控克什米尔区域22日产生恐怖突击事情,至少26人逝世,这被以为是该区域“25年来...

汇总|事关美国关税影响!科创板公司密布表态(继续更新中……)

《科创板日报》4月7日讯 4月3日清晨,美国发布所谓“对等关税”方针。到发稿,科创板已有十余家公司揭露回应相关影响。多家企业表明,此次“对等关税”方针“影响有限”,已活跃应对;部分公司称,已在全球布局...

只上19天班!最新放假组织(不是清明节)

只上19天班!最新放假组织(不是清明节)

清明节假日还没到打工人现已开端策画下一个节日了今天上午论题#本年5月只用上19天班#登上微博热搜榜依据2024年11月修订的《全国年节及纪念日放假方法》,自2025年1月1日起,整体公民放假的假日添加...

友情链接: