开源垂域高质量数据组成结构!专业QA主动生成,来自上海AI Lab

liukang20242个月前今日吃瓜1092
GraphGen团队 投稿量子位 | 大众号 QbitAI
垂域模型练习,高质量问答数据稀缺一直是职业痛点。
在笔直范畴大模型练习中,人工标示本钱昂扬,组成数据又常堕入质量与专业性难以兼得的窘境。
为此,上海AI实验室等提出GraphGen。
经过“常识图谱引导+双模型协同”机制,明显增强模型对垂域的理解能力。
一起,研讨团队现已在OpenXLab布置了Web运用,上传你的文本块(如海事、海洋常识)、填写SliconCloud API Key,即可在线生成LLaMA-Factory、XTuner所需的练习数据。
布景阐明
垂域模型(如医疗、农业)练习中,获取QA(问答对)数据常常面临以下难题:
量大。仅仅学习回复风格只需数百条,姑且能人工标示;用SFT(Supervised Fine-Tuning)给模型注入新常识,需求数十万的样本量,此刻数据组成手法是刚需。
专业布景。开源LLM在小众范畴现已体现不错,但垂域应对的是实在的“硬骨头”。面临范畴数据,普通人或许每个字都知道,但连在一起并不知道什么意义。比方,不借助东西,请试着读懂这句:
质量把控。“LLM-RAG-打分”一般也被拿来组成 SFT 数据,但这条pipeline存留一些问题:
正确性。在LLM不具备范畴常识时,直接给范畴问答数据打分,简略堕入“先有鸡先有蛋”的难题
简略的相关度得分也不足以衡量数据质量,不只没有回复长度、信息丰度等目标,更短少语义层面的确保
计划介绍
为了处理以上问题,上海AI Lab开源了GraphGen,一个在常识图谱引导下的组成数据生成结构,旨在常识密集型使命中生成问答
这是根据GraphGen和SiliconCloud Qwen2.5-7B-Instruct API实跑的 QA 样例:
GraphGen会运用到两个LLM,一个是组成模型,担任构建常识图谱、组成数据等;另一个是学生模型,用来辨认它自己的常识盲点,便利针对性的挑选数据。
上图是GraphGen工作流:
首要输入一段原始文本,运用组成模型从源文本构建细粒度的常识图谱。
然后,运用预期校准差错(Expected Calibration Error, 简称 ECE)来辨认学生模型的常识盲点,针对常识盲点优先生成针对高价值、长尾常识的问答对。
接着,GraphGen结构结合多跳邻域采样来捕捉杂乱的相关信息,并选用风格操控生成技能来使生成的问答数据多样化。
终究得到一系列和原始文本相关的问答对。用户不能自制直接用这批数据在llama-factory或许xtuner这样的练习结构中进行SFT。
优异的数据组成办法有许多,研讨团队在论文中做了比照测验:
研讨团队选用的是客观目标:
MTLD(Measure of Textual Lexical Diversity)经过核算文本中接连词串的均匀长度来点评词汇的多样性
Uni(Unieval Score)是根据对话模型的天然度、共同度、可理解度点评目标
Rew(Reward Score)是BAAI和OpenAssistant开源的两个Reward Model核算的得分
由上图可见,GraphGen能给出相对较好的组成数据。
一起研讨团队在开源数据集(SeedEval、PQArefEval、HotpotEval 别离对应农业、医学、通用)练习测验,结果表明GraphGen自动组成的数据不能自制下降Comprehension Loss(越低代表学生模型的常识盲点越少),增强模型对垂域的理解力。
东西运用
研讨团队现已在OpenXLab渠道推出了一个快捷的Web运用。用户不能自制轻松上传各类文本块(例如海事、海洋常识等),并经过填写SiliconCloud API Key,快速生成适配LLaMA-Factory和XTuner练习结构所需的高质量练习数据。
需求留意的是:
为了便利试用,默许装备免费的7B模型。实在事务中请用更大的组成模型(14B 及以上),并敞开Trainee 难例发掘
Web运用默许装备SiliconCloud做API Key,也支撑本地vllm布置,请自行修正base URL
GitHub 和论文地址:https://github.com/open-sciencelab/GraphGenOpenXLab Web
体会地址:
https://g-app-center-000704-6802-aerppvq.openxlab.space
告发/反应

相关文章

值得买科技2025年618战报:国补加码激发消费升级兴趣驱动引领消费新潮—今日头条达人图鉴发布

值得买科技2025年618战报:国补加码激发消费升级兴趣驱动引领消费新潮—今日头条达人图鉴发布

  6月19日,值得买科技正式发布2025年618战报,在国补和大促的双重推动下,公司核心业务“什么值得买”助力42个品牌达成超千万GMV,内容发布量同比增长17.28%,集团创新业务也表...

混合集体世界杯|王楚钦发球遭投诉,国乒豪取六连胜

王楚钦(左)/孙颖莎在混双竞赛中。北京时间12月7日,2023年成都国际乒联混合团体世界杯第二阶段竞赛继续进行,我国队以8比1别离打败我国台北队和法国队,迎来六连胜。竞赛结果都在预料之中,仅仅竞赛进程...

中方反制,对美加征34%关税;事关程序化买卖,三大买卖所联合发布……假日重要音讯还有这些

微观•要闻我国政府关于对立美国滥施关税的态度近期,美国以各种托言宣告对包含我国在内的一切买卖同伴滥施关税,严峻侵略各国正当权益,严峻违背世界买卖组织规矩,严峻危害以规矩为根底的多边买卖体系,严峻冲击全...

美国马里兰州一桥梁因货船碰击崩塌 四艘美军用货船被困巴尔的摩港

3月26日美国马里兰州巴尔的摩市的“弗朗西斯·斯科特·基”大桥被失控集装箱货轮撞塌,巴尔的摩港封闭至今。英国《泰晤士报》网站近来报导称,4艘处于待命状况的美国军用货船现在被困在巴尔的摩港,无法确认何时...

诺曼底登陆80周年:俄国缺席

在俄乌抵触的布景之下,包括连泽连斯基毕竟都在受邀名单之上,也就事实上很难让法国再组织约请俄罗斯方面到会活动。编缉|姜浩峰  法国方面好像有屡次重复——在诺曼底登陆80周年留念日到来之前,一忽儿传出法方...

与粮相伴30载,豫东优粮应有他一枚“勋章”丨俺是新农民

编者按:走出村庄是一代人逐梦的起点,现在,村庄正成为越来越多年轻人筑梦的舞台。越来越多的年轻人、大学生改动传统思维,怀揣着新观念、新知识、新技术回到村庄、扎根村庄,在村庄舞台上加快奔驰、圆梦沃野。也有...

友情链接: