开源垂域高质量数据组成结构!专业QA主动生成,来自上海AI Lab

liukang20243个月前今日吃瓜1118
GraphGen团队 投稿量子位 | 大众号 QbitAI
垂域模型练习,高质量问答数据稀缺一直是职业痛点。
在笔直范畴大模型练习中,人工标示本钱昂扬,组成数据又常堕入质量与专业性难以兼得的窘境。
为此,上海AI实验室等提出GraphGen。
经过“常识图谱引导+双模型协同”机制,明显增强模型对垂域的理解能力。
一起,研讨团队现已在OpenXLab布置了Web运用,上传你的文本块(如海事、海洋常识)、填写SliconCloud API Key,即可在线生成LLaMA-Factory、XTuner所需的练习数据。
布景阐明
垂域模型(如医疗、农业)练习中,获取QA(问答对)数据常常面临以下难题:
量大。仅仅学习回复风格只需数百条,姑且能人工标示;用SFT(Supervised Fine-Tuning)给模型注入新常识,需求数十万的样本量,此刻数据组成手法是刚需。
专业布景。开源LLM在小众范畴现已体现不错,但垂域应对的是实在的“硬骨头”。面临范畴数据,普通人或许每个字都知道,但连在一起并不知道什么意义。比方,不借助东西,请试着读懂这句:
质量把控。“LLM-RAG-打分”一般也被拿来组成 SFT 数据,但这条pipeline存留一些问题:
正确性。在LLM不具备范畴常识时,直接给范畴问答数据打分,简略堕入“先有鸡先有蛋”的难题
简略的相关度得分也不足以衡量数据质量,不只没有回复长度、信息丰度等目标,更短少语义层面的确保
计划介绍
为了处理以上问题,上海AI Lab开源了GraphGen,一个在常识图谱引导下的组成数据生成结构,旨在常识密集型使命中生成问答
这是根据GraphGen和SiliconCloud Qwen2.5-7B-Instruct API实跑的 QA 样例:
GraphGen会运用到两个LLM,一个是组成模型,担任构建常识图谱、组成数据等;另一个是学生模型,用来辨认它自己的常识盲点,便利针对性的挑选数据。
上图是GraphGen工作流:
首要输入一段原始文本,运用组成模型从源文本构建细粒度的常识图谱。
然后,运用预期校准差错(Expected Calibration Error, 简称 ECE)来辨认学生模型的常识盲点,针对常识盲点优先生成针对高价值、长尾常识的问答对。
接着,GraphGen结构结合多跳邻域采样来捕捉杂乱的相关信息,并选用风格操控生成技能来使生成的问答数据多样化。
终究得到一系列和原始文本相关的问答对。用户不能自制直接用这批数据在llama-factory或许xtuner这样的练习结构中进行SFT。
优异的数据组成办法有许多,研讨团队在论文中做了比照测验:
研讨团队选用的是客观目标:
MTLD(Measure of Textual Lexical Diversity)经过核算文本中接连词串的均匀长度来点评词汇的多样性
Uni(Unieval Score)是根据对话模型的天然度、共同度、可理解度点评目标
Rew(Reward Score)是BAAI和OpenAssistant开源的两个Reward Model核算的得分
由上图可见,GraphGen能给出相对较好的组成数据。
一起研讨团队在开源数据集(SeedEval、PQArefEval、HotpotEval 别离对应农业、医学、通用)练习测验,结果表明GraphGen自动组成的数据不能自制下降Comprehension Loss(越低代表学生模型的常识盲点越少),增强模型对垂域的理解力。
东西运用
研讨团队现已在OpenXLab渠道推出了一个快捷的Web运用。用户不能自制轻松上传各类文本块(例如海事、海洋常识等),并经过填写SiliconCloud API Key,快速生成适配LLaMA-Factory和XTuner练习结构所需的高质量练习数据。
需求留意的是:
为了便利试用,默许装备免费的7B模型。实在事务中请用更大的组成模型(14B 及以上),并敞开Trainee 难例发掘
Web运用默许装备SiliconCloud做API Key,也支撑本地vllm布置,请自行修正base URL
GitHub 和论文地址:https://github.com/open-sciencelab/GraphGenOpenXLab Web
体会地址:
https://g-app-center-000704-6802-aerppvq.openxlab.space
告发/反应

相关文章

“美国五角大楼便是摆脱不了华为,和国会摊牌”

【文/观察者网 熊超然】在美国想要竭力切断全球最大电信服务提供商华为的全部经贸联络之时,作为全球最大的雇主之一,五角大楼却面临着难题——到现在为止,美国国防部难以脱节对华为的依托。据彭博社当地时间7月...

51吃瓜今日吃瓜首页

51吃瓜今日吃瓜首页

  6月21日,中央纪委国家监委发布消息,自然资源部原党组成员,中国地质调查局原党组书记、局长钟自然被开除党籍,涉嫌受贿、故意泄露国家秘密犯罪问题移送检察机关依法审查起诉。...

刘宗义:看到中美关税大战,印度高呼“又一次千载一时的机会”

4月24日,美国副总统万斯完毕为期4天的印度之行。期间,其既同印度总理莫迪在新德里议论了美印国防协作、买卖协议等许多议题,又作为“印度女婿”,携妻带子观赏了泰姬陵、到会了私家婚礼。万斯是尽兴而归了,而...

马斯克旗下xAI拟筹资200亿美元 估值超1200亿美元

智通财经APP得悉,据媒体征引知情人士音讯报导,埃隆·马斯克旗下xAI Holdings正在与投资者商洽,为这家新兼并的公司筹集约200亿美元的资金。一名知情人士称,这笔买卖对该公司的估值将超越120...

魔方魔盒娱乐,揭秘奇幻世界中的无尽欢乐之旅

魔方魔盒娱乐,揭秘奇幻世界中的无尽欢乐之旅

亲爱的读者们,你是否曾在某个悠闲的午后,被一个神奇的魔方所吸引?那个小小的立方体,看似简单,却蕴含着无尽的乐趣和挑战。今天,就让我带你走进魔方魔盒娱乐的世界,一起探索这个充满魔力的角落。魔方的起源与演...

「透视」星巴克创始人舒尔茨:若中美以和为贵 国际将变得更夸姣

我国日报网4月8日电 近期,外国博主Cyrus Janssen在X账号上发了一段视频,星巴克创始人舒尔茨在视频中表明,“我国人民和美国人民的共同之处远远超越咱们所以为的不合。”他表明假如把人类之间的情...

友情链接: