学途智助
首页
分类
标签
关于网站
登录
eeettt123
2025-06-17
3
作者编辑
数据蒸馏 -- 使用 llm 对html 处理后 然后让llm 提取问答对
1. dify 2. 看paper arxiv https://arxiv.org/html/2404.07503v1 3. deepeval # 使用 llm 对html 处理后 然后让llm 提取问答对 最后使用开源大语言模型对问答对进行润色的方式来获取大量的训练数据。在筛选阶段,作者训练了一个基于Fasttext(Joulin et al. 2016)的文本分类器来从CommonCrawl(Com.数据中分类出可能包含高质量问题-答案对的文档,在这个过程中大模型可以用于标注正样本数据,负样本数据则通过随机采样产生;然后通过去掉网页数据中的HTML标签以及广告,在这一步基础之上通过借助开源大模型,如Qwen(Bai et a.2023),判断文档中是否存在自然的问题-答案对,如果存在则让模型提取出;在抽取出的问题-答案对中,部分数据只含有问题和对应的答案,缺乏对相关过程的展示,则需要使用大模型来补足这部分内容。通过以上步骤可获取超过千万条相关数据,在上面训练的各种7B大小的模型取得了良好的性能。但由于生产这批数据使用的是Qwen-72B,一定程度上可以将整个过程看做是在蒸馏Qwen-72B模型。 # 提高数据质量方法 数据质量和数据多样性。对于提高合成数据的质量的方法,一般有以 下四种:(失)对照生成答案与标准答案,只采用两者一致的合成数据;(夲)采用多次投票的 方案,采用获取票数最多的答案;(夳)采取更强大模型,如奇奐奔夭头;(头)采用外部工具。为 了提高合成数据的多样性,可以采用的方案有(失)调整模型生成时的温度等系数,使得生成更 多样;(夲)通过从预训练语料中挖掘;(夳)通过限制生成条件的方式 笔记记录: https://arxiv.org/html/2404.07503v1
其他
赞
博客信息
作者
eeettt123
发布日期
2025-06-17
其他信息 : 其他三字母的人名首字母都是其他同学发布的哦