开yun体育网 · ) 闪现 cosine 相似度-开云提款靠谱欢迎您✅ 官方入口
发布日期:2025-12-15 07:20 点击次数:177高效组合多个大模子"舍短取长"新念念路,被顶会 NeurIPS 2024 继承。
名为RouterDC,是一种基于双重对比学习的路由架构,具有参数高效性(小于 100M 的参数)和筹算高效性(不需要关于 LLM 进行梯度回传)的上风。
在具有挑战性说话认知、代码生成和数学推理等推理任求践诺中,RouterDC 在散播内(+2.76%)和散播外(+1.90%)设定下,齐远超于现存的 routing 秩序。

大家皆知,LLM 频繁在不同数据集上预覆按和微调,导致它们在不同任务上的性能强弱不同。
LLM 路由则是一种组合多个 LLM 的新念念路,它通过学习一个路由器(Router)来为每一个肯求(query)聘用最适当的 LLM。在推理时,LLM 路由只需要调用所选的 LLM 进行推理,使其在保捏筹算高效性的同期附近多个 LLM 的互补智商。
RouterDC 这种新秩序,包括一个较小的说话模子看成编码器和一系列与候选 LLM 对应的可学习的LLM embeddings。
关于覆按数据中的每个 query,领先将候选 LLM 的展望与确凿标签进行比较得回表现最好和最差的 LLM,然后构造两个对比亏损:
sample-LLM 对比亏损:使得 query embedding(由编码器索要)与表现最好的 LLM embeddings 相似,同期与表现最差的 LLM embeddings 不相似。
sample-sample 对比亏损:提高覆按的清楚性,将统共覆按 query 聚类成多个组,最大化同组 query 之间的相似性的同期最小化不同组 query 之间的相似性。
这项连络由来自南边科技大学,香港科技大学的连络团队提议,以下是更为在意的先容。

双对比学习兑现 Router 覆按
Router 架构
如图 1 所示,RouterDC 包括一个较小的说话模子(mDeBERTaV3-base)看成编码器 ε,和一系列的与候选 LLM 对应的可学习 LLM 镶嵌 kT。关于每个 query xi,RouterDC 生成关于 T 个 LLMs 的聘用概率如下:

其中,sim ( · , · ) 闪现 cosine 相似度。

△图 1:RouterDC 秩序暗示图
sample-LLM 对比亏损
为了覆按 router,连络者将 query 的样本镶嵌和在其上表现最好的 K+ 个 LLM 对应镶嵌拉进,和在其上表现最差的 K- 个 LLM 对应镶嵌拉远。因此,样本 -LLM 对比亏损不错闪现为:

sample-sample 对比亏损
连络者通过践诺发现,在 routing 问题中只使用样本 -LLM 对比亏损并不清楚,使得相似的 query 可能具有不相似的镶嵌。
为了莳植覆按的鲁棒性,覆按样本被聚类成不同的组,从而在覆按中拉近并吞个组内的样本,拉远不同组的样本。和样本 -LLM 对比亏损肖似,样本 - 样本对比亏损不错公式化为:

覆按及推理
最终的优化标的为最小化样本 -LLM 对比损成仇样本 - 样本对比亏损的连合:

推理时,每个测试 query 只需要通过覆按好的 router 考取概率最大的 LLM,并使用聘用的 LLM 对 query 进行回答。
RouterDC 在覆按时不需要任何历程 LLM 的梯度回传,而况在推理时只需要调用进行一次 LLM,同期具有覆按和推理的高效性。
践诺恶果奈何?
主要端正
RouterDC 在散播内数据集的测试准确率端正如表 1 所示。不错发现:
RouterDC 显耀好于最优的单个模子,平均具有 3.98% 性能莳植。在单个任务的层面,RouterDC 在三个任务上比较表现最优的单个模子取得了准确率的莳植,其中 GSM8K 莳植了 0.51%,ARC-C 莳植了 0.57%,HumanEval 莳植了 1.63%。
和现存路由秩序 CosineClassifier 以及 ZOOTER 对比,RouterDC 在统共任务上齐具有更好的表现。和 LoraRetriever 对比,RouterDC 具有平均 2.77% 的准确率莳植。

△表 1:散播内任务的测试准确率(%)
为了评估 RouterDC 的泛化智商,表 2 展示了 RouterDC 在三个散播外数据集(PreAlgebra,MBPP,C-EVAL)的测试准确率。
不错看出,RouterDC 再次达到最高的测试准确率,显耀稀疏表现最好的单个 LLM(dolphin-2.9-llama3-8b)1.9%。

△表 2:散播外任务的测试准确率(%)
sample-sample 亏损的作用
为了探究样本 - 样本亏损的作用,图 3 展示了在是否有样本 - 样本亏损的条目下覆按和测试准确率弧线。不错看出,RouterDC(w/o Lsample-sample)有昭彰的颤动景观,而 RouterDC 则清楚得多。

△图 2:RouterDC 在 GSM8K 任务上的覆按和测试准确率弧线
图 3(a)可视化了使用 RouterDC(w/o Lsample-sample)索要的覆按样本的 TSNE 特征,不错看到,属于不同任务的覆按样本粗造地羼杂在全部。而在连合 Lsample-sample 之后,覆按样本有了澄澈的聚类结构(如图 3(b)所示)。

△图 3:学习到的 router 所索要出覆按样本 embedding 的 t-SNE 可视化
RouterDC 具有本钱高效性
由于价钱(cost)相通是一个评估 LLM 的迫切观念,连络者通过 RouterBench 上的两个任务的践诺来格外计划 cost 的影响。如图 16 所示,RouterDC 比较于 CosineClassifier 和 ZOOTER 愈加的本钱高效。

△图 4:在 RouterBench 上使用不同的 Cost 获取的测试准确率
论文地址:https://arxiv.org/abs/2409.19886
代码地址:https://github.com/shuhao02/RouterDC
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿本色
附上论文 / 时势主页一语气,以及关系方式哦
咱们会(尽量)实时回应你

点这里� � 温雅我,牢记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日重逢 ~
