问答媒体

 找回密码
 立即注册
快捷导航
搜索
热搜: 活动 交友 discuz
12
返回列表 发新帖
楼主: 白立杰

一文理解“上下文学习”----大语言模型突现能力

[复制链接]

0

主题

4

帖子

0

积分

新手上路

Rank: 1

积分
0
发表于 2023-3-25 19:08:21 | 显示全部楼层
icl最后的要解答的问题和权值相乘的结果看作初始权值
回复

使用道具 举报

0

主题

5

帖子

6

积分

新手上路

Rank: 1

积分
6
发表于 2023-3-25 19:09:14 | 显示全部楼层
令我比较费解的地方在于这篇论文只将icl的attention部分和显示微调产生梯度这部分进行了对比。但是在一般的模型训练过程中,根据前一条数据的反向传播产生梯度,根据梯度更新参数,只有参数变化了,后一条数据才会被预测的更好。在这里可以理解icl通过前向过程产生了梯度,但是参数没有变化的话,为什么会出现性能的变化?
不知道是否可以理解成,前面的“demonstration examples”提供了"仅对最后一个查询生效的临时参数变化"?也就是说针对最后一个查询,前面的示例其实会改变模型的参数也就是初始权值,但是这种改变不会被写入原模型中,而是随着最后这个查询得到预测后被抛弃掉。[好奇]
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver| 手机版| 小黑屋| 问答媒体

GMT+8, 2025-7-13 00:45 , Processed in 0.075924 second(s), 20 queries .

Powered by Discuz! X3.4

Copyright © 2020, LianLian.

快速回复 返回顶部 返回列表