机器之心报道
编辑:杜伟、梓文
本文引入了一种名为 ToT(Tree of Thoughts)的新型语言模型推理框架,使用 LLM 模拟人类的决策过程,以解决复杂问题。
(资料图)
GPT 和 PaLM 等大型语言模型在处理数学、符号、常识和知识推理等任务时正变得越来越熟练。也许令人惊讶的是,所有这些进展的基础仍然是生成文本的原始自回归机制。它逐个 token 地进行决策,并按从左到右的方式生成文本。这样简单的机制是否足以构建一个通用问题求解器的语言模型呢?如果不行,哪些问题将挑战当前的范式,应该采用什么样的替代机制呢?
有关人类认知的文献提供了一些线索来回答这些问题。关于「双过程(dual process)」模型的研究表明,人们在进行决策时有两种模式:一种是快速、自动、无意识的模式(System 1),另一种是缓慢、深思熟虑、有意识的模式(System 2)。这两种模式以前与机器学习中使用的各种数学模型联系在一起。例如,对人类和其他动物的强化学习的研究探讨了他们进行联想式的「无模型」学习或更加深思熟虑的「基于模型」的规划的情况。语言模型的简单联想式 token 级选择也类似于「System 1」,因此可能受益于更深思熟虑的「System 2」规划过程的增强,该过程保持并探索当前选择的多种替代方案,而不仅仅是选择一个。此外,它会评估其当前状态,并积极地展望或回溯以进行更全局的决策。
为了设计这样一个规划过程,来自普林斯顿大学、 Google DeepMind 的研究者选择先回顾一下人工智能(和认知科学)的起源,汲取 Newell、Shaw 和 Simon 在上世纪 50 年代探索的规划过程的灵感。Newell 和他的同事将问题解决描述为对组合式问题空间的搜索,这个空间被表示为一棵树。因此,他们提出了适用于语言模型的思维树(ToT)框架,用于通用问题求解。
论文链接:https://arxiv.org/pdf/2305.10601.pdf项目地址:https://github.com/ysymyth/tree-of-thought-llm
正如图 1 所示,现有的方法通过对连续语言序列进行采样来解决问题,而 ToT 则积极地维护一棵思维树,其中每个思维都是一个连贯的语言序列,作为解决问题的中间步骤(表 1)。
这样一个高级语义单元使 LM 能够通过深思熟虑的推理过程来自我评估不同中间思维对解决问题的进展贡献情况(图 2、4、6)。通过 LM 的自我评估和深思熟虑来实现搜索启发式是一种新颖的方法,因为以前的搜索启发式要么是编程的,要么是学习得来的。最后,研究者将这种基于语言的生成和评估多样思维的能力与搜索算法相结合,例如广度优先搜索(BFS)或深度优先搜索(DFS),这些算法允许对思维树进行系统性的探索,并具备展望和回溯功能。在实验阶段,研究者设置了三项任务,即 24 点游戏、创意写作和填字游戏(表 1),这些问题对现有的 LM 推理方法来说颇具挑战性,即使对于 GPT-4 来说也不例外。这些任务要求具备演绎、数学、常识、词汇推理能力,以及一种融入系统性规划或搜索的方式。实验结果表明,ToT 在这三个任务上取得了优越的成绩,因为它具备足够的通用性和灵活性,可以支持不同层次的思维、不同生成和评估思维的方式,以及适应不同问题性质的不同搜索算法。通过系统的实验消融分析,作者还探讨了这些选择如何影响模型性能,并讨论了未来训练和使用 LM 的方向。
思维树:利用语言模型进行深思熟虑的问题求解
一个真正的问题求解过程涉及反复使用可用信息来启动探索,进而揭示更多信息,直到最终发现实现解决方案的方法。—— Newell 等
对人类问题求解的研究表明,人类通过搜索一个组合式问题空间来解决问题。这可以看作一棵树,其中节点表示部分解,分支对应修改它们的运算符。选择哪个分支是由启发式决定的,这些启发式帮助导航问题空间并引导问题解决者朝着解决方案的方向前进。这个观点突出了使用语言模型来解决通用问题的现有方法的两个关键缺点:1)局部上,它们不探索思维过程中的不同延续 —— 树的分支。2)全局上,它们不包括任何类型的规划、展望或回溯来帮助评估这些不同的选择 —— 这种启发式引导的搜索似乎是人类问题求解的特征。
为了解决这些问题,作者引入了思维树(ToT),这是一种让语言模型能够在思维路径上探索多种推理方式的范式(图 1 ( c ) )。ToT 将任何问题框架化为对树的搜索,其中每个节点是一个状态 s = [ x, z_1i ] ,表示带有输入和迄今为止的思维序列的部分解。ToT 的具体实例包括回答以下四个问题:
1. 如何将中间过程分解为思维步骤;
2. 如何从每个状态生成潜在思维;
3. 如何启发式地评估状态;
4. 使用什么搜索算法。
1. 思维分解。虽然 CoT 在没有明确分解的情况下对思维进行连贯的采样,但 ToT 利用问题属性来设计和分解中间思维步骤。如表 1 所示,根据不同的问题,思维可以是几个单词(填字游戏),一个等式(24 点游戏),或者是一段写作计划(创意写作)。一般来说,思维应该足够「小(small)」,以便 LM 能生成预期多样化的样本(如生成太「大(big)」而不连贯一本书),但思维又应该足够「大」,以便 LM 可以评估其解决问题的前景(例如,生成一个 token 通常太小而无法评估)。
2. 思维生成器 G ( p_ θ, s, k ) 。给定树状态 s = [ x, z_1i ] ,该研究利用两种策略来为下一步思维 step 生成 k 个候选对象。
3. 状态评估器 V ( p_ θ, S ) 。给定不同状态的边界,状态评估器评估它们在解决问题方面的进展,以确定哪些状态应该继续探索,以及以何种顺序进行探索。虽然启发式是解决搜索问题的标准方法,但它们通常要么是编程式的(例如 DeepBlue),要么是需要经过学习的(例如 AlphaGo)。本文提出第三种替代方法,通过使用语言来有意地推理状态。在适用的情况下,这种深思熟虑的启发式方法可能比编程规则更灵活,比学习模型更有效。
与思维生成器类似,考虑两种策略来单独或一起评估状态:
(1)独立评估每个状态
(2)跨状态投票
这两种策略,可以多次提示 LM 来整合价值或投票结果,用时间、资源、成本换得更加可靠、鲁棒的启发式。
4. 搜索算法。最后,在 ToT 框架内,可以根据树结构即插即用不同的搜索算法。本文探索了两个相对简单的搜索算法,并将更高级的算法留作以后进行研究:
(1)广度优先搜索(BFS) ( 算法 1 )
(2)深度优先搜索(DFS) ( 算法 2 )
从概念上讲,ToT 作为语言模型解决一般问题的方法有几个好处:
(1)通用性。IO、CoT、CoT- sc 和自我细化可以看作 ToT 的特殊情况(即深度和广度有限的树;图 1);
(2)模块化。基本的 LM 以及思维分解、生成、评估和搜索过程都可以独立变化;
(3)适应性。可以适应不同的问题属性、LM 能力和资源约束;
(4)便捷性。无需额外的训练,只需要一个预训练的 LM 就足够了。
实验结果
该研究提出了三个任务,即便使用最先进的语言模型 GPT-4,通过标准的 IO prompting 或思维链(CoT)prompting 进行采样,这些任务仍然具有挑战性。
24 点数学游戏
给定四个数字,玩家需要在限定的时间内使用这四个数字和基本数学运算符号(加号、减号、乘号、除号)来创建一个表达式,使其结果为 24。比如,给定数字:4、6、8、2,一个可能的解法是: ( 8 ÷ ( 4 - 2 ) ) × 6 = 24。
如表 2 所示,使用 IO、CoT 和 CoT-SC prompting 方法在任务上表现不佳,仅实现了 7.3%、4.0% 和 9.0% 的成功率。相比之下,b(breadth) = 1 的 ToT 已经实现了 45% 的成功率,而 b = 5 时则达到了 74%。他们还考虑了 IO/CoT 的 oracle 设置,通过使用 k 个样本中的最佳值来计算成功率 ( 1 ≤ k ≤ 100 ) 。
为了将 IO/CoT(k 个最佳结果)与 ToT 进行比较,研究者考虑在 ToT 中计算每个任务中访问的树节点数量,其中 b = 15,并将 5 个成功率映射在图 3 ( a ) 中,将 IO/CoT(k 个最佳结果)视为在赌博机中访问 k 个节点。毫不奇怪,CoT 比 IO 更具扩展性,而最好的 100 个 CoT 样本实现了 49% 的成功率,但仍远远不及在 ToT 中探索更多节点(b > 1)。
下图 3 ( b ) 分解了 CoT 和 ToT 样本在任务失败时的情况。值得注意的是,大约 60% 的 CoT 样本在生成第一步,相当于生成前三个单词 ( 例如 "4 + 9" ) 后就已经失败了。这让直接从左到右解码的问题更加凸显了。创意写作研究者还发明了一个创意写作任务,输入 4 个随机句子,输出一篇包含四段的连贯文章,每段分别以 4 个输入句子结尾。这样的任务是开放式和探索性的,挑战了创造性思维和高级规划。
下图 5 ( a ) 显示了 GPT-4 在 100 个任务中的平均分数,其中 ToT ( 7.56 ) 比 IO ( 6.19 ) 和 CoT ( 6.93 ) 生成了更连贯的段落。虽然这样的自动度量可能会有噪声,但图 5 ( b ) 证实,人类在 100 passage 对中有 41 对更喜欢 ToT 而不是 CoT,而只有 21 对更喜欢 CoT 而不是 ToT ( 其他 38 对被发现 " 相似连贯 " ) 。
最后,迭代优化算法在该自然语言任务上取得了更好效果,IO 一致性得分从 6.19 提高到 7.67,ToT 一致性得分从 7.56 提高到了 7.91。研究者认为,这可以看作是 ToT 框架中思维生成的第三种方法,新思维可以从细化旧思维中产生,而不是顺序生成。
迷你填字游戏在《24 点数学游戏》和创意写作中,ToT 是比较浅显的 —— 最多需要 3 个思考步骤就能达到最终的输出。研究者将探索 5 × 5 迷你填字游戏作为有关自然语言的更难一层的搜索问题。同样,这次的目标不仅仅是解决任务,因为一般填字游戏可以通过专门的 NLP pipeline 轻松解决,该 pipeline 利用大规模检索而不是 LM。相反,研究者的目标是探索语言模型作为一个通用问题求解器的极限,探索它自身的思维,并以严谨的推理作为启发式来指导自己的探索。
如下表 3 所示,IO 和 CoT 提示方法表现不佳,单词级别的成功率低于 16%,而 ToT 显著提高了所有指标,实现了 60% 的单词级别成功率,在 20 个游戏中解决了 4 个。考虑到 IO 和 CoT 缺乏尝试不同线索、更改决策或回溯的机制,这样的提升并不令人惊讶。
THE END转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
标签:
上一篇 : 博实股份:参股公司思哲睿科创板IPO获通过
下一篇 : 最后一页
来为大家解答以上的问题。属猪的和什么属相不合,属猪的和什么属相最配这个很多人还不知道,现在让我们一起
06-02 02:36:19
6月1日,交银成长混合A最新单位净值为4 8964元,累计净值为6 0054元,较前一交易日上涨0 06%。历史数据显示
06-02 01:53:27
起拍价超130亿,世茂“心头肉”深圳600米地标项目被拍卖界面新闻记者|杨冰柯界面新闻编辑|在京东拍卖上...
06-02 01:45:44
今天小编肥嘟来为大家解答以上的问题。圣魔之光石修改器,圣魔之光石相信很多小伙伴还不知道,现在让我们一
06-02 00:23:08
回购股数占目前总股本0 04%,平均成交价为51 67元 股(最高成交价为54 42元 股,最低成交价为48 12元 股)。
06-01 23:03:09
6月1日,在这个充满童趣的日子里,上海婚姻登记也开始试行“跨省通办”。双方均非上海户籍的婚姻登记当...
06-01 22:59:20
1、《推广应用绳索取心新技术》是由内蒙古地质矿产局113探矿工程队担任第一完成单位。2、由闻令、韩启臣、
06-01 21:26:58
人民网北京6月1日电(记者申佳平)据工业和信息化部官网消息,近日,《区块链和分布式记账技术参考架构》(
06-01 21:12:11
“带押过户”,山西十余家银行可办理,交易,房地产,山西省,带押过户,住宅类不动产
06-01 20:43:09
随着互联网技术的飞速发展,越来越多的企业和组织意识到了数字化宣传的重要性。相比于传统的宣传方式,电子
06-01 19:26:33
当很多人时间充裕,手上有些闲钱却不知道该做什么时,这时候会想要去创业,那去做什么呢?哪里有商机呢?那在
06-01 18:57:55
今日(6月1日),《死亡搁浅2》制作人小岛秀夫发文谈及游戏选角以及幕后工作相关话题。
06-01 18:18:06
想必现在有很多小伙伴对于冠词的用法方面的知识都比较想要了解,那么今天小好小编就为大家收集了一些关于冠
06-01 16:57:34
音频解说一、贵州省黔南布依族苗族自治州独山县天气预报1、独山县气象台6月1日11时55分继续发布雷电黄色预
06-01 16:20:15
【友财网讯】-最新的MarketsLivePulse调查显示,随着美国经济衰退的风险推动投资者投资于那些在不景气时期
06-01 15:50:40
央视网消息(新闻联播):当前,全国小麦正陆续进入集中收获期。农业农村部小麦机收进度显示,全国已收获冬
06-01 15:04:44
1、下联:吊乌,即屌鸟,前面屌无尸。2、鸟无“、”。本文就为大家分享到这里,希望小伙伴们会喜欢。
06-01 13:46:36
中新网宁德5月31日电(雷美容朱雪明)在福建省宁德福鼎市海域,福建闽威实业股份有限公司的两艘电动船舶正通
06-01 13:15:19
周易如何起卦,周易铜钱起卦的方法很多人还不知道,现在让我们一起来看看吧!1、《周易》中最常见、最实用
06-01 12:25:54
今天(6月1日),我国首个百万吨级海上碳封存示范工程——恩平15-1油田碳封存示范工程在珠江口海域正式...
06-01 12:26:51
1、如果要评判减肥期间的水果之王,番茄一定当之无愧。番茄是一种低热量的果蔬,对减肥也很有好处。它是非
06-01 11:07:08
牛市早报|中美审计合作进展顺利,马斯克现身上海超级工厂,审计,陶琳,特斯拉,金壮龙,上海市,超级工厂,牛市
06-01 10:49:50
格隆汇6月1日丨青岛银行(002948)(002948 SZ)接受机构调研,就“贵行2023年一季度净利差、净息差表现如何?
06-01 09:29:14
1??灵芝红枣瘦肉汤:准备好食材,肉切块焯水倒入砂锅中,加入红枣,姜片,灵芝,玉竹煲好即可。汤鲜味美,
06-01 08:42:08
1、都市少帅之楚氏王朝朋友可以使用360浏览器搜索一下就可以了。本文到此分享完毕,希望对大家有所帮助。
06-01 08:08:30
1、指的是机油的粘稠度5W指的是适应的最低温度(-30),后边的30、40指的是适应的环境温度。2、具体是这样
06-01 07:06:16
1、新生血管性青光眼(NVG),是患眼中虹膜上存在着新生血管。2、直到进入20世纪,关于NVG的知识才建立在完
06-01 06:03:24
1、是谁家的姑娘这句话是歌曲《桥边姑娘》里面的一句歌词,是歌手海伦作词、作曲并演唱的一首歌。2、2、歌词
06-01 03:58:05
5月26日一大早,西充县太平镇谢侯庙村的几户村民接连到派出所反映,自家饲养的鸡鸭被盗了。接到报警后,太
06-01 02:05:32
2023上海海峡两岸青年创业大赛于5月30日正式拉开帷幕,面向海内外发起参赛项目征集令!本届大赛以 "携手奋
06-01 00:34:06
现在大家使用手机的频率越来越频繁,手机也为我们提供了许多的便利,也来说一下这个了解一下荣耀x10是否支
05-31 23:31:41
6月一批新规正式施行21个省份婚姻登记可“跨省通办”扩大私家车新车上牌免查验试点加强个人信息跨境安全...
05-31 22:50:12
1、歌名:红豆演唱:王菲作词:林夕作曲:柳重言还没好好地感受雪花绽放的气候我们一起颤抖会更明白什么是
05-31 21:56:33
港股“跌跌不休”,恒生指数于5月最后一个交易日再跌361 51点,报收18234 27点。恒生指数由今年高位累跌两
05-31 21:08:20
1、愿爱洋溢在你甜蜜的生活中,让以后的每一个日子,都像今日这般辉煌喜悦!2、愿我的弟兄如同以撒,诚实勇
05-31 20:25:55
记者从第二十四届中国(昆明)国际汽车博览会(以下简称:昆明国际车展)新闻发布会上了解到,本届昆明国际
05-31 19:41:17
时尚活动的红毯向来是女明星争奇斗艳的舞台,穿的礼服是不是高定、状态妆容如何都是大家津津乐道的话题。女
05-31 18:43:39
大国科学家丨守护“耕地中的大熊猫”他给土壤“把脉会诊”今天(5月30日),是第七个全国科技工作者日,我...
05-31 15:19:37
文|LULU2023年3月20日,韩星李多海在微博公布婚讯。她与男友崔东旭交往八年,这段恋爱长跑能够开花结果,原
05-31 14:30:17
提前预订好飞往丹佛机票的热火队终于如愿以偿。北京时间5月30日上午结束的NBA季后赛东部决赛第七场比赛中,
05-31 13:50:22
想必现在有很多小伙伴对于谢霆锋和黄飞差几岁方面的知识都比较想要了解,那么今天小好小编就为大家收集了一
05-31 13:30:58
近年来,龙里县不断创新人才体制机制,打好人才“引育用留”组合拳,进一步加强人才引育力度,拓宽人才...
05-31 13:19:03
点蓝色字关注“机器学习算法工程师”设为星标,干货直达!自从DALL·E2之后,在图像生成方面扩散模型替...
05-31 12:46:30
模拟试题新个体经济是数字经济大潮下快速崛起的新业态经济,在激活消费市场、带动扩大就业上发挥了重要作用
05-31 12:41:56
王曼昱深夜回应!被传遭不公对待后,透露李隼马琳世乒赛时咋对她,李隼,马琳,国乒,陈梦,王曼昱,乒乓球比赛,
05-31 12:05:17
“最近黄金价格太疯狂了,嫁妆买不起,今年先相亲,不着急结婚。等黄金降价了再说。”
05-31 12:05:18
中国物流与采购联合会、中国物流信息中心5月30日公布的数据显示,前4月全国社会物流总额107 6万亿元,同比
05-31 11:13:14
5月30日上午,兰州高新区召开重大事故隐患专项排查整治2023行动动员部署会议,传达贯彻全国安全防范工作视
05-31 10:53:04
【财华社讯】今日早盘,截至09:45,MLOps概念板块拉升。绿盟科技(300369 CN)涨10 21%报12 85元,XD传音控(688036 CN)涨4
05-31 10:31:37
根据市场公开信息及5月30日披露的机构调研信息民生加银基金近期对4家上市公司进行了调研相关名单如下1江阴
05-31 10:08:02
来为大家解答以上的问题。属猪的和什么属相不合,属猪的和什么属相最配这个很多人还不知道,现在让我们一起
2023-06-02
6月1日,交银成长混合A最新单位净值为4 8964元,累计净值为6 0054元,较前一交易日上涨0 06%。历史数据显示
2023-06-02
起拍价超130亿,世茂“心头肉”深圳600米地标项目被拍卖界面新闻记者|杨冰柯界面新闻编辑|在京东拍卖上...
2023-06-02
今天小编肥嘟来为大家解答以上的问题。圣魔之光石修改器,圣魔之光石相信很多小伙伴还不知道,现在让我们一
2023-06-02
回购股数占目前总股本0 04%,平均成交价为51 67元 股(最高成交价为54 42元 股,最低成交价为48 12元 股)。
2023-06-01
上市四年,新兴装备(002933 SZ)沦落至易主地步。12月20日,新兴装备仍然处于停牌状态。自从19日起,已...
7月7日,中国消费者协会、中国保健协会化妆品发展工作委员会联合发布暑期消费指示,保障儿童用妆安全。...
概念特点1、 定义:纤维是天然或人工合成的细丝状物质,纺织纤维则是指用来纺织布的纤维。2、 纺织纤...
中新网西宁11月21日电 题:青海水润高原:从“大动脉”到“毛细血管”的精准管理 作者 谈林明...
中新网西宁11月21日电 (记者 张添福)青海省卫生健康委员会21日消息,该省第3例本土确诊病例经过20...
上市公司频获机构调研 接待机构来访量为20.89万家
Copyright © 2015-2023 今日纤维网版权所有 备案号:沪ICP备2023005074号-40 联系邮箱:5 85 59 73 @qq.com