你的位置：皇冠足球 > 皇冠体育 >

亚新娱乐城2020欧洲杯分组积分情况_模拟精度擢升65%，考研时候减少3倍及以上，DeepMind用强化学习限制核聚变取得发扬

发布日期：2024-04-14 01:32 点击次数：130

亚新娱乐城2020欧洲杯分组积分情况_

将ScienceAI设为星标

第一时候掌捏

极新的 AI for Science 资讯

剪辑 | 紫罗

旧年，DeepMind 和瑞士洛桑联邦理工学院（EPFL）合营，，大获告捷。DeepMind 让「东谈主造太阳」上前一大步。

RL 在等离子体磁限制领域中透清楚了精好意思的恶果。但是，与传统的磁不休反映限制瓜代比拟，仍然存在显赫的纰谬。

近日，DeepMind 和 EPFL 的究诘团队，管束了 RL 瓜代的主要纰谬；对所需的等离子体特质收场更高的限制精度，减少稳态过错，减少学习新任务所需的时候。

究诘东谈主员在此前究诘的基础上，对代理架构和考研经由的算法进行了更正。

将模拟中的等离子体局面精度擢升了 65%，大幅减少了等离子体电流的永久偏差，况兼还将学习新任务所需的考研时候减少了 3 倍及以上。

皇冠体育

皇冠怎么注册

在 TCV 托卡马克上使用升级后的基于 RL 的限制器进行了新的实验，考据了所收场的模拟收尾，并为使用 RL 瓜代成例收场精准放电指明了谈路。

推特网友直呼：「这无疑是离地球上的核聚变和为每个东谈主提供丰富动力更近了一步。」

还有网友示意：「当 AI 际遇物理时，遗迹就会发生！我以为这才是果然能带来窜改的 AI 诈欺类型。」

该究诘以「Towards practical reinforcement learning for tokamak magnetic control」为题，发布在 arXiv 预印平台上。

论文链接：https://arxiv.org/abs/2307.11546

究诘布景

反映限制关于托卡马克安设的运行至关迫切。

传统上，平等离子体的精准限制是通过等离子体电流、局面和位置的一语气闭环来收场的。

皇冠分红

在这种规范中，限制瞎想者事前打算一组前馈线圈电流，然后为每个受控量构建反映回路。这些量（举例等离子体局面和位置）无法径直测量，必须通过磁测量障碍及时预见。迥殊是，必须使用均衡重建代码及时预见等离子体的局面。此类系统已告捷老成了大范围的放电，但瞎想可能具有挑战性且耗时，迥殊是关于新的等离子体场景。

RL 已成为构建及时限制系统的替代规范。强化学习越来越多地用于等离子体限制。但是，RL 瓜代有许多纰谬，放置了它们行为托卡马克等离子体限制的实用管束有筹划的诈欺。

管束 RL 的三个挑战

在该究诘中，究诘东谈主员将管束并启动缓解其中三个挑战：难以指定一个既可学习又能引发精准限制器性能的标量奖励函数；追踪过错中的稳态偏差；考研时候长。

安全可靠

当先，在奖励塑造（reward shaping）中，究诘东谈主员提议了一种奖励塑造瓜代，行为擢升限制精度的直不雅而浅薄的管束有筹划。

图示：四种不同考研树立的性能收尾。（开始：论文）

然后，通过向代理提供明确的失实信号和集成失实信号来管束积分器反映中的稳态过错问题。这削弱了经典限制器和强化学习限制器之间的精度差距。

下图为使用和不使用积分器反映考研的战略的模拟等离子体电流过错轨迹，每种情况进行了 3 次随即运行。不错看出，积分器反映大大裁减了等离子体电流偏置，正如预期的那样。

图示：shape_70166 任务在 1 s 限制窗口内模拟等离子体电流和局面的过错。（开始：论文）

终末，在 Episode Chunking 和迁徙学习中，管束了生成限制战略所需的考研时候问题。

皇冠客服飞机：@seo3687

图示：诈欺于 Showcase_xpoint 任务的 Episode Chunking 收尾。（开始：论文）

究诘透露，将 chunking 时期诈欺于具有两个/三个 chunk 的 Showcase_xpoint 任务可显赫加速考研时候。

皇冠备用网址

大家皆知，RL 算法具有高打算本钱和低样本遵守，这一问题在托卡马克中加重，即使是低保真等离子体模拟器的打算本钱也比传统强化学习诈欺中使用的模拟器要高得多。究诘东谈主员通过对复杂的放电使用多启动瓜代来管束这个问题，皇冠分红并透露新战略的考研时候大幅减少。

此外，究诘标明，当感意思意思的新场景接近之前的场景时，使用现存限制战略进行热启动考研不错是一种格外灵验的用具。

聚拢起来，这些时期不错显赫减少考研时候并擢升准确性，从而在使强化学习成为等离子体限制的成例可用时期方面取得要紧发扬。

TCV 托卡马克放电实验

接下来，究诘东谈主员在 TCV 托卡马克专用放电上测试了上述几个模拟增强功能。

当先使用奖励塑造瓜代来测试经过考研以减少 shape_70166 老成任务中 LCFS 过错的限制战略。

图示：shape_70166 老成任务的 LCFS 局面过错战略比较。（开始：论文）

宫斗到最后还活着的甄嬛，有一位智慧的母亲。

总体而言，模拟性能的更恰是成心的，更新后的基础法度的准确性高于之前的基准。但是，优化模拟性能是有限的。事实上，关于这种情况，进一步减少仿真 RMS 过错似乎莫得什么克己，相背，当今应该专注于管束仿真与果然的差距。

接下来，比较奖励塑造对更复杂的「snowflake」树立的影响。

下图透露了告捷限制等离子体的窗口时代 X 点追踪的精度。不错看到，仿真中 X 点精度的显赫更正确乎导致硬件上 X 点精度的更正。与之前的 TCV 实验比拟，奖励塑造的更正导致限制窗口上的 RMSE 追踪距离减少了 59.7%。其他筹划（举例 LCFS）论说准确度略有下落，这是预期的，如奖励塑造中所述。在这里，确乎看到了奖励塑造的显赫克己，尽管仍然需要勤勉弥合模拟与果然的差距，以保持高精度的无缺 snowflake。

图示：Snowflake 树立的 X 点追踪战略比较。（开始：论文）

亚新娱乐城

终末，考据使用 Episode Chunking 来减少考研时候。对使用 3 个块考研的展示树立进行了实验。该实验的重建均衡的时候轨迹如下图所示。

究诘发试验验按预期进行，莫得因 episode chunking 而出现明显的伪影。这标明这种考研加速瓜代不会酿成质料亏蚀。

图示：使用基于磁性测量的 LIUQE 重建射击后 TCV 均衡的演变，用于展示 TCV shot (77620)。（开始：论文）

改日究诘

诚然以上究诘收尾显赫减少了强化学习限制器的放置，但仍有很大的更正空间。

瞻望改日，不仅需要擢升模拟性能，还需要在硬件上匹配骨子等离子放电时的性能水平。

更正硬件传输有许多有前途的主义，但非论哪种情况，鉴于数据匮乏，这将是具有挑战性的。

相似，有许多契机不错链接减少考研时候条款。

2020欧洲杯分组积分情况

总的来说，强化学习仍然是等离子体限制的一个有诱骗力的禁受。该究诘还是启动缓解磁限制诈欺中的一些剩余破裂，况兼有许多有但愿的主义不错链接增强。

中国注册足球球员

参考内容：https://twitter.com/GoogleDeepMind/status/1684217852289601541

https://www.nature.com/articles/s41586-021-04301-9

据说一家虚拟的赌场在皇冠体育上正式开业，吸引了大量的赌徒前来参加，甚至有人花费了巨额资产来购买VIP会员资格。

东谈主工智能×[ 生物神经科学数学物理化学材料 ]

「ScienceAI」存眷东谈主工智能与其他前沿时期及基础科学的交叉究诘与交融发展。

点击阅读原文，加入专科从业者社区，以赢得更多疏通合营契机及办事。

亚新娱乐城2020欧洲杯分组积分情况_模拟精度擢升65%，考研时候减少3倍及以上，DeepMind用强化学习限制核聚变取得发扬

皇冠体育

热点资讯

相关资讯