-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathTODO
70 lines (46 loc) · 1.62 KB
/
TODO
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
目前的问题:过拟合,轨迹只有绕圈
可能的原因:
PPO生成的经验探索性不足,直走的经验太多
Transformer不适合这个问题:
Encoder部分没有起到效果
PE干扰结果
解决办法:
更换模型,重新考虑轨迹的生成方法
使用SAC生成经验
使用DMP表示轨迹,直接使用DT的模型
DMP的goal也需要DT的预测
检查代码:path生产, GPT模型复现
调整网络参数,尝试增加层数,降低输出维度
考虑以下是否要在path里面添加方向信息
现在避障能力也有了,但是比较弱:
添加Return-to-go估计网络
做微调
Return-to-go动态调整
DWA-pursuit有待优化
改sensor为laser, 重新构建经验生成的部分!!!
微调
放弃所有动态场景,仅考虑静态场景
修改path和states词嵌入的过程,将其嵌入为多个tokens
经验生成场景多添加障碍物,换成PRM+DWA
关于训练时mask部分还有一些问题需要思考
修改后的GPT到达率有0.85,下一步更改经验生成场景和策略
模型、轨迹跟随调参
经验生成场景改为瞬间转向,添加障碍物!!!
放弃动态场景:
states去掉ped_map
position_ids改为GPT默认
warmup参数更改
网络层数、多头调整
tokens维度调整
path改为0.2x3
经验生成添加障碍物?
DWA调整
调参思路:
dropout 下调
nhead 下调
nlayer 上调
更改训练时可见的tokens,去除path
warmup 下调
对laser信息做拆分,形成多个tokens,降低tokens的维度。
适当调整seq的长度
数据集使用纯DWA? 增强reward对输出的区分度?