Transformer入门-轨迹预测实例解析_transformer轨迹预测-程序员宅基地

最近动手玩了一下Transformer，找到了一个很适合练手的小例子，基于https://github.com/cxl-ustb/AISTransforemr的代码做了一些修改（感谢原作者），改进后的代码地址：GitHub - BITcsy/AISTransformer: 利用transformer进行船舶轨迹预测。

1. 任务简介：

该代码功能是处理船只的轨迹、状态预测（经度，维度，速度，朝向）。每条数据涵盖11个点，输入是完整的11个点（Encoder输入前10个点，Decoder输入后10个点，模型整体输出后10个点），如下图，训练数据140条，测试数据160条。整个任务本身并没有什么意义（已知轨迹再输出部分轨迹），并没有做什么预测任务。不过整体例子简单明了，调试难度小，比较适合做入门练手的例子。

2. 模型结构：

原作者实现了比较完整的Transformer结构，当然对于轨迹预测类任务很多结构是冗余的，因为Decoder那部分输入在语音识别上可能有用，但是在轨迹预测上应该没有必要，不过可以学习一下。

（1）Transformer参考资料

这网上很多，这里引用几个个人觉得比较好的：

Transformer: NLP里的变形金刚 --- 详述 - 知乎

多图详解attention和mask。从循环神经网络、transformer到GPT2，我悟了 - 知乎

（2）本文模型结构及主要变量的对应图

费劲把这个代码里的整体数据流和主要的模型结构整理了下，可以看出来和最典型的Transformer的结构是一样的。其中标颜色的几个模块单独再打开来看吧，左下角的几个变量和word embedding及positional encoding相关，也单独来看。

（3）word embedding & positional encoding

word embedding参考资料：词嵌入向量（Word Embedding）的原理和生成方法 - 程序员大本营

nn.embedding: PyTorch中的nn.Embedding - 知乎

positional encoding: positional encoding位置编码详解：绝对位置与相对位置编码对比_夕小瑶的博客-程序员宅基地

Positional Encoding的原理和计算 - 知乎有比较形象的图形解释。

总之，word embedding想要对序列化的输入（比如一句话，或者这里的一条轨迹）进行降维表达，把input映射成embedding。疑点1：nn.embedding这个模块貌似比较适合NLP任务这种比较稀疏的embedding表达，做轨迹类任务不一定合适。那代码中的n_src_vocab, n_trg_vocab应该就是对应于字典的长度，d_word_src, d_model应该就是隐层要用多少维去表达这些词。疑点2：按道理d_word_src应该小于n_src_vocab才对，但是代码里分别设置了512和500。

positional encoding的作用是为了解决attention这种并行计算的结构丢失了RNN、LSTM这种具有先后顺序的网络特性，因为NLP或者轨迹预测类任务还是需要看特征的时序上的改变的，因此用positional encoding来区分不同的位置，结合其公式应该比较容易理解。代码中position设置为200，按道理这个数设置为大于最大序列长度的数就可以了（本代码最大序列长度就是10）。

word embedding和positional encoding这块的整体计算原理大概如下图，在这个代码里，d_word和d_model其实是一个意思，但是如果是其他场景，d_model的含义应该更广，毕竟是dimension of the model。

（4）注意力部分代码详解

class MultiHeadAttention(nn.Module):
    ''' Multi-Head Attention module '''

    def __init__(self, n_head, d_model, d_k, d_v, dropout=0.1):
        super().__init__()

        self.n_head = n_head
        self.d_k = d_k
        self.d_v = d_v

        self.w_qs = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_ks = nn.Linear(d_model, n_head * d_k, bias=False)
        self.w_vs = nn.Linear(d_model, n_head * d_v, bias=False)
        self.fc = nn.Linear(n_head * d_v, d_model, bias=False)

        self.attention = ScaledDotProductAttention(temperature=d_k ** 0.5)

        self.dropout = nn.Dropout(dropout)
        self.layer_norm = nn.LayerNorm(d_model, eps=1e-6)


    def forward(self, q, k, v, mask=None):

        d_k, d_v, n_head = self.d_k, self.d_v, self.n_head
        sz_b, len_q, len_k, len_v = q.size(0), q.size(1), k.size(1), v.size(1)

        residual = q
        # Pass through the pre-attention projection: b x lq x (n*dv)
        # Separate different heads: b x lq x n x dv
        q = self.w_qs(q).view(sz_b, len_q, n_head, d_k)
        k = self.w_ks(k).view(sz_b, len_k, n_head, d_k)
        v = self.w_vs(v).view(sz_b, len_v, n_head, d_v)

        # Transpose for attention dot product: b x n x lq x dv
        q, k, v = q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2)

        if mask is not None:
            mask = mask.unsqueeze(1)   # For head axis broadcasting.

        q, attn = self.attention(q, k, v, mask=mask)

        # Transpose to move the head dimension back: b x lq x n x dv
        # Combine the last two dimensions to concatenate all the heads together: b x lq x (n*dv)
        q = q.transpose(1, 2).contiguous().view(sz_b, len_q, -1)
        q = self.dropout(self.fc(q))
        q += residual

        q = self.layer_norm(q)

        return q, attn

根据上面的代码，画了一下attention详细的计算过程，如下图：

几个需要注意的地方

（1）attention的mask是可选的，在时序任务里是需要的，因为时序是有因果性的。

（2）Q*K才是attention，它的维度是Batch*heads*lens*lens，也就意味着是有明确物理意义的，只和最初的序列长度有关系，可以可视化出来做分析用。

（3）ScaledDotProduct算完后，最后一维是由dv决定的，想回到q的维度，还需要做linear的操作。

（4）contiguous & view：代码里的操作实际就是把dv数据按照heads concate到了一起，具体为何需要使用contiguous的原因PyTorch中的contiguous - 知乎，其实可以用reshape来代替 PyTorch：view() 与 reshape() 区别详解_reshape和view_地球被支点撬走啦的博客-程序员宅基地。

（5）residual：类似于Resnet的设计。

3. 增加的功能：

（1）DataLoader：原代码直接用的pickle来的raw data，为了更好的进行训练控制，我改写成了Dataloader的形式，实测同参数训练要比原来慢1/10到1/5左右。

（2）tqdm：给训练加了个进度条，方便监测比较细节的训练进度。

（3）tensorboard：方便调试（tensorboardX和tensorboard都要安装，tensorboard --logdir XXX）。

（4）模型断点训练：因为自己电脑是10年前的机器，性能很差，所以增加了一个断点续训的功能，避免每次都要从头训练。这里是用checkpoint形式写的保存细节信息。

（5）pt2onxx.py里面用netron可以查看网络结构，略改了一下，可以实现，不过感觉netron显示的太细节，比较难看出最主要的网络设计。

4. 调试笔记

（1）learning rate & 模型大小：原代码直接拿过来可以训，但是收敛不了，loss一直是好几千。分析出来2个主要问题：

i. 原learning rate做了特殊设计，但是用tessorboard看，原learning rate是随训练次数上升的，很令人困惑，所以改写逐步下降的形式。

ii. 改了learning rate还是收敛不了的，分析到训练数据只有140条，但是又搞了个这么大的模型，可能根本喂不饱网络，所以直接把attention部分的大小改小了，multiheadattention的head数8->2，attention layer数6->1，这样改完网络收敛了，至少在训练集上可以过拟合，loss到1左右。

（2）模型保存

关于模型保存，有一类需求，就是本地需要load一个已有的模型pth文件，然后接着训练调试。有一个很奇怪的地方，当我load一个已存的pth文件后，模型做forward的时候，凭什么知道找我源码里同名model的forward函数？我尝试改了一下模型的类名（把Transformer改成了Transformers），果然test的时候就报错了，所以在load模型后，会自动找同名模型的实现：

return super().find_class(mod_name, name)
AttributeError: Can't get attribute 'Transformer' on <module 'transformer.Models' from '/home/XXX/AISTransformer/AISTransformer/transformer/Models.py'>

（3）训练集表现 & 关于model.eval的问题

在测试的过程中发现了一个很奇怪的现象，就是如果我把训好的模型save后，再重新load上来，用训练集做测试，loss差距很大（训练的loss是1.x，但是重新load的模型在同数据集下loss是1000+），做了几个尝试

droptout & 随机种子：有些资料显示，因为用了dropout，但是如果随机种子没有指定的话，训练和测试阶段如果随机数不同，可能会导致差距。https://blog.csdn.net/weixin_38314865/article/details/103019097 手动指定随机种子后，问题未解决，同数据集test和train还是差距很大。
model.eval()：还有些资料说是model.eval()位置不对，感觉应该不是，直接去掉model.eval()的代码后，这个问题就没有了（原代码中也没有model.eval()函数，但是为什么？目前解释不了，todo。是不是和数据归一化有关？把数据里的归一化干掉了，会有很不好的影响吗？）pytorch模型加载跑测试集和训练过程中跑测试集结果不一致的问题？_pytorch加载模型结果不对_心之所向521的博客-程序员宅基地为什么使用model.eval后的模型在训练集上的效果也很差？ - 知乎探究pytorch model.eval()测试效果远差于model.train()_pytorch model.val()和model.train()结果差距太大_Coding-Prince的博客-程序员宅基地

（4）attention & 测试集表现

在训练集上loss约为1，在测试集上测试loss是2k-3k，泛化能力很差，当然数据太少是一个比较显著的问题。为了在小数据集上提升模型泛化能力，可以通过attention来加入一些先验信息引导模型训练。可能的尝试：

分析attention：这个轨迹预测的任务，因为直接拷贝trg_seq就可以了，所以对于decoder部分的self attention应该有非常明显的对应位的attention的结果，（encoder的self att和deocder的cross att不一定有这种结果，因为可能的关系已经比较间接了）
attention mask：用mask的方式约束训练
attention loss（guide attention）：用loss的方式引导训练

（5）Shuffle的问题：因为发现测试集上表现不好，考虑到原代码训练时并没有shuffle，可能会让网络学到一些关于顺序的东西（https://zhuanlan.zhihu.com/p/57108650），所以在引入Dataloader，加了下shuffle，但是训出来感觉测试集上差别不大。

（6）结构对比：做这个简单的任务用这么复杂的模型可能往往是难以达到较好的效果的，还有用了例如word embedding这样的结构，看上去比较奇怪。用MLP简单实现了下这个网络。

直接实现了一个4层的MLP：各层维度4,25,50,25,4，输入只用transformer的encoder部分的10*4的输入，因为网络比较小，训练速度会提高很多，30000epochs 2min训练完，但是训练是比较难收敛的，30000epochs的train loss仍然在550+，但是test的error也是550左右。在此感谢@追梦5号的建议，预测轨迹的时序信息才是核心信息，所以各层维度调整为10,25,50,25,10，效果要比之前好。
如果和transformer一样，把11个坐标点分成两段输入，那train loss直接0.01（当然这个任务也没什么意义），test error 0.03。
所以几个个模型结构对比下，在本例子给的任务下，如果MLP模型和transformer同样的输入，小MLP网络的收敛性和泛化性要比transformer好很多，合理。

	输入	epochs	训练时长	train loss	test loss
transformer	1. traj[:,:-1,:] 2. traj[:,1:,:]	8000	>1h@cpu（11min@GTX1080）	1.0+	2k+
MLP	traj[:,-1:,:]	30000	2min	550+	550+
MLP	traj[:,:,-1:]	30000	2min	20+	20+
MLP	1. traj[:,:-1,:] 2. traj[:,1:,:]	30000	2min	0.01	0.03

本文链接：https://blog.csdn.net/BIT_csy/article/details/129971757

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

874计算机科学基础综合,2018年四川大学874计算机科学专业基础综合之计算机操作系统考研仿真模拟五套题...-程序员宅基地

文章浏览阅读1.1k次。一、选择题1．串行接口是指( )。A. 接口与系统总线之间串行传送，接口与I/0设备之间串行传送B. 接口与系统总线之间串行传送，接口与1/0设备之间并行传送C. 接口与系统总线之间并行传送，接口与I/0设备之间串行传送D. 接口与系统总线之间并行传送，接口与I/0设备之间并行传送【答案】C2．最容易造成很多小碎片的可变分区分配算法是( )。A. 首次适应算法B. 最佳适应算法..._874 计算机科学专业基础综合题型

XShell连接失败：Could not connect to '192.168.191.128' (port 22): Connection failed._could not connect to '192.168.17.128' (port 22): c-程序员宅基地

文章浏览阅读9.7k次，点赞5次，收藏15次。连接xshell失败，报错如下图，怎么解决呢。1、通过ps -e|grep ssh命令判断是否安装ssh服务2、如果只有客户端安装了，服务器没有安装，则需要安装ssh服务器，命令：apt-get install openssh-server3、安装成功之后，启动ssh服务，命令：/etc/init.d/ssh start4、通过ps -e|grep ssh命令再次判断是否正确启动..._could not connect to '192.168.17.128' (port 22): connection failed.

杰理之KeyPage【篇】_杰理空白芯片烧入key文件-程序员宅基地

文章浏览阅读209次。00000000_杰理空白芯片烧入key文件

一文读懂ChatGPT，满足你对chatGPT的好奇心_引发对chatgpt兴趣的表述-程序员宅基地

文章浏览阅读475次。2023年初，“ChatGPT”一词在社交媒体上引起了热议，人们纷纷探讨它的本质和对社会的影响。就连央视新闻也对此进行了报道。作为新传专业的前沿人士，我们当然不能忽视这一热点。本文将全面解析ChatGPT，打开“技术黑箱”，探讨它对新闻与传播领域的影响。_引发对chatgpt兴趣的表述

中文字符频率统计python_用Python数据分析方法进行汉字声调频率统计分析-程序员宅基地

文章浏览阅读259次。用Python数据分析方法进行汉字声调频率统计分析木合塔尔·沙地克;布合力齐姑丽·瓦斯力【期刊名称】《电脑知识与技术》【年(卷),期】2017(013)035【摘要】该文首先用Python程序,自动获取基本汉字字符集中的所有汉字,然后用汉字拼音转换工具pypinyin把所有汉字转换成拼音,最后根据所有汉字的拼音声调,统计并可视化拼音声调的占比.【总页数】2页(13-14)【关键词】数据分析;数据可..._汉字声调频率统计

linux输出信息调试信息重定向-程序员宅基地

文章浏览阅读64次。最近在做一个android系统移植的项目，所使用的开发板com1是调试串口，就是说会有uboot和kernel的调试信息打印在com1上（ttySAC0）。因为后期要使用ttySAC0作为上层应用通信串口，所以要把所有的调试信息都给去掉。参考网上的几篇文章，自己做了如下修改，终于把调试信息重定向到ttySAC1上了，在这做下记录。参考文章有：http://blog.csdn.net/longt..._嵌入式rootfs 输出重定向到/dev/console

随便推点

uniapp 引入iconfont图标库彩色symbol教程_uniapp symbol图标-程序员宅基地

文章浏览阅读1.2k次，点赞4次，收藏12次。1，先去iconfont登录，然后选择图标加入购物车 2，点击又上角车车添加进入项目我的项目中就会出现选择的图标 3，点击下载至本地，然后解压文件夹，然后切换到uniapp打开终端运行注：要保证自己电脑有安装node(没有安装node可以去官网下载Node.js 中文网)npm i -g iconfont-tools（mac用户失败的话在前面加个sudo，password就是自己的开机密码吧）4,终端切换到上面解压的文件夹里面，运行iconfont-tools 这些可以默认也可以自己命名（我是自己命名的_uniapp symbol图标

C、C++ 对于char和char[]的理解_c++ char-程序员宅基地

文章浏览阅读1.2w次，点赞25次，收藏192次。char*和char[]都是指针，指向第一个字符所在的地址，但char*是常量的指针，char[]是指针的常量_c++ char*

Sublime Text2 使用教程-程序员宅基地

文章浏览阅读930次。代码编辑器或者文本编辑器，对于程序员来说，就像剑与战士一样，谁都想拥有一把可以随心驾驭且锋利无比的宝剑，而每一位程序员，同样会去追求最适合自己的强大、灵活的编辑器，相信你和我一样，都不会例外。我用过的编辑器不少，真不少～但却没有哪款让我特别心仪的，直到我遇到了 Sublime Text 2 ！如果说“神器”是我能给予一款软件最高的评价，那么我很乐意为它封上这么一个称号。它小巧绿色且速度非

对10个整数进行按照从小到大的顺序排序用选择法和冒泡排序_对十个数进行大小排序java-程序员宅基地

文章浏览阅读4.1k次。一、选择法这是每一个数出来跟后面所有的进行比较。2.冒泡排序法，是两个相邻的进行对比。_对十个数进行大小排序java

物联网开发笔记——使用网络调试助手连接阿里云物联网平台（基于MQTT协议）_网络调试助手连接阿里云连不上-程序员宅基地

文章浏览阅读2.9k次。物联网开发笔记——使用网络调试助手连接阿里云物联网平台（基于MQTT协议）其实作者本意是使用4G模块来实现与阿里云物联网平台的连接过程，但是由于自己用的4G模块自身的限制，使得阿里云连接总是无法建立，已经联系客服返厂检修了，于是我在此使用网络调试助手来演示如何与阿里云物联网平台建立连接。一.准备工作1.MQTT协议说明文档（3.1.1版本）2.网络调试助手（可使用域名与服务器建立连接）PS：与阿里云建立连解释，最好使用域名来完成连接过程，而不是使用IP号。这里我跟阿里云的售后工程师咨询过，表示对应_网络调试助手连接阿里云连不上

＜＜＜零基础C++速成＞＞＞_无c语言基础c++期末速成-程序员宅基地

文章浏览阅读544次，点赞5次，收藏6次。运算符与表达式任何高级程序设计语言中，表达式都是最基本的组成部分，可以说C++中的大部分语句都是由表达式构成的。_无c语言基础c++期末速成