LSTM的备胎，用卷积处理时间序列——TCN与因果卷积（理论+Python实践）_tcn公式-程序员宅基地

技术标签：卷积 python 网络深度学习人工智能 PyTorch 从零学习深度网络

什么是TCN

TCN全称Temporal Convolutional Network，时序卷积网络，是在2018年提出的一个卷积模型，但是可以用来处理时间序列。

卷积如何处理时间序列

时间序列预测，最容易想到的就是那个马尔可夫模型：
$P(y_k|x_k,x_{k-1},...,x_1)$
就是计算某一个时刻的输出值，已知条件就是这个时刻之前的所有特征值。上面公式中，P表示概率，可以不用管这个， $y_k$ 表示k时刻的输出值（标签）， $x_k$ 表示k时刻的特征值。

如果使用LSTM或者是GRU这样的RNN模型，自然是可以处理这样的时间序列模型的，毕竟RNN生来就是为了这个的。

但是这个时间序列模型，宏观上思考的话，其实就是对这个这个时刻之前的数据做某个操作，然后生成一个标签，回想一下在卷积在图像中的操作，其实有异曲同工。（这里不理解也无妨，因为我之前搞了一段时间图像处理，所以对卷积相对熟悉一点）。

一维卷积

假设有一个时间序列，总共有五个时间点，比方说股市，有一个股票的价格波动：[10,13,12,14,15]:
在这里插入图片描述
TCN中，或者说因果卷积中，使用的卷积核大小都是2，我也不知道为啥不用更大的卷积核，看论文中好像没有说明这个，如果有小伙伴知道原因或者有猜想，可以下方评论处一起讨论讨论。

卷积核是2，那么可想而知，对上面5个数据做一个卷积核为2的卷积是什么样子的：
在这里插入图片描述
五个数据经过一次卷积，可以变成四个数据，但是每一个卷积后的数据都是基于两个原始数据得到的，所以说，目前卷积的视野域是2。

可以看到是输入是5个数据，但是经过卷积，变成4个数据了，在图像中有一个概念是通过padding来保证卷积前后特征图尺寸不变，所以在时间序列中，依然使用padding来保证尺寸不变：
在这里插入图片描述
padding是左右两头都增加0，如果padding是1的话，就是上图的效果，其实会产生6个新数据，但是秉着：“输入输出尺寸相同”和“我们不能知道未来的数据”，所以最后边那个未来的padding，就省略掉了，之后再代码中会体现出来。

总之，现在我们大概能理解，对时间序列卷积的大致流程了，也就是对一维数据卷积的过程（图像卷积算是二维）。

下面看如何使用Pytorch来实现一维卷积：

net = nn.Conv1d(in_channels=1,out_channels=1,kernel_size=2,stride=1,padding=1,dilation=1)

其中的参数跟二维卷积非常类似，也是有通道的概念的。这个好好品一下，一维数据的通道跟图像的通道一样，是根据不同的卷积核从相同的输入中抽取出来不同的特征。kernel_size=2之前也说过了，padding=1也没问题，不过这个公式中假如输入5个数据+padding=1，会得到6个数据，最后一个数据被舍弃掉。dilation是膨胀系数，下面的下面会讲。

因果卷积

因果卷积是在wavenet这个网络中提出的，之后被用在了TCN中。
TCN的论文链接：
因果卷积应为就是：Causal Convolutions。

之前已经讲了一维卷积的过程了，那么因果卷积，其实就是一维卷积的一种应用吧算是。

假设想用上面讲到的概念，做一个股票的预测决策模型，然后希望决策模型可以考虑到这个时间点之前的4个时间点的股票价格进行决策，总共有3种决策：

0：不操作，1：买入，2：卖出

所以其实就是一个分类问题。因为要求视野域是4，所以按照上面的设想，要堆积3个卷积核为2的1维卷积层：
在这里插入图片描述
三次卷积，可以让最后的输出，拥有4个视野域。就像是上图中红色的部分，就是做出一个决策的过程。

股票数据，往往是按照分钟记录的，那少说也是十万、百万的数据量，我们决策，想要考虑之前1000个时间点呢？视野域要是1000，那意味着要999层卷积？啥计算机吃得消这样的计算。所以引入了膨胀因果卷积。

膨胀因果卷积

英文是Dilated Causal Convolution。这个其实就是空洞卷积啦，不确定在之前的博文中有没有讲过这个概念（最近别人要求在写一个非常长的教程，和博客中的博文可能会有记忆混乱的情况2333）
反正就是，这个空洞卷积、或者叫扩张卷积、或者叫膨胀卷积就是操作dilation这个参数。

如图，这个就是dilation=2的时候的情况，与之前的区别有两个：
看红色区域：可以看到卷积核大小依然是2，但是卷积核之间变得空洞了，隔过去了一个数据；如果dilation=3的话，那么可以想而知，这个卷积核中间会空的更大，会隔过去两个数据。
看淡绿色数据：因为dilation变大了，所以相应的padding的数量从1变成了2，所以为了保证输入输出的特征维度相同，padding的数值等于dalition的数值（在卷积核是2的情况下，严格说说：padding=（kernel_size-1）*dilation）

然后我们依然实现上面那个例子，每次决策想要视野域为4：
在这里插入图片描述
可以看到，第一次卷积使用dilation=1的卷积，然后第二次使用dilation=2的卷积，这样通过两次卷积就可以实现视野域是4.

那么假设事业域要是8呢？那就再加一个dilation=4的卷积。dilation的值是2的次方，然后视野域也是2的次方的增长，那么就算是要1000视野域，那十层大概就行了。

这里有一个动图，挺好看的：

TCN结构

TCN基本就是一个膨胀因果卷积的过程，只是上面我们实现因果卷积就只有一个卷积层。而TCN的稍微复杂一点（但是不难！）

卷积结束后会因为padding导致卷积之后的新数据的尺寸B>输入数据的尺寸A，所以只保留输出数据中前面A个数据；
卷积之后加上个ReLU和Dropout层，不过分吧这要求。
然后TCN中并不是每一次卷积都会扩大一倍的dilation，而是每两次扩大一倍的dilation
总之TCN中的基本组件：TemporalBlock()是两个dilation相同的卷积层，卷积+修改数据尺寸+relu+dropout+卷积+修改数据尺寸+relu+dropout
之后弄一个Resnet残差连接来避免梯度消失，结束！
关于Resnet的内容:【从零学习PyTorch】如何残差网络resnet作为pre-model +代码讲解+残差网络resnet是个啥其实不看也行，不妨碍理解TCN

模型的PyTorch实现（最好了解一点PyTorch）

如果不了解的话，emm，我要安利我的博文了2333：
从零学习pytorch 第5课 PyTorch模型搭建三要素

# 导入库
import torch
import torch.nn as nn
from torch.nn.utils import weight_norm

# 这个函数是用来修剪卷积之后的数据的尺寸，让其与输入数据尺寸相同。
class Chomp1d(nn.Module):
    def __init__(self, chomp_size):
        super(Chomp1d, self).__init__()
        self.chomp_size = chomp_size

    def forward(self, x):
        return x[:, :, :-self.chomp_size].contiguous()

可以看出来，这个函数就是第一个数据到倒数第chomp_size的数据，这个chomp_size就是padding的值。比方说输入数据是5，padding是1，那么会产生6个数据没错吧，那么就是保留前5个数字。

# 这个就是TCN的基本模块，包含8个部分，两个（卷积+修剪+relu+dropout）
# 里面提到的downsample就是下采样，其实就是实现残差链接的部分。不理解的可以无视这个
class TemporalBlock(nn.Module):
    def __init__(self, n_inputs, n_outputs, kernel_size, stride, dilation, padding, dropout=0.2):
        super(TemporalBlock, self).__init__()
        self.conv1 = weight_norm(nn.Conv1d(n_inputs, n_outputs, kernel_size,
                                           stride=stride, padding=padding, dilation=dilation))
        self.chomp1 = Chomp1d(padding)
        self.relu1 = nn.ReLU()
        self.dropout1 = nn.Dropout(dropout)

        self.conv2 = weight_norm(nn.Conv1d(n_outputs, n_outputs, kernel_size,
                                           stride=stride, padding=padding, dilation=dilation))
        self.chomp2 = Chomp1d(padding)
        self.relu2 = nn.ReLU()
        self.dropout2 = nn.Dropout(dropout)

        self.net = nn.Sequential(self.conv1, self.chomp1, self.relu1, self.dropout1,
                                 self.conv2, self.chomp2, self.relu2, self.dropout2)
        self.downsample = nn.Conv1d(n_inputs, n_outputs, 1) if n_inputs != n_outputs else None
        self.relu = nn.ReLU()
        self.init_weights()

    def init_weights(self):
        self.conv1.weight.data.normal_(0, 0.01)
        self.conv2.weight.data.normal_(0, 0.01)
        if self.downsample is not None:
            self.downsample.weight.data.normal_(0, 0.01)

    def forward(self, x):
        out = self.net(x)
        res = x if self.downsample is None else self.downsample(x)
        return self.relu(out + res)

最后就是TCN的主网络了：

class TemporalConvNet(nn.Module):
    def __init__(self, num_inputs, num_channels, kernel_size=2, dropout=0.2):
        super(TemporalConvNet, self).__init__()
        layers = []
        num_levels = len(num_channels)
        for i in range(num_levels):
            dilation_size = 2 ** i
            in_channels = num_inputs if i == 0 else num_channels[i-1]
            out_channels = num_channels[i]
            layers += [TemporalBlock(in_channels, out_channels, kernel_size, stride=1, dilation=dilation_size,
                                     padding=(kernel_size-1) * dilation_size, dropout=dropout)]

        self.network = nn.Sequential(*layers)

    def forward(self, x):
        return self.network(x)

咋用的呢？就是num_inputs就是输入数据的通道数，一般就是1； num_channels应该是个列表，其他的np.array也行，比方说是[2,1]。那么整个TCN模型包含两个TemporalBlock，整个模型共有4个卷积层，第一个TemporalBlock的两个卷积层的膨胀系数 $dilation=2^0=1$ ，第二个TemporalBlock的两个卷积层的膨胀系数是 $dilation=2^1=2$ .

没了，整个TCN挺简单的，如果之前学过PyTorch和图像处理的一些内容，然后用TCN来上手时间序列，效果会和LGM差不多。（根据最近做的一个比赛），没有跟Wavenet比较过，Wavenet的pytorch资源看起来怪复杂的，因为wavenet是用来处理音频生成的，会更加复杂一点。

总之TCN就这么多，谢谢大家。

公众号回复【下载】有精选的免费机器学习学习资料。公众号每天会更新一个机器学习、深度学习的小知识，都是面试官会问的知识点哦~

【机器学习的基础数学(PDF)】
【竞赛中的大数据处理流程(PDF)】
【如何做大数据的基础特征工程(PDF)】
【自然语言处理NLP的应用实践大合集(PDF)】
【python入门级教材(400页PDF)】

公众号每天会更新一个机器学习、深度学习的小知识，都是面试官会问的知识点哦~

在这里插入图片描述

本文链接：https://blog.csdn.net/qq_34107425/article/details/105522916

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

攻防世界_难度8_happy_puzzle_攻防世界困难模式攻略图文-程序员宅基地

文章浏览阅读645次。这个肯定是末尾的IDAT了，因为IDAT必须要满了才会开始一下个IDAT，这个明显就是末尾的IDAT了。，对应下面的create_head()代码。，对应下面的create_tail()代码。不要考虑爆破，我已经试了一下，太多情况了。题目来源：UNCTF。_攻防世界困难模式攻略图文

达梦数据库的导出（备份）、导入_达梦数据库导入导出-程序员宅基地

文章浏览阅读2.9k次，点赞3次，收藏10次。偶尔会用到，记录、分享。1. 数据库导出1.1 切换到dmdba用户su - dmdba1.2 进入达梦数据库安装路径的bin目录，执行导库操作　　导出语句：./dexp cwy_init/[email protected]:5236 file=cwy_init.dmp log=cwy_init_exp.log　注释：　　 cwy_init/init_123..._达梦数据库导入导出

js引入kindeditor富文本编辑器的使用_kindeditor.js-程序员宅基地

文章浏览阅读1.9k次。1. 在官网上下载KindEditor文件，可以删掉不需要要到的jsp，asp，asp.net和php文件夹。接着把文件夹放到项目文件目录下。2. 修改html文件，在页面引入js文件：<script type="text/javascript" src="./kindeditor/kindeditor-all.js"></script><script type="text/javascript" src="./kindeditor/lang/zh-CN.js"_kindeditor.js

STM32学习过程记录11——基于STM32G431CBU6硬件SPI+DMA的高效WS2812B控制方法-程序员宅基地

文章浏览阅读2.3k次，点赞6次，收藏14次。SPI的详情简介不必赘述。假设我们通过SPI发送0xAA，我们的数据线就会变为10101010，通过修改不同的内容，即可修改SPI中0和1的持续时间。比如0xF0即为前半周期为高电平，后半周期为低电平的状态。在SPI的通信模式中，CPHA配置会影响该实验，下图展示了不同采样位置的SPI时序图[1]。CPOL = 0，CPHA = 1：CLK空闲状态 = 低电平，数据在下降沿采样，并在上升沿移出CPOL = 0，CPHA = 0：CLK空闲状态 = 低电平，数据在上升沿采样，并在下降沿移出。_stm32g431cbu6

计算机网络-数据链路层_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输-程序员宅基地

文章浏览阅读1.2k次，点赞2次，收藏8次。数据链路层习题自测问题1.数据链路(即逻辑链路)与链路(即物理链路)有何区别?“电路接通了”与”数据链路接通了”的区别何在?2.数据链路层中的链路控制包括哪些功能?试讨论数据链路层做成可靠的链路层有哪些优点和缺点。3.网络适配器的作用是什么?网络适配器工作在哪一层?4.数据链路层的三个基本问题(帧定界、透明传输和差错检测)为什么都必须加以解决？5.如果在数据链路层不进行帧定界，会发生什么问题？6.PPP协议的主要特点是什么？为什么PPP不使用帧的编号？PPP适用于什么情况？为什么PPP协议不_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输

软件测试工程师移民加拿大_无证移民，未受过软件工程师的教育（第1部分）-程序员宅基地

文章浏览阅读587次。软件测试工程师移民加拿大无证移民，未受过软件工程师的教育(第1部分) (Undocumented Immigrant With No Education to Software Engineer(Part 1))Before I start, I want you to please bear with me on the way I write, I have very little gen...

随便推点

Thinkpad X250 secure boot failed 启动失败问题解决_安装完系统提示secureboot failure-程序员宅基地

文章浏览阅读304次。Thinkpad X250笔记本电脑，装的是FreeBSD，进入BIOS修改虚拟化配置（其后可能是误设置了安全开机），保存退出后系统无法启动，显示：secure boot failed ，把自己惊出一身冷汗，因为这台笔记本刚好还没开始做备份.....根据错误提示，到bios里面去找相关配置，在Security里面找到了Secure Boot选项，发现果然被设置为Enabled，将其修改为Disabled ，再开机，终于正常启动了。_安装完系统提示secureboot failure

C++如何做字符串分割（5种方法）_c++ 字符串分割-程序员宅基地

文章浏览阅读10w+次，点赞93次，收藏352次。1、用strtok函数进行字符串分割原型： char *strtok(char *str, const char *delim);功能：分解字符串为一组字符串。参数说明：str为要分解的字符串，delim为分隔符字符串。返回值：从str开头开始的一个个被分割的串。当没有被分割的串时则返回NULL。其它：strtok函数线程不安全，可以使用strtok_r替代。示例：//借助strtok实现split#include <string.h>#include <stdio.h&_c++ 字符串分割

2013第四届蓝桥杯 C/C++本科A组真题答案解析_2013年第四届c a组蓝桥杯省赛真题解答-程序员宅基地

文章浏览阅读2.3k次。1 .高斯日记大数学家高斯有个好习惯：无论如何都要记日记。他的日记有个与众不同的地方，他从不注明年月日，而是用一个整数代替，比如：4210后来人们知道，那个整数就是日期，它表示那一天是高斯出生后的第几天。这或许也是个好习惯，它时时刻刻提醒着主人：日子又过去一天，还有多少时光可以用于浪费呢？高斯出生于：1777年4月30日。在高斯发现的一个重要定理的日记_2013年第四届c a组蓝桥杯省赛真题解答

基于供需算法优化的核极限学习机(KELM)分类算法-程序员宅基地

文章浏览阅读851次，点赞17次，收藏22次。摘要：本文利用供需算法对核极限学习机(KELM)进行优化，并用于分类。

metasploitable2渗透测试_metasploitable2怎么进入-程序员宅基地

文章浏览阅读1.1k次。一、系统弱密码登录1、在kali上执行命令行telnet 192.168.26.1292、Login和password都输入msfadmin3、登录成功，进入系统4、测试如下：二、MySQL弱密码登录：1、在kali上执行mysql –h 192.168.26.129 –u root2、登录成功，进入MySQL系统3、测试效果：三、PostgreSQL弱密码登录1、在Kali上执行psql -h 192.168.26.129 –U post..._metasploitable2怎么进入

Python学习之路：从入门到精通的指南_python人工智能开发从入门到精通pdf-程序员宅基地

文章浏览阅读257次。本文将为初学者提供Python学习的详细指南，从Python的历史、基础语法和数据类型到面向对象编程、模块和库的使用。通过本文，您将能够掌握Python编程的核心概念，为今后的编程学习和实践打下坚实基础。_python人工智能开发从入门到精通pdf