循环神经网络

基础

时序模型：当前数据和之前观测的数据相关

统计工具：在时间t，观察到的价格Xt
概率计算序列模型
自回归模型给定前面t-1个数据来预测第t个数据
马尔可夫模型假设当前之和最近少数数据相关
- 使用xt−1,…,xt−τ 而不是xt−1,…,x1来估计xt
潜变量模型使用潜变量概况历史信息
- 保留一些对过去观测的总结ht，并且同时更新预测x^t和总结ht。这就产生了基于x^t=P(xt∣ht)估计xt，以及公式ht=g(ht−1,xt−1)更新的模型。由于ht从未被观测到，这类模型也被称为 隐变量自回归模型（latent autoregressive models）。
k步预测：我们必须使用我们自己的预测（而不是原始数据）来进行多步预测：对于直到xt的观测序列，其在时间步t+k处的预测输出x^t+k 称为k_步预测_（k-step-ahead-prediction）。由于我们的观察已经到了x604，它的k步预测是x^604+k。
这么单纯的k步预测结果超级差，原因是：
- 错误的累积：假设在步骤1之后，我们积累了一些错误ϵ1=ϵ¯。于是，步骤2的输入被扰动了ϵ1，结果积累的误差是依照次序的ϵ2=ϵ¯+cϵ1，其中c为某个常数，后面的预测误差依此类推。因此误差可能会相当快地偏离真实的观测结果。例如，未来24小时的天气预报往往相当准确，但超过这一点，精度就会迅速下降。

对于feature的处理
此时为net的输出单个

k步预测的单个输出和批量输出（向量）

re库正则表达式操作…
- https://docs.python.org/zh-cn/3/library/re.html
- re.match(pattern, string, flags=0)
读取文档time_machine 处理文档，忽略大小写和标点符号
- [ re.sub(‘[^ A-Za-z]+’, ‘ ‘, line).strip().lower() for line in lines ]
词元化 tokenize
- token是文本的基本单位，返回由token组成的列表
- 这里就暴力的将其拆分为单词或者字符
- list 将一些可迭代对象转化为列表类型
构建词表将模型输入的词源映射到从0开始的数字索引
- 语料：对训练集的词元进行统计，得到的统计结果为语料
- 根据每个唯一词元的出现频率，为其分配一个数字索引。很少出现的词元通常被移除，这可以降低复杂性。
- 另外，语料库中不存在或已删除的任何词元都将映射到一个特定的未知词元< unk >

估计文本序列的联合概率

利用计数建模
- 条件概率P(deep,learning,is,fun)=P(deep)P(learning∣deep)P(is∣deep,learning)P(fun∣deep,learning,is).
- n(x)和n(x,x′)分别是单个单词和连续单词对的出现次数
马尔科夫模型和n元语法
- n元语法 tau = n 比如二元语法和之前的一个元素相关，三元语法和前两个元素相关
- 复杂度降低O( tau )

可以看到有很多词没啥意义，可以被过滤，比如thre is in that 啥的被称为stop words
n元语法实现
- 将n个token绑定到一起，计算freq
- 当序列太长没法被模型一次性处理时，希望能够拆分这样的序列方便模型读取
  但是如果我们固定了如图上三段的拆分，那么段和段之间的那一小块（红色方块）我们就没有办法读到，所有我可以采用策略来避免这种情况
随机采样策略 random sampling
- 随机地生成一个小批量数据的特征和标签以供读取，在随机采样中，每个样本都是在原始的长序列corpus上任意捕获的子序列
- corpus原始长序列，batch_size 为小批量中子序列的样本数目(几个子序列），num_steps为子序列中预定义的时间步数（每个子序列多长）
- 所以也可以把numsteps理解为tau
- 此时的x,y如图对于x,23，我们要预测出y的24，2324，我们要预测出25，一次类推
顺序采样策略
- 保证相邻的小批量之间序列是连续的