DO U KNOW?
1.pytorch中的register_buffer()的用法
2.Transformer中encoder和decoder的mask的作用?
(1)encoder中,去除各种padding的影响(为了一个mini-batch中句子长度统一,补齐padding)
(2)decoder中,将encoder的最终输出当作decoder的输入,mask当前预测词以及后续预测的部分,防止信息泄露(有个问题,双向解码的时候,信息会泄露?但不影响?)
3.github中,fork别人项目后,如何与他项目保持同步更新
4.Ranking Loss(多模态检索)
Siamese网络和Triplet网络
5.ExpansionNet,ExpansionNet V2
扩展机制(Expansion Machanism)
6.line_profiler
python 性能分析
7.策略梯度算法
8.VITALAB(读文献)
9.Focal Loss
10.RoPE
RoFormer
旋转位置编码
Transformer位置编码
11.线性Transformer
ReFormer
12.Transformer的low rank bottleneck问题?
- Multi-branch Self-attention
13.IC困难样本挖掘
14.科学空间
最后编辑于:2022 年 12 月 01 日 22:55