文章目录1、January2、February3、March4、April5、May6、June7、July8、August9、September10、October11、November12、December1、January华为提出PyramidTNT用金字塔结构改进Transformer涨点明显2022-01-07Han K, Guo J, Tang Y, et al.Pyramidtnt: Improved transformer-in-transformer baselines with pyramid architecture[J]. arXiv preprint arXiv:2201.00978, 2022.主要引入了两个主要的架构修改Pyramid Architecture逐渐降低分辨率提取多尺度表示Convolutional Stem修补Stem和稳定训练肖奥等人发现在ViT中使用多个卷积作为Stem可以提高优化稳定性也能提高性能2、February把大核卷积拆成三步清华胡事民团队新视觉Backbone刷榜了集CNN与ViT优点于一身2022-02-23《Visual attention network》(arXiv-2022)前有微软 SwinTransformer 引入 CNN 的滑动窗口等特性刷榜下游任务并获马尔奖。后有 Meta AI 的 ConvNeXT 用 ViT 上的大量技巧魔改 ResNet 后实现性能反超。现在一种全新 Backbone——VANVisiual Attention Network, 视觉注意力网络再次引起学界关注。因为新模型再一次刷榜三大视觉任务把上面那两位又都给比下去了。VAN 号称同时吸收了CNN 和 ViT 的优势且简单高效精度更高的同时参数量和计算量还更小。LKALarge Kernel Attention在刷了几百道LeetCode之后我总结出了这几条刷题技巧2022年02月19日string的修改递归传引用匿名函数lower bound和upper bound只讲关键点之兼容100种关键点检测数据增强方法2022年02月22日关键点数据增强库https://github.com/DefTruth/torchlm3、March一文梳理深度学习算法演进2022年03月07日语音识别、图像识别、语言模型和文本归纳、深度强化学习与AlphaGo和AutoML、隐私保护Differential Privacy有论文发现可以从模型中逆向还原训练数据中的人脸图片、深度学习的艺术创作GAN、目标检测和分割、看见未来Frame Prediction预测无人车在未来的一段时间能看到的场景可以无监督标签就是最后一帧、序列的崛起TransformerBERT、Self-Supervise和大模型、压缩黑白名单。许多算子是对量化不友好的e.g. conv vs softmax。通常对于不友好的算子会在前面插入反量化逻辑回到浮点数。、推荐排序可解释可控性可预测能力依然没有突破。就好像对人脑的理解一样对于深度学习模型的理解依然很单薄。或许高维空间本身就是无法被直观理解的。无法被理解的基础上就不容易被管控。通过one-shot似乎可以让模型快速掌握新的能力但是对于模型其他能力的影响缺失很难判断的。就好比你让一辆车很容易躲避障碍物却可能导致它侧翻的概率增加。作者 |Peter潘欣主编推荐 | 人脸活体检测综述2022-03-11当前的人脸活体检测算法与人脸识别算法是互相分离的未来有必要发展两者的统一模型。Transformer将在AI领域一统天下现在下结论还为时过早2022年03月13日在过去 10 年发生的这场深度学习革命中自然语言处理在某种程度上是后来者」马萨诸塞大学洛厄尔分校的计算机科学家 Anna Rumshisky 说「从某种意义上说NLP 曾落后于计算机视觉而 Transformer 改变了这一点。」「也许我们不应该急于得出结论认为 transformer 就是最完美的那个模型」Wang 说。但越来越明显的是transformer 至少会是 AI shop 里所有新型超级工具的一部分。Python精选库大全建议收藏留用2022年03月30日4、April厉害了用Python破个世界纪录 2022年04月07日用PythonOpenCV实现了自动扫雷https://github.com/ArtrixTech/BoomMine?tabreadme-ov-file隔离太无聊不如用Python实现愤怒的小鸟看看能否通关2022年04月08日找一个源码是 python 实现的如果小伙伴们觉得小鸟的数量不够多可以修改上图代码的77行修改第一关的小鸟的数量。CVPR 2022 | 高质量捕捉人物动作网易互娱AI Lab提出高效视频动捕技术2022年04月17日方案的整体框架主要包括了一个关键点预测模块和一个旋转量估计模块Liu S, Wu W, Wu J, et al. Spatial-temporal parallel transformer for arm-hand dynamic estimation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 20523-20532.标签手臂3D关键点则直接采用CVPR 2018的VPose3D预测全身3D姿态再从中提取手臂关键点。5、May浏览器可以运行 Python 代码了Python 也许会变成前后端通吃的语言2022年05月03日PyScript 是 Anaconda 团队开发的一个 Javascipt 库可以在 HTML 标签里嵌入 Python 代码无需服务端就可以运行 Python 代码。用Python来跳本草纲目2022年05月05日6、June7、July8、August华为轻量级神经网络架构GhostNet再升级GPU上大显身手的G-GhostNetIJCV222022-08-04作者设计出相比C-Ghost更适用于GPU等设备的G-Ghost在实际延迟与性能之间取得了良好的权衡研究跨 Block 特征的冗余性和相似性Han K, Wang Y, Xu C, et al. GhostNets on heterogeneous devices via cheap operations[J]. International Journal of Computer Vision, 2022, 130(4): 1050-1069.直接的特征拼接带来的影响是显而易见的。复杂特征经过逐层提取包含更丰富的语义信息而Ghost特征由浅层进行廉价操作所得可能缺乏一部分深层信息。因此一种信息补偿的手段是有必要的作者等人使用如下操作来提升廉价操作的表征能力本文利用可视化观察到的现象和大量的实验结果提出了Ghost特征的思想利用“特征的相似性和冗余性不仅存在于一个层内也存在于该阶段的多个层之间”这一猜测设计出相比C-Ghost更适用于GPU等设备的G-Ghost并在实际延迟与性能之间取得了良好的权衡。CPU与GPU到底有什么区别2022年08月31日9、September深度学习图像分类任务中那些不得不看的11个tricks总结2022-09-07WarmupLinear scaling learning rate增大batch size不会改变梯度的期望但是会降低它的方差。也就是说大batch size会降低梯度中的噪声所以我们可以增大学习率来加快收敛。比如ResNet原论文中batch size为256时选择的学习率是0.1当我们把batch size变为一个较大的数b时学习率应该变为 0.1 × b/256。Label-smoothingLSR是一种通过在标签y中加入噪声实现对模型约束降低模型过拟合程度的一种正则化方法。Random image cropping and patching最终拼接的图片尺寸和原图片尺寸保持一致Knowledge DistillationCutoutRandom erasingCosine learning rate decayMixup trainingAdaBoudoptimizers 还没有经过普遍的检验也有可能只是对于某些问题效果好。AutoAugment其他经典的tricksCV人类观察关于视觉识别领域发展的个人观点2022-09-08引出图像信号的三个根本性质信息稀疏性、域间差异性、无限粒度性语义稀疏性 解决方案为构建高效计算模型神经网络和视觉预训练。例如卷积模块对应于图像数据的局部性先验、transformer模块对应于图像数据的注意力先验域间差异性 解决方案为数据高效的微调算法。从实用的角度看模型必须能够适应随时变化的域因而终身学习是必须。无限粒度性解决方案为开放域识别算法。对于NLP来说过拟合已经不再是一个问题因为预训练数据集配合小型prompt已经足以表征整个语义空间的分布。但是CV领域还没有做到这一点因此还需要考虑域迁移而域迁移的核心在于避免过拟合。无监督学习MIMMasked Image Modeling掩码图像建模。具体来说通过对掩码图像进行恢复的过程来学习对图像的特征表示。自然语言本身是人类创造出来的数据其中每个单词、每个字符都是人类写下来的天然带有语义因此从严格意义上说NLP的预训练任务不能被视为真正的无监督预训练至多算是弱监督的预训练。但是视觉不同图像信号是客观存在、未经人类处理的原始数据在其中的无监督预训练任务一定更难。纯视觉无监督预训练的本质在于从退化中学习无限细粒度当识别的粒度增加时识别的确定性必然下降也就是说粒度和确定性是冲突的。举例说在ImageNet中存在着“家具”和“电器”两个大类显然“椅子”属于“家具”而“电视机”属于“家电”但是“按摩椅”属于“家具”还是“家电”就很难判断——这就是语义粒度的增加引发的确定性的下降。我将CV领域的问题分为三大类识别、生成、交互识别只是其中最简单的问题。关于这三个子领域简要的分析如下如何评价CVPR 2022的best paper2022-09-28可能对于咱们一般的科研民工能让自己研究收益最多的paper才是best paper10、October一个 程序员 的水平能差到什么程度尼玛都是人才呀… …2022-10-18rice米发消息hairIOS 大裁员一半来自 BAT 大厂开发。2022年10月18日谁能想到前10年炙手可热的岗位现在反而是这样。安卓开发同样会面临严峻的形势不过安卓稍微比 IOS 好一点。有一部分安卓工程师转岗去做了 Java 后端也算给自己多留了一条路反观 IOS 这边真的很无奈。任何时候都不要忘了提升自己这样哪怕被裁员了凭借着自身能力还是能找到一份工作的。另外永远不要把自己的命运绑定到某一个船上如果这条船走不稳的时候你的人生应该怎么办跑路了在东北国企当程序员一个月的感触2022-10-28车载双目相机老兵的二次出征2022-10-28然而单目相机的测距高度依赖深度学习。而目前深度学习视觉感知框架下需要先进行目标识别才能进行下一步的距离探测。双目相机无须识别出目标也能进行目标距离的探测。且测距准确度远高于单目相机通过深度学习估算的距离。相机成像的过程实际是将真实世界的三维物体映射到成像平面二维图像的过程为确定真实世界三维物体表面某点与其在成像平面二维图像中对应点之间的相互关系必须建立相机成像的几何模型这些几何模型参数就是相机参数内参、外参、畸变参数。而相机参数通常需要通过实验与计算才能得到求解相机参数的过程称之为相机标定。双目相机模型被测点C1和左相机光心Oc1和右相机光心Oc2三点构成的平面称为极平面极平面与成像平面相交的两条直线称为极线。而对于理想双目相机模型来说空间点C1在左相机成像平面的投影点对应于右相机成像平面上的投影点一定在右相机的极线上这也就是著名的极线约束原理。将二维搜索变为一位搜索高质量人类的高质量贡献。这是基于最理想的双目相机模型设计出来的方法但是现实情况可能由于装配误差、安装误差等原因导致左右相机光轴不平行成像平面不重合结果就是左右极线不平行不共面如下图所示。极线约束方法是不是没法使用别慌针对这种情况只需提前进行图像校正就可以。面临的障碍目标检测类算法比赛的经验总结2022-10-31数据研究Exploratory Data Analysis图像宽高频次图、可视化、类别标签类别频次图、标注框宽高散点图、各类下宽高比频次图增强也可能过拟合例如copy-paste和实例平衡增强等会重复部分数据集的可能。11、November马斯克裁撤推特一半员工赔3个月工资赶人传机器学习团队90%成员失业2022年11月05日不止是普通员工管理层也被马斯克「清理」了一番波及 90% 的推特高管。除了收购之后立即解雇的首席执行官 Parag Agrawal、首席财务官 Neg Segal、政策负责人 Vijaya Gadde 和法律顾问 Sean Edgett这周他还解雇了推特的消费产品工程副总裁 Arnaud Weber 和负责监督推特与新闻出版商合作的产品高级总监 Tony Haile 在内的更多管理层员工。根据数据公司 Bot Sentinel 对超过 310 万个账号的活动分析数据自 10 月 27 日马斯克成功收购 Twitter 至 11 月 1 日为止约有 877000 个账号已注销。或许在过去的一周里Twitter 已经失去了超过 100 万个用户。小扎动刀Meta启动史上最大规模裁员数千人将失业2022年11月07日本次裁员将是该公司自2004年成立以来最大规模的一次可能影响数千名员工。有人猜测尽管这次裁员比例不会像马斯克对推特那样直接砍掉50%那么夸张但由于Meta员工数量远超推特且近年来迅速膨胀此次最终裁员的绝对数量可能超过推特。截至今年9月底Meta共有87314名员工比一年前增加了28%。这家拥有 Facebook、Instagram、WhatsApp 和 Messenger 的社交巨头在全球经济放缓和通货膨胀飙升的情况下过去一年在元宇宙上花费了数十亿美元但目前收益寥寥。微软裁员1000人只招关键人才同样暂停招聘的还有电商巨头亚马逊。推特黑色星期五裁员50%ML团队几乎“团灭”马斯克回应我别无选择2022年11月07日今年6月推特的员工大概是8000人而本轮裁员后推特的员工数将缩减至3700人左右重新回到2014年上市时的员工人数。综述视觉Transformer在CV中的现状、趋势和未来方向2022-11-08证明了它们在三个基本CV任务分类、检测和分割以及多传感器数据图像、点云和视觉-语言数据上的有效性。https://github.com/liuyang-ict/awesome-visual-transformers显然在分割和检测任务中带有掩模嵌入的ViT超过了大多数主流模型。Heterologous StreamTransformer由两个关键组件组成self-attention聚合token的关系以及按位置的FFN从输入中提取特征。各种可学习的嵌入被设计用于进行不同的视觉任务。从目标任务的角度来看这些嵌入可以分为class token、object query和mask embedding。NeurIPS’22 Spotlight华为诺亚GhostNetV2出炉长距离注意力机制增强廉价操作2022-11-15Tang Y, Han K, Guo J, et al.GhostNetv2: Enhance cheap operation with long-range attention[J]. Advances in Neural Information Processing Systems, 2022, 35: 9969-9982.本文提出了一种对硬件友好的 DFC 注意力机制并借助它和 GhostNet 模型提出了一种针对端侧设备的GhostNetV2 架构。Ghost 模块的局限性作者将这种注意力机制称为解耦全连接注意力机制 (decoupled fully connected, DFC)借助上节介绍的 DFC attention 实现的 GhostNet 称之为 GhostNetV2本文提出了一种对硬件友好的 DFC 注意力机制并借助它和 GhostNet 模型提出了一种针对端侧设备的GhostNetV2 架构。DFC 注意力可以捕捉到远距离空间位置的像素之间的依赖性这大大增强了轻量化模型的表达能力。DFC 注意力机制将 FC 层分解为水平 FC 和垂直 FC分别沿两个方向具有较大的感受野。配备了这种计算效率高、部署简单的模块之后呢GhostNetV2 就可以在准确性和速度之间实现更好的权衡。作者 ImageNet 和下游任务上进行的大量实验验证了 GhostNetV2 的优越性。轻量级CNN模块RepGhost重参数化实现硬件高效的Ghost模块2022-11-23RepGhost: A Hardware-Efficient Ghost Module via Re-parameterizationConcat 操作确实是一种 0 Params0 FLOPs 的操作。但是它在硬件设备上的计算成本是不可忽略的。在硬件设备上由于复杂的内存复制Concat 操作比加法操作效率低得多。RepGhostNet 把 Concat 操作去掉同时修改现有结构以满足重参数化的规则。最终得到的 RepGhostNet 是一个高效的轻量级 CNN在几个视觉任务中都展示出了移动设备的精度-延迟权衡方面良好的技术水平。能否推荐几个比较有研究价值的slam方向2022-11-2812、December近五年ECCV引用量最高论文2022-12-062018:DeepLabv32020:DETR倒计时6小时马斯克发起推特投票你们觉得我该下台吗近六成推友支持2022年12月19日吴恩达的2022年终盘点生成式AI、ViT、大模型2022年12月27日尽管许多 ViT 研究旨在超越并最终取代卷积神经网络(CNN) 但更有力的趋势是将二者结合起来。ViT 的优势在于它能够在小尺度和大尺度上考虑图像中所有像素之间的关系。但这种模型的一个缺点是它需要通过额外的训练来学习随机初始化后融入 CNN 架构的方法。CNN 的局部上下文窗口只考虑局部像素问题和权重共享使它能够以相同的方式处理不同的图像位置帮助 Transformer 利用更少的数据中学习更多。