多模态实战学习路线

  |  

摘要: 多模态学习路线

【对数据分析、人工智能、金融科技、风控服务感兴趣的同学,欢迎关注我哈,阅读更多原创文章】
我的网站:潮汐朝夕的生活实验室
我的公众号:潮汐朝夕
我的知乎:潮汐朝夕
我的github:FennelDumplings
我的leetcode:FennelDumplings


理论基础

  • 多模态预训练
  • 双塔模型原理
    • CLIP
    • ALIGN
  • 单塔模型原理
    • VILT
  • 单塔双塔的特点和优缺点
  • 融合双塔和单塔结构的模型

自监督算法理论

  • 基于对比学习的自监督算法
  • 基于 Mask 的自监督算法
  • MAE
  • DINO
  • MOCO

下游任务

  • VQA任务
  • nlvr任务

应用:Image Captioning

  • baseline搭建
  • 模型优化
  • 结果展示

应用:跨模态检索

  • baseline搭建
  • 模型优化
  • 结果展示

项目:AI智能文案

  • 基于 lstm 的 image captioning 生成智能文案
  • 基于 transformer 的 image captioning 生成智能文案
  • 基于多模态预训练模型的文案生成模型优化

项目:手机相册管理与检索

  • 通用多模态数据获取
  • 基于 CLIP 的跨模态检索模型优化
  • 基于 BERT Service 的多模态模型部署

项目:AI唇语识别

  • 基于唇语语音模态的语音识别基础模型
  • 基于唇语视频的纯视觉模态的字幕识别模型
  • 融合语音模态和视觉模态的唇语识别

项目:基于深度多模态模板检测和语义分割的自动驾驶

  • 语义分割基础理论
  • 目标检测基础理论
  • 基于深度相机的多模态感知数据
  • 融合多模态数据的语义分割模型
  • 融合多模态数据的目标检测模型

Share