Last Updated: 2024.08.19
目录
- 目录
- 多模态数据处理
- Open-sora
- 封神榜项目
- 总项目
- 20221121 太乙绘画使用手册
- 20221110机器之心直播
- 太乙插画师
- 封神榜开源模型
- 20220913 封神榜总论文直播
- 学术项目
- 20230707 NCAA tutorial speaker
- 从VQA到多模态综述
- 其他工程项目
- Overleaf显示页码插件
- Arxiv跳转插件
- 择优进学网站搭建
多模态数据处理
Open-sora
时间:2024.04-2024.06
最新demo视频片段:
数据处理流程 Data Processing
数据集的数量和质量都很重要
我们建立了一个自动化的流程:
- 场景剪辑
- 美学分数过滤
- 光流分数过滤
- OCR过滤(剔除过多文本含量的场景)
- 字幕生成(计算匹配分数过滤)
- 其他流程(文本清理,meta标注等)
只准备了10M数据集,最终使用9.7M视频和2.6M图片进行预训练,560k视频和1.6M图片进行微调。
最终视频长度:
大部分视频集中在36-256帧
训练
第零阶段
使用不同分辨率的图像从Pixart-alpha-1024检查点进行6000步微调,并使用SpeeDiT(https://github.com/kaiwang960112/SpeeD)加速扩散训练。
第一阶段
- 使用梯度检查点技术进行了24000步预训练,发现模型学习速度较慢。可能是因为训练步数比批次大小更重要。为了增加训练步数,我们切换到更小的批量并取消了梯度检查点。分辨率为240p和144p。
- 我们发现模型在处理长视频时学习效果不佳,生成的结果噪声较大,我们推测这与 Open-Sora 1.0 训练中发现的半精度问题有关。因此,我们采用了 QK-归一化来稳定训练。并增加遮罩比率至25%。
第一阶段的训练总步数为81000,64 个 H800 GPU,持续约一周。
第二阶段
切换到更高的分辨率,大多数视频分辨率为 240p 和 480p。
在所有预训练数据上进行了 22000 步的训练,耗时一天。
第三阶段
再次切换到更高的分辨率,大多数视频分辨率为 480p 和 720p。在高质量数据上进行了 4000 步的训练,耗时一天。我们发现加载前一阶段的优化器状态可以帮助模型更快地学习。
Report
封神榜项目
总项目
20221121 太乙绘画使用手册
【腾讯文档】太乙绘画使用手册1.0 https://docs.qq.com/doc/DWklwWkVvSFVwUE9Q
20221110机器之心直播
人数破1万,目前位置机器之心直播人数最多。
全渠道加起来预计破2万。
并且,直播过程中的PPT,插图基于都是由我生成的!
太乙插画师
背影,整片星空,渺小的人类,巨大的星球,大师画作
人类和机器人一起探索未来
一直谨记身为人类的渺小,面对浩瀚无垠的宇宙,应当始终抱有敬畏之心。
同时,我也没有忘记,正是这渺小的人类,征服了一个又一个难题,让整个种族可以屹立于这个星球食物链的最顶端。
甚至,总有一天,我们会离开最初的家园,迈向神秘而未知的永恒。
封神榜开源模型
(太乙系列)-多模态模型
多模态基础模型
多模态文生图模型
(二郎神系列)
NLP模型
20220913 封神榜总论文直播
学术项目
20230707 NCAA tutorial speaker
题目:Large Models bridge the Digital-Real World Gap: from Understanding to Generation
从VQA到多模态综述
收录2015-2021的多模态论文
其他工程项目
Overleaf显示页码插件
Update: 2024/04/20
然而,overleaf在2024年7月份正式引入了这个功能。
(所以我的这个插件也不会有后续的更新了)
Arxiv跳转插件
Year: 2022
基于油猴
择优进学网站搭建
Year: 2020
(现已失效)