项目 Projects

Posted on Sat, Oct 15, 2022 project

Last Updated: 2024.08.19

目录

多模态数据处理

Open-sora

时间:2024.04-2024.06

项目地址:hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All (github.com)

最新demo视频片段:

数据处理流程 Data Processing

数据集的数量和质量都很重要

我们建立了一个自动化的流程:

只准备了10M数据集,最终使用9.7M视频和2.6M图片进行预训练,560k视频和1.6M图片进行微调。

最终视频长度:

大部分视频集中在36-256帧

训练

第零阶段

使用不同分辨率的图像从Pixart-alpha-1024检查点进行6000步微调,并使用SpeeDiT(https://github.com/kaiwang960112/SpeeD)加速扩散训练。

第一阶段

  1. 使用梯度检查点技术进行了24000步预训练,发现模型学习速度较慢。可能是因为训练步数比批次大小更重要。为了增加训练步数,我们切换到更小的批量并取消了梯度检查点。分辨率为240p和144p。
  2. 我们发现模型在处理长视频时学习效果不佳,生成的结果噪声较大,我们推测这与 Open-Sora 1.0 训练中发现的半精度问题有关。因此,我们采用了 QK-归一化来稳定训练。并增加遮罩比率至25%。

第一阶段的训练总步数为81000,64 个 H800 GPU,持续约一周。

第二阶段

切换到更高的分辨率,大多数视频分辨率为 240p 和 480p。

在所有预训练数据上进行了 22000 步的训练,耗时一天。

第三阶段

再次切换到更高的分辨率,大多数视频分辨率为 480p 和 720p。在高质量数据上进行了 4000 步的训练,耗时一天。我们发现加载前一阶段的优化器状态可以帮助模型更快地学习。

Report

https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md

封神榜项目

总项目

https://github.com/IDEA-CCNL/Fengshenbang-LM

20221121 太乙绘画使用手册

【腾讯文档】太乙绘画使用手册1.0 https://docs.qq.com/doc/DWklwWkVvSFVwUE9Q

20221110机器之心直播

https://mp.weixin.qq.com/s/nkVqC7JlZLqqUICGbgDjHw

人数破1万,目前位置机器之心直播人数最多。

全渠道加起来预计破2万。

并且,直播过程中的PPT,插图基于都是由我生成的!

太乙插画师

背影,整片星空,渺小的人类,巨大的星球,大师画作

人类和机器人一起探索未来

一直谨记身为人类的渺小,面对浩瀚无垠的宇宙,应当始终抱有敬畏之心。

同时,我也没有忘记,正是这渺小的人类,征服了一个又一个难题,让整个种族可以屹立于这个星球食物链的最顶端。

甚至,总有一天,我们会离开最初的家园,迈向神秘而未知的永恒。

封神榜开源模型

(太乙系列)-多模态模型

多模态基础模型

https://huggingface.co/IDEA-CCNL/Taiyi-vit-87M-D

https://huggingface.co/IDEA-CCNL/Taiyi-Roberta-124M-D

https://huggingface.co/IDEA-CCNL/Taiyi-Roberta-124M-D-v2

https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese

https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese

https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese

https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese

多模态文生图模型

https://huggingface.co/IDEA-CCNL/Taiyi-Diffusion-532M-Cyberpunk-Chinese

https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1064M-Chinese-v0.1

https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1

https://huggingface.co/IDEA-CCNL/Taiyi-Diffusion-532M-Nature-Chinese

(二郎神系列)

NLP模型

https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-RoBERTa-110M-Chinese

https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-MegatronBERT-1.3B-Chinese

https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-Albert-235M-English?text=Paris+is+the+[MASK]+of+France.

https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-DeBERTa-v2-110M-Chinese?text=The+goal+of+life+is+[MASK].

https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-RoBERTa-330M-Chinese?text=The+goal+of+life+is+[MASK].

https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-DeBERTa-v2-330M-Chinese

20220913 封神榜总论文直播

https://mp.weixin.qq.com/s/rDaupJw2QNTAvweanwXHEg

学术项目

20230707 NCAA tutorial speaker

题目:Large Models bridge the Digital-Real World Gap: from Understanding to Generation

https://dl2link.com/ncaa2023/program/tutorialSpeakers/#page-anchor

从VQA到多模态综述

收录2015-2021的多模态论文

其他工程项目

Overleaf显示页码插件

Update: 2024/04/20

Overleaf PDF Viewer Page Numbers

show page numbers in PDF preview panel

然而,overleaf在2024年7月份正式引入了这个功能。

(所以我的这个插件也不会有后续的更新了)

Arxiv跳转插件

Year: 2022

基于油猴

arxiv2readpaper&dblp

1.go to readpaper.com;2.rename downloaded paper; 3.go to dblp.com

择优进学网站搭建

Year: 2020

(现已失效)

择优进学塾官网-日本首家升学与就职一站式服务平台

毗邻多所日本名门大学的择优进学塾,开设有国内修士直升、理工科VIP、研究生申请、学部申请、SGU申请等服务。采用三种形式授课:线下课堂实地授课、线上网课直播授课、网络最新录播授课。截至目前已辅导过近千名中国留学生,学生遍布东一早庆等世界名校,学生毕业后,大部分进入日本各业界顶尖企业就职。极具人性化的辅导模式、全面丰富的辅导内容,好评满满的考学体验,这里就是择优进学塾。学出名堂,名企内定!