Last Updated: 2024.08.19

目录
多模态数据处理
Open-sora
封神榜项目
总项目
20221121 太乙绘画使用手册
20221110机器之心直播
太乙插画师
封神榜开源模型
20220913 封神榜总论文直播
学术项目
20230707 NCAA tutorial speaker
从VQA到多模态综述
其他工程项目
Overleaf显示页码插件
Arxiv跳转插件
择优进学网站搭建

多模态数据处理

Open-sora

时间：2024.04-2024.06

项目地址：hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All (github.com)

最新demo视频片段：

数据处理流程 Data Processing

数据集的数量和质量都很重要

我们建立了一个自动化的流程：

场景剪辑
美学分数过滤
光流分数过滤
OCR过滤（剔除过多文本含量的场景）
字幕生成（计算匹配分数过滤）
其他流程（文本清理，meta标注等）

只准备了10M数据集，最终使用9.7M视频和2.6M图片进行预训练，560k视频和1.6M图片进行微调。

最终视频长度：

大部分视频集中在36-256帧

训练

第零阶段

使用不同分辨率的图像从Pixart-alpha-1024检查点进行6000步微调，并使用SpeeDiT（https://github.com/kaiwang960112/SpeeD）加速扩散训练。

第一阶段

使用梯度检查点技术进行了24000步预训练，发现模型学习速度较慢。可能是因为训练步数比批次大小更重要。为了增加训练步数，我们切换到更小的批量并取消了梯度检查点。分辨率为240p和144p。
我们发现模型在处理长视频时学习效果不佳，生成的结果噪声较大，我们推测这与 Open-Sora 1.0 训练中发现的半精度问题有关。因此，我们采用了 QK-归一化来稳定训练。并增加遮罩比率至25%。

第一阶段的训练总步数为81000，64 个 H800 GPU，持续约一周。

第二阶段

切换到更高的分辨率，大多数视频分辨率为 240p 和 480p。

在所有预训练数据上进行了 22000 步的训练，耗时一天。

第三阶段

再次切换到更高的分辨率，大多数视频分辨率为 480p 和 720p。在高质量数据上进行了 4000 步的训练，耗时一天。我们发现加载前一阶段的优化器状态可以帮助模型更快地学习。

Report

https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_02.md

封神榜项目

总项目

https://github.com/IDEA-CCNL/Fengshenbang-LM

20221121 太乙绘画使用手册

【腾讯文档】太乙绘画使用手册1.0 https://docs.qq.com/doc/DWklwWkVvSFVwUE9Q

20221110机器之心直播

https://mp.weixin.qq.com/s/nkVqC7JlZLqqUICGbgDjHw

人数破1万，目前位置机器之心直播人数最多。

全渠道加起来预计破2万。

并且，直播过程中的PPT，插图基于都是由我生成的！

太乙插画师

背影，整片星空，渺小的人类，巨大的星球，大师画作

人类和机器人一起探索未来

一直谨记身为人类的渺小，面对浩瀚无垠的宇宙，应当始终抱有敬畏之心。

同时，我也没有忘记，正是这渺小的人类，征服了一个又一个难题，让整个种族可以屹立于这个星球食物链的最顶端。

甚至，总有一天，我们会离开最初的家园，迈向神秘而未知的永恒。

封神榜开源模型

（太乙系列）-多模态模型

多模态基础模型

https://huggingface.co/IDEA-CCNL/Taiyi-vit-87M-D

https://huggingface.co/IDEA-CCNL/Taiyi-Roberta-124M-D

https://huggingface.co/IDEA-CCNL/Taiyi-Roberta-124M-D-v2

https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese

https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese

https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese

https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese

多模态文生图模型

https://huggingface.co/IDEA-CCNL/Taiyi-Diffusion-532M-Cyberpunk-Chinese

https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1064M-Chinese-v0.1

https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1

https://huggingface.co/IDEA-CCNL/Taiyi-Diffusion-532M-Nature-Chinese

（二郎神系列）

NLP模型

https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-RoBERTa-110M-Chinese

https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-MegatronBERT-1.3B-Chinese

https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-Albert-235M-English?text=Paris+is+the+[MASK]+of+France.

https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-DeBERTa-v2-110M-Chinese?text=The+goal+of+life+is+[MASK].

https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-RoBERTa-330M-Chinese?text=The+goal+of+life+is+[MASK].

https://huggingface.co/IDEA-CCNL/Erlangshen-UniMC-DeBERTa-v2-330M-Chinese

20220913 封神榜总论文直播

https://mp.weixin.qq.com/s/rDaupJw2QNTAvweanwXHEg

学术项目

20230707 NCAA tutorial speaker

题目：Large Models bridge the Digital-Real World Gap: from Understanding to Generation

https://dl2link.com/ncaa2023/program/tutorialSpeakers/#page-anchor

从VQA到多模态综述

收录2015-2021的多模态论文

其他工程项目

Overleaf显示页码插件

Update: 2024/04/20

Overleaf PDF Viewer Page Numbers

show page numbers in PDF preview panel

https://greasyfork.org/en/scripts/491003-overleaf-pdf-viewer-page-numbers

然而，overleaf在2024年7月份正式引入了这个功能。

（所以我的这个插件也不会有后续的更新了）

Arxiv跳转插件

Year: 2022

基于油猴

arxiv2readpaper&dblp

1.go to readpaper.com;2.rename downloaded paper; 3.go to dblp.com

https://greasyfork.org/en/scripts/448343-arxiv2readpaper-dblp

择优进学网站搭建

Year: 2020

（现已失效）

择优进学塾官网-日本首家升学与就职一站式服务平台

毗邻多所日本名门大学的择优进学塾，开设有国内修士直升、理工科VIP、研究生申请、学部申请、SGU申请等服务。采用三种形式授课：线下课堂实地授课、线上网课直播授课、网络最新录播授课。截至目前已辅导过近千名中国留学生，学生遍布东一早庆等世界名校，学生毕业后，大部分进入日本各业界顶尖企业就职。极具人性化的辅导模式、全面丰富的辅导内容，好评满满的考学体验，这里就是择优进学塾。学出名堂，名企内定！

https://www.tc-edugroup.com/

目录