长期研究目标：在AI系统中，引入人类视角的信息，以构建更强大的AI系统以及更优雅的人机交互范式。

目录 Content

目录 Content
非实习期间
⭐[SIGIR-AP 2024] Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models
⭐[EMNLP 2024] ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models
⭐PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents
⭐[ACM TOIS 2024] SSR: Solving Named Entity Recognition Problems via a Single-stream Reasoner
[COLM 2024] StructLM: Towards Building Generalist Models for Structured Knowledge Grounding
CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark
⭐[SIGIR-AP 2023] EALM: Introducing Multidimensional Ethical Alignment in Conversational Information Retrieval
⭐[NTCIR 15] SKYMN at the NTCIR-15 DialEval-1 Task
IDEA研究院实习期间
⭐Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence
⭐Towards No.1 in CLUE Semantic Matching Challenge: Pre-trained Language Model Erlangshen with Propensity-Corrected Loss
⭐[EMNLP 2022] Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective
[ACL 2023] UniEX: An Effective and Efficient Framework for Unified Information Extraction via a Span-extractive Perspective
⭐[ACL 2023] Solving Math Word Problems via Cooperative Reasoning induced Language Models
清华大学RA期间
⭐[EMNLP 2021] MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering
⭐[CVPR 2023] MAP: Modality-Agnostic Uncertainty-Aware Vision-Language Pre-training Model
[EMNLP 2024] HoLLMwood: Unleashing the Creativity of Large Language Models in Screenwriting via Role Playing
⭐ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation
腾讯实习期间
[ACM MM 2022] Breaking Isolation: Multimodal Graph Fusion for Multimedia Recommendation by Edge-wise Modulation

⭐：Co-first Author

📄：Conference Papers

📘：Journal Papers

非实习期间

读博期间，或者是多方合作的工作。

⭐[SIGIR-AP 2024] Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models

📄 Arxiv https://arxiv.org/abs/2410.03212
https://dl.acm.org/doi/10.1145/3673791.3698429
Information retrieval, Natural language processing, Reinforcement learning, Search methodologies, Massive tool retriveval
Update @2024/10/13

我们提出了一个任务Massive Tool Retrieval，在大模型调用Tools之前，先从大数据库中检索出1-10个工具，然后再提供给大模型进行调用。根据此，我们提出了一个QTA框架，完成该任务。

我们使用LLM对user query进行改写，并使用DPO对LLM的改写能力进行优化，使其改写的query更接近tool document的分布，进而改进检索模型的性能。

我们的方法在大部分指标下都取得了SOTA的性能。

⭐[EMNLP 2024] ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models

📄 Arxiv https://arxiv.org/abs/2406.20015
Multi-level evaluation, Tool-augmented LLMs, Hallucination, Metrics, Benchmark
Update @2024/06/28

用户在向Tool-using LLM询问的时候，经常会收到带有幻觉的回答，比如，错误的工具和不存在的工具。

增加一个特殊的工具“Unsolvable”表示该action无法使用现有工具完成
构建榜单的准则：a 来自真实世界的不可解决问题；b 考虑深度，使用多层级的评测方法；c 考虑广度，尽可能的涵盖幻觉诱导的场景
提出一个人和LLM互动的Loop。

开源模型幻觉问题非常严重
闭源模型效果不佳，且最新的模型才开始重视
评测的层级越深，模型越无力，甚至成功率为0

⭐PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

📄 Arxiv https://arxiv.org/abs/2406.13923
Multimodal, Dataset, Data format, knowledge-intensive, MLLM, Training strategies
Update @2024/06/20

现有的多模态模型的推理能力差
原因是现有的数据集格式存在挑战：a缺少知识属性；b知识丰度太低；c格式之间不互通，导致没办法一起训练

一条数据的样本

当前已经开源的PIN-14M的样例

⭐[ACM TOIS 2024] SSR: Solving Named Entity Recognition Problems via a Single-stream Reasoner

📘ACM TOIS 2024 https://dl.acm.org/doi/10.1145/3655619
早期ArXiv https://arxiv.org/abs/2305.03970
Information Extraction, Named Entity Recognition, Human behaviors
Update: @2024/04/15

目标：使用MRC的视角解决NER问题

Sequence Labeling: 只预测标签，丢失太多信息（问题，上下文，注释）
Index Predicting: 针对同一个上下文，不同的问题需要单独设计不同的预测格式，并且需要特殊的后处理算法

将NER问题的格式重构成（上下文，问题，选项）的三元组的格式
我们的框架可以兼容现有的强大的MRC策略，可以进行推理
预测的是选项，而不是无意义的label或者index

超过了目前的所有方法。甚至超过了一些需要搜索引擎的方法，比如CL-KL。

我们的方法在低资源的表现依然强劲。比如，在训练数据仅有4%的情况下，仍然拥有47左右的F1分数。

[COLM 2024] StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

📄 COLM 2024 Arxiv https://arxiv.org/abs/2402.16671
Structured knowlegde grounding, LLM, unified format, multiple sources
Update @2024/02/27

用户需要查询结构化和非结构化数据，但是现有LLM的表现不佳
结构化数据和非结构化数据之间存在语义的gap

提出了一个格式化不同源数据的流程，收集了25个任务700k条样本。
收集数据后在7到34B的LLM上进行微调
得益于统一的数据格式，简化了测评的流程

使用一个模型就可以媲美数个SOTA模型
对非域内的任务也有强大的泛化能力

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark

📄 Arxiv https://arxiv.org/abs/2401.11944
Multimodal understanding, chinese, evaluation
Update @2024/01/22

目标：如何评测多模态大模型的中文专业问题能力？

参考MMLU等，我们引入专业的考试题
横跨6个学科，我们收集了超过12k条测试样本
对GPT-4V的评测情况，我们进对150条数据行了详细的错误分析

闭源模型领先于开源模型，但是距离不算大
即使是只输入问题，不考虑图片，纯语言模型也可以进行某种程度的猜测，不过和随机猜测很接近
图片信息非常重要。而且单纯对图片进行OCR并不会对评测有帮助

⭐[SIGIR-AP 2023] EALM: Introducing Multidimensional Ethical Alignment in Conversational Information Retrieval

📄 SIGIR-AP 2023 ArXiv https://arxiv.org/abs/2310.00970
Human ethics, multidimensional ethical alignment
Update: @2023/09/10

现在的对话检索系统（CIR），可能会输出带有伦理争议的内容
现有的方法，一个伦理判断模型，只能判断一种道德观念。所以，随着观念的改变，维护这样的模型需要巨大的成本

我们：

提出了一个叫做EAP（Ethical Alignment Process）解耦的流程，可以用于过滤CIR模型的训练数据或者其输出
为了支撑EAP，我们设计了一个可以评估多个道德观的EALM模型
得益于统一的数据格式，简化了测评的流程，并且EALM因为可以同时学习不同的道德观性能更好

我们的EALM使用了注意力机制，可以学习不同的道德观。达到了SOTA。
在困难的任务上也表现地非常出色

⭐[NTCIR 15] SKYMN at the NTCIR-15 DialEval-1 Task

📄 NTCIR 15 http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings15/pdf/ntcir/03-NTCIR15-DIALEVAL-WangJ.pdf
NLP, Dialogue Evaluation, Multiple Models, Label-based Training
Update: @2020/12/08

（当年我还不知道有MoE这个概念）

使用MoE架构模拟19个标注者的行为习惯，然后综合评分成一个分数分布。

IDEA研究院实习期间

⭐Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence

📄 ArXiv https://arxiv.org/abs/2209.02970
NLP, Pre-trained Language Models, Deep Learning Framework, Benchmark, Chinese
Update: @2022/09/07

整个项目包括了三个主要的子项目：封神榜模型，封神框架，封神榜单

封神榜模型：每一个系列对应不同的用户需求和适用不同任务

封神框架

提供一站式服务，开源了模型从预训练到demo的各种代码，比如，预训练、微调、零样本输出、demo等。

封神榜单：

我们遵循三个准则构建该榜单：1. 翻译已经广泛使用的榜单 2. 面向未来的 3. 实用的

⭐Towards No.1 in CLUE Semantic Matching Challenge: Pre-trained Language Model Erlangshen with Propensity-Corrected Loss

📄 ArXiv https://arxiv.org/abs/2208.02959
NLP, Semantic Matching, Sentence Similarity, Propensity-Corrected Loss, CLUE

获得了CLUE语义匹配榜的第一

因为该榜单的数据是0,1,2的分类，所以我们提出了一个新的loss。
假如gt为0，预测为2，则施加更大的惩罚。反之亦然。

⭐[EMNLP 2022] Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective

📄 EMNLP 2022 https://aclanthology.org/2022.emnlp-main.474/
ArXiv https://arxiv.org/abs/2210.08590
NLP, Zero-shot, NLU, Unified Format
Update: @2022/10/24

报道：https://mp.weixin.qq.com/s/m0_W31mP4xKKla8jIwUXkw

打破不可能三角

目标：如何使用轻量化的模型解决从未见过的选择题？

Prompt tuning：需要大量人工做提示工程或者设计好verbalizer
Instruction tuning：需要人工设计大量的转换模版
Fine tuning：需要针对每一个任务，设计一个分类头，而且每次都需要训练，无法在实现zero-shot

目标：教会PMLM模型做选择题
几乎不需要增加额外的prompt，就可以整合不同的任务
提出复用MASK头的O-MLM和OP任务，可以让PMLM模型（类似于BERT）完全抛弃分类头，实现zero-shot预测
一次调整就可以在多个未见过的任务进行零样本预测

模型：

针对PMLM，我们修改了其输入和输出部分。
增加O-MASK token以代表是否“选择”该选项。
修改position id，segment id和attention mask以实现选项之间的互不干扰

我们提出的UniMC在自然语言推断任务上，超过了数千倍大小的PaLM

CLUE的fewCLUE和zeroCLUE榜单

[ACL 2023] UniEX: An Effective and Efficient Framework for Unified Information Extraction via a Span-extractive Perspective

📄 ACL 2023 https://aclanthology.org/2023.acl-long.907/
ArXiv https://arxiv.org/abs/2210.16257
Information extraction, unified framework, zero-shot, few-shot, finetuning, multitaak learning
Update: @2023/06/18

自然语言理解问题分为两大类：选择题，信息抽取

UniMC在信息抽取任务上的续作：

目标：如何使用轻量化的模型解决未见过的信息抽取问题？

Task-specialized IE：需要针对每一个信息抽取任务进行特殊设计，比如，关系抽取和实体抽取。
Generative Universal IE：需要专门人工设计大量的prompt且需要额外的特殊的后处理流程

目标：教会PMLM模型用做选择题的方法做信息抽取
几乎不需要增加额外的prompt，就可以整合所有类型的信息抽取任务
提出复用MASK头的对预测的向量进行三仿射映射，完成自动解码

模型：

针对PMLM，我们修改了其输入和输出部分。
信息抽取任务可以被完整地分成三类任务：span预测，span分类和span关系。因此我们根据这三个任务设置了三个token，修改其输入使其适应需要的任务。
修改position id，segment id和attention mask以实现选项之间的互不干扰
修改输出利用三个MLP层映射到一个3维矩阵中，直接解码即可。

我们提出的UniEX在4大任务下，均战胜了百度的UIE或者打平

我们提出的UniEX的推理速度在16-res任务上是UIE的19.7倍

⭐[ACL 2023] Solving Math Word Problems via Cooperative Reasoning induced Language Models

📄 ACL 2023 https://aclanthology.org/2023.acl-long.245/
ArXiv https://arxiv.org/abs/2210.16257
Reasoning, math problems, language models, improving LMs
Update: @2023/05/04

目标：如何使用LLM做数学推理？

基于prompt的方法：单系统，只能做推理无法做验证
基于双系统的方法：可以做验证，但是存在挑战：a 参数量大（OpenAI用了350B）；b只考虑了path的验证没有考虑step的

我们讲generator作为system1，verifier作为system2，设计了一系列基于合作的交互方式，使其可以进行协同训练，协同推理和自我反思。
整个流程还有一个额外的好处，可以不断利用system1生成样本，然后使用system2打分，进而我们可以根据分数进行筛选出优质的合成数据，进一步地扩充数据集。

可视化

我们在zero-shot的场景下可以超过需要使用ft的SOTA模型

在GMS8K的ft的设置下，我们可以击败350B的GPT-3；且可以战胜540B的PaLM的few-shot性能

清华大学RA期间

⭐[EMNLP 2021] MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering

📄 EMNLP 2021 https://aclanthology.org/2021.findings-emnlp.196/
Multimodal interaction, VQA, trilinear transformers
Update: @2021/10/07

目标：VQA任务中，如何引入候选答案的信息？

现有的双线性方法：只考虑两个信息源（问题，图片）
现有的三线性方法：考虑3个信息源（问题，图片，候选答案），忽视了模态内信息

提出一个三线性的表征提取器，考虑模态内和模态间的信息

为了将任务从多项选择VQA扩展到开放问答VQA，我们设计了一个两阶段的工作流

战胜了之前的SOTA

问题：火车的主要颜色

问题-选项（红色）= 物体5（火车）获得最高的注意力
问题-选项（金色）= 物体2（火车头）比之前获得了更高的注意力，模型可以发现车头的颜色中金色的占比比较高

⭐[CVPR 2023] MAP: Modality-Agnostic Uncertainty-Aware Vision-Language Pre-training Model

📄 CVPR 2023 https://openaccess.thecvf.com/content/CVPR2023/html/Ji_MAP_Multimodal_Uncertainty-Aware_Vision-Language_Pre-Training_Model_CVPR_2023_paper.html
ArXiv https://arxiv.org/abs/2210.05335
Multimodal, Multimodal Pre-training, Distribution Representation, Vision-Language Downstream tasks
Update: @2022/10/21

目标：建模多模态中的不确定性

多模态数据拥有丰富的不确定性，学习该不确定性可以帮助模型更好的理解数据的深度语义，进而进行更精确的表达
多模态不确定性包括了模态内和模态间不确定性
现有的方法没有考虑不确定性，或者只考虑了基于表征内建模，没有考虑序列层级

提出一个即插即用的模块Probability Distribution Encoder (PDE) ，考虑表征内和序列层级的不确定性建模
如(e)，我们的PDE建模后的高斯分布向量比起点向量可以表达丰富的不确定性
为了在无标签的数据中建模不确定性，我们提出了基于表征的预训练方法：Vision-Language Contrastive learning (D-VLC), Masked Language Modeling (D-MLM), Image-Text Matching (D-ITM)

我们的方法在跨模态检索中达到了SOTA
我们的方法超过了专门为跨模态检索设计的ALBEF

丰富的语义信息：

交集：一个年轻的男孩
子集：8包括了4，椭圆图也是

分布：可以用形状、位置、距离等进行分析
点：只能用距离进行分析

[EMNLP 2024] HoLLMwood: Unleashing the Creativity of Large Language Models in Screenwriting via Role Playing

📄 Arxiv https://arxiv.org/abs/2406.11683
Role-playing mechanism, Screenwriting, Feedback
Update @2024/06/17

目标：用LLM进行艺术创作

全自动的编剧框架HOLLMWOOD：

作家，编辑（为作家提供关于角色和情节的修订建议），演员（剧本中的角色且和其他角色互动）

样例：

连贯性、相关性和趣味性的PK中均是我们的方法取胜。

⭐ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

📄 Arxiv https://arxiv.org/abs/2406.09961
Chart-to-Code, Evaluation, Metrics, MLLM, Multimodal, Benchmark
Update @2024/06/14

我们需要多模态科研助手，帮助我们理解图表数据，甚至是绘制出该图表
然而，我们不知道现有的多模态大模型的性能如何，现有的评测集过于简单，没有区分度
现有的一些评测集甚至有泄漏

构建一个针对chart to code的评测集
构建哲学：具有丰富信息丰度的视觉输入；多样的图表类型；多层级的评测指标
从arxiv中构造数据避免信息泄露

闭源模型的能力非常领先
开源模型并不是模型参数量越大越好，需要考虑训练数据中的信息丰度

错误分析：

代码：调用函数发生错误的占比最大
文本：文本过量或者是文本遗失比较多，至少说明模型对文本的数量理解不够
类型：没有意识到该图标的类型或者是使用了错误的类型
颜色：大部分是用了相似的颜色

腾讯实习期间

[ACM MM 2022] Breaking Isolation: Multimodal Graph Fusion for Multimedia Recommendation by Edge-wise Modulation

📄 ACM MM 2022 https://dl.acm.org/doi/abs/10.1145/3503161.3548399
Multimedia, Multimodal Recommendation, Multimodal Graph. Fusion
Update: @2022/10/10

在以往的基于GCN的多模态推荐的工作中，大多利用下图所示的方法进行图级别的多模态融合。

如(a)所示，该方法为每个模态单独创建一个子图，最终通过拼接或者注意机制等操作进行多模态融合。模态信息在自己的子图中进行传播，不同模态之间的信息不会相互影响，忽略了模态之间的潜在联系；
如(b)所示，该方法是基于节点对齐的方法，物品的每一个模态都被视为一个节点，与其他模态和用户连接。模态之间的信息可以在这个异质图中进行传播，但会引入额外的噪声，并且该方法只适用于小规模数据，否则会带来巨大的内存消耗。

如下图所示，为了解决上述提到的问题，研究提出了Edge-wise Multimodal Modulated Graph Convolutional Network（EgoGCN）的模型。它在保留图(a)单模态子图的基础上，添加了一个自适应的融合操作模块（EGO）来指导传播模态之间的信息。EGO融合能够学习一个edge-wise多模态调制器，在模态内部信息传播的过程中通过邻居节点其他模态的信息来调制节点的特征。

基于重要度感知的硬调制（hard）：基于用户-物品交互的重要程度融合部分邻居节点的模态信息
基于影响驱动的软调制（soft）：于其他模态的影响程度指导所有邻居节点信息的融合。

主要包括三个部分：多模态传播、ID嵌入传播以及预测层。

在Movielens上使用硬调制效果最好，在Tiktok上使用软调制效果最好。两者均优于其他极限模型。