学术发表 Publications

Posted on Sat, Oct 14, 2023 announcement

长期研究目标:在AI系统中,引入人类视角的信息,以构建更强大的AI系统以及更优雅的人机交互范式。

目录 Content

⭐:Co-first Author

📄:Conference Papers

📘:Journal Papers

非实习期间

读博期间,或者是多方合作的工作。

⭐[SIGIR-AP 2024] Data-Efficient Massive Tool Retrieval: A Reinforcement Learning Approach for Query-Tool Alignment with Language Models

我们提出了一个任务Massive Tool Retrieval,在大模型调用Tools之前,先从大数据库中检索出1-10个工具,然后再提供给大模型进行调用。根据此,我们提出了一个QTA框架,完成该任务。

我们使用LLM对user query进行改写,并使用DPO对LLM的改写能力进行优化,使其改写的query更接近tool document的分布,进而改进检索模型的性能。

我们的方法在大部分指标下都取得了SOTA的性能。

⭐[EMNLP 2024] ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models

用户在向Tool-using LLM询问的时候,经常会收到带有幻觉的回答,比如,错误的工具和不存在的工具。

⭐PIN: A Knowledge-Intensive Dataset for Paired and Interleaved Multimodal Documents

一条数据的样本

当前已经开源的PIN-14M的样例

⭐[ACM TOIS 2024] SSR: Solving Named Entity Recognition Problems via a Single-stream Reasoner

目标:使用MRC的视角解决NER问题

超过了目前的所有方法。甚至超过了一些需要搜索引擎的方法,比如CL-KL。

我们的方法在低资源的表现依然强劲。比如,在训练数据仅有4%的情况下,仍然拥有47左右的F1分数。

[COLM 2024] StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark

目标:如何评测多模态大模型的中文专业问题能力?

⭐[SIGIR-AP 2023] EALM: Introducing Multidimensional Ethical Alignment in Conversational Information Retrieval

我们:

⭐[NTCIR 15] SKYMN at the NTCIR-15 DialEval-1 Task

(当年我还不知道有MoE这个概念)

IDEA研究院实习期间

⭐Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence

整个项目包括了三个主要的子项目:封神榜模型,封神框架,封神榜单

提供一站式服务,开源了模型从预训练到demo的各种代码,比如,预训练、微调、零样本输出、demo等。

我们遵循三个准则构建该榜单:1. 翻译已经广泛使用的榜单 2. 面向未来的 3. 实用的

⭐Towards No.1 in CLUE Semantic Matching Challenge: Pre-trained Language Model Erlangshen with Propensity-Corrected Loss

获得了CLUE语义匹配榜的第一

⭐[EMNLP 2022] Zero-Shot Learners for Natural Language Understanding via a Unified Multiple Choice Perspective

报道:https://mp.weixin.qq.com/s/m0_W31mP4xKKla8jIwUXkw

打破不可能三角

目标:如何使用轻量化的模型解决从未见过的选择题?

模型:

CLUE的fewCLUE和zeroCLUE榜单

[ACL 2023] UniEX: An Effective and Efficient Framework for Unified Information Extraction via a Span-extractive Perspective

自然语言理解问题分为两大类:选择题,信息抽取

UniMC在信息抽取任务上的续作:

目标:如何使用轻量化的模型解决未见过的信息抽取问题?

模型:

我们提出的UniEX在4大任务下,均战胜了百度的UIE或者打平

我们提出的UniEX的推理速度在16-res任务上是UIE的19.7倍

⭐[ACL 2023] Solving Math Word Problems via Cooperative Reasoning induced Language Models

目标:如何使用LLM做数学推理?

可视化

我们在zero-shot的场景下可以超过需要使用ft的SOTA模型

在GMS8K的ft的设置下,我们可以击败350B的GPT-3; 且可以战胜540B的PaLM的few-shot性能

清华大学RA期间

⭐[EMNLP 2021] MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering

目标:VQA任务中,如何引入候选答案的信息?

战胜了之前的SOTA

问题:火车的主要颜色

⭐[CVPR 2023] MAP: Modality-Agnostic Uncertainty-Aware Vision-Language Pre-training Model

目标:建模多模态中的不确定性

丰富的语义信息:

[EMNLP 2024] HoLLMwood: Unleashing the Creativity of Large Language Models in Screenwriting via Role Playing

目标:用LLM进行艺术创作

全自动的编剧框架HOLLMWOOD:

作家,编辑(为作家提供关于角色和情节的修订建议),演员(剧本中的角色且和其他角色互动)

样例:

连贯性、相关性和趣味性的PK中均是我们的方法取胜。

⭐ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

错误分析:

腾讯实习期间

[ACM MM 2022] Breaking Isolation: Multimodal Graph Fusion for Multimedia Recommendation by Edge-wise Modulation

在以往的基于GCN的多模态推荐的工作中,大多利用下图所示的方法进行图级别的多模态融合。

如下图所示,为了解决上述提到的问题,研究提出了Edge-wise Multimodal Modulated Graph Convolutional Network(EgoGCN)的模型。它在保留图(a)单模态子图的基础上,添加了一个自适应的融合操作模块(EGO)来指导传播模态之间的信息。EGO融合能够学习一个edge-wise多模态调制器,在模态内部信息传播的过程中通过邻居节点其他模态的信息来调制节点的特征。

主要包括三个部分:多模态传播、ID嵌入传播以及预测层。

在Movielens上使用硬调制效果最好,在Tiktok上使用软调制效果最好。两者均优于其他极限模型。