徐林莉


E- mail:linlixu@ustc.tsg211.com

个人主页:http://staff.ustc.tsg211.com/~linlixu/ 


主要研究方向:机器学习(Machine Learning),数据挖掘(Data Mining)。


徐林莉,女,博士,教授。2002年毕业于图书馆VIP计算机科学与技术系,获学士学位;2007年于加拿大滑铁卢大学(University of Waterloo)计算机学院获得博士学位。

研究着重于从复杂的数据中学习有价值的信息,利用数学建模发展相应的算法。研究课题包括各种聚类(Clustering)算法,非监督学习(Unsupervised Learning)以及半监督学习(Semi-supervised Learning),支持向量机(Support Vector Machines)及其相关的扩展,凸优化算法(Convex Programming)在机器学习中的应用等。在人工智能/机器学习领域顶级国际会议中发表论文多篇。



导师选题:

基于DPO的多模态大模型公式识别增强使用视觉语言模型(Vision-Language Models, VLMs)如LLaVA做公式识别任务,模型输出序列会出现无法被正确解析的情况。现在想探索DPO对增强VLMs的公式识别效果的帮助。
     大二学生可能需要的基础:
1 LaTex的公式用法;2   Transformer架构(LLaVA的图像编码器、语言解码器);3 Pytorch模型训练方法(Huggingface Trainer的用法);4 DPO(直接偏好优化)算法。
     研究路线:
1确定一个VLM基础模型,如LLaVA或者其他已经在公式识别上表现良好的VLM2确定一个公式识别数据集。3使用数据集中的训练集去训练基础模型。4拿训练好的模型去测评训练集和测试集,分析指标以及case实际表现。5将训练集的评测结果中的错误样本当做负样本,原本的标注当做正样本,做DPO训练(代码可以参考HuggingFace TRL)。6再进行第4步,并着重比较测试集的指标是否有提升。
基于推理链的大语言模型高效增强研究随着Openai ChatGPT-o1的推出,研究人员逐渐意识到inference scaling law的重要性,通过规划合理的推理链条,很多复杂的问题能够被一步步拆分得到正确答案,这在传统的重训练轻推理范式中是很难做到的。因此,我们能否以一种相对低廉的代价构建出专注于推理能力的模型,搭配具有世界知识的大模型来实现接近于GPT-o1的性能表现?
     基础要求:
1. 熟悉大语言模型的训练流程,数据构造;2. 熟练COT的相关工作;3. 能够自己实现大模型SFT流程;4. 熟悉强化学习的基础知识。
     研究路线:
1. 最重要的部分是如何构造推理链数据,由于gpt-o1不提供推理的中间步骤和高昂的使用费用,以往基于gpt重新标注的方法构建大语言模型的方法不再适用。因此我们需要通过其他方案构造推理链的数据;2. 尝试进行相对小尺寸的模型进行专项微调增强其逻辑推理的能力;3. 结合小尺寸模型和大尺寸模型形成规划-验证的推理框架。
小尺寸语言模型多层次性能评测近年来,小尺寸语言模型(指参数小于 3B 的模型)因推理速度快、资源消耗小且性能优异,逐渐成为关注焦点。这些模型能够部署在端侧,具备较强的实用性。然而,现有的评测指标存在一定污染,导致排名靠前的小模型在实际应用中表现不佳。此外,很多小参数模型与大模型架构一致,因参数量减少而带来的性能下降具体表现尚未明确。例如,常识推理缺乏、指令遵循能力下降、语言生成流畅性降低等问题亟需进一步探讨。我们希望在架构一致的前提下,明确小尺寸模型能力的不足之处,尤其是像 Qwen2.5 这种多尺寸模型(0.5B-72B)在参数量变化带来的性能下降中,哪些能力得到了较好的保留。尤其值得关注的是,推理能力在小模型中的保留情况。如果在推理过程中适当介入(尽可能最小化干预),小模型的推理能力是否能得到增强,值得进一步研究。
     基础要求:
1. 熟悉常见的大语言模型架构。2. 能够使用   Transformers 库部署语言模型并进行推理。3. 对微调大语言模型感兴趣并愿意尝试。
     研究路线:
1. 多方面评测小尺寸语言模型的性能,并结合具体案例分析其具体不足之处。2. 探究同一架构下,参数量减少对模型各项能力的保留和削弱程度。3. *如果推理能力得以保留,尝试通过最小化介入,最大限度提升小语言模型的推理性能。
小尺寸语言模型 Self-play 微调的性能探索近年来,小尺寸语言模型(参数小于 3B)因推理速度快、资源消耗小、性能较高而备受关注,尤其适合端侧部署。然而,这类模型的性能下降较为明显,亟需改进。自我博弈微调(Self-play FinetuningSPIN)作为一种无需新增人类标注数据的技术,已获得广泛关注。SPIN 的核心理念是模型通过对比自生成的数据与人类标注数据进行优化,这一过程类似于自我博弈,旨在逐步提升小模型的性能。
     基础要求:
1. 能熟练使用 Transformers 库进行模型推理与训练,具备 GitHub 使用经验。2. 对微调大语言模型有浓厚兴趣并愿意尝试。3. 数理基础扎实
     研究路线:
1. 在小尺寸语言模型(参数量小于 7B)上复现   SPINSPIN 项目地址),并分析不同模型的性能提升逻辑。2. 探讨 self-play 微调的性能上限,研究如何进一步改进算法,以及如何有效减少所需合成数据的数量。
Reference Paper: Self-Play Fine-Tuning Converts   Weak Language Models to Strong Language Models (ICML 2024,   https://arxiv.org/abs/2401.01335)
MLLM多视觉编码器集成研究MLLM通常包括Vision EncoderVision ProjectorLLM三部分,其中视觉编码器的视觉特征提取能力严重影响MLLM的最终性能。常见的视觉编码器如CLIP采用大规模的图像文本对进行对比预训练,虽然其编码的视觉特征与文本空间有较好对齐,但比较缺乏图像细粒度信息感知能力。SAM在大规模图像上进行语义分割训练,具备像素级信息感知能力。依赖单一的视觉编码器,由于各自的缺陷,可能限制MLLM对图像的理解,已有论文证明可以通过组合多个视觉编码器来增强MLLM的表现,如BRAVEEAGLEMouSiFrom   CLIP to DINO等。但这种模型集成的方式不够简洁优雅,计算开销也比较大,可以研究如何在训练阶段将多个视觉编码器蒸馏为一个强大的视觉编码器,MLLM仅依赖该视觉编码器来完成各项任务。
     基础要求:
1. 对多模态大模型感兴趣;2. Pytorchtransformers等框架有一定基础;3. 有意愿了解LLaVA等多模态大模型的架构;4. 有意愿了解CLIPSAMDINOConvNext等常见的视觉编码器及各自的特点。
     研究路线:
1. 采用不同的单一视觉编码器,训练不同版本的LLaVA作为Baseline2. 将多个视觉编码器的能力蒸馏到一个基础视觉编码器中,可参考论文AM-RADIO3.   采用该蒸馏得到的视觉编码训练LLaVA4. 预期实验结果:依赖蒸馏得到的视觉编码器的MLLM优于依赖单一视觉编码器的MLLM;依赖蒸馏得到的视觉编码器的MLLM表现与直接使用多个视觉编码器的表现可比。