VisionXLab

@RethinkLab

Xue Yang

Assistant ProfessorPh.D. SupervisorShanghai Jiao Tong University

Links

Xue Yang

Assistant Professor, Ph.D. Supervisor

School of Automation and Intelligent Sensing, Shanghai Jiao Tong University

800 Dongchuan Road, Shanghai, 200240, China

📧 [email protected], [email protected], [email protected]

我正在寻找自驱力较强的攻读硕/博士（2027年保研、拿到2026年及以后创智/中关村/河套等国家AI学院offer）的学生、实习生，与严骏驰教授共同指导，目标是在基础视觉、多模态大模型、空间智能等课题上做出有影响力的工作。请随时通过电子邮件与我联系。

Looking for self-motivated students (Master/Ph.D. 2027 spring & fall), interns to join us, co-supervised by Prof. Junchi Yan, with the goal of doing impactful work on the topic of Fundamental Vision, Multimodal Large Language Model, Spatial Intelligence, etc. Please do not hesitate to contact me via email.

🔑 Research Interests

My research interests include Fundamental Vision, Multimodal Large Language Model, Spatial Intelligence, etc.

📝 Short Biography

Xue Yang has published about 70 papers Citations: 11705 at the top-tier international CV/ML/AI conferences and journals, such as TPAMI, IJCV, CVPR, ECCV, ICCV, ICML, NeurIPS, ICLR, AAAI and ACM MM. He is also the leading contributor to the MMRotate , AlphaRotate and JDet open-source projects for oriented object detection, and with 8000+ stars in Github.

Xue Yang won SJTU Outstanding Doctoral Dissertation (2023), CCF Outstanding Doctoral Dissertation Award (2023), CCF-CV Academic Emerging Scholar (2022), Shanghai Outstanding Graduates (2023), Doctoral National Scholarship (2021/2022), SJTU Academic Star Nomination Award (2021), and also selected into the 10th Young Elite Scientist Sponsorship Program by CAST (2024), the Shanghai QiYuan Young Scholars Program, the World's Top 2% Scientists List (2023-2025), and the Elsevier's 2024 Most Cited Chinese Researchers.

🔥 Latest News

2026-02

Five paper related to Safety of LLMs are accepted by ACL 2026 (two Main Conference, three Findings). Congratulations to Yu Tian. 🎉🎉🎉

2026-03

CitationClaw released. Turning Every Citation into Explainable Impact.

2026-02

Received 2025 Reviewer Certificate from IEEE TPAMI

2026-02

Five paper related to Video Tokenization (AdapTok), PEFT (CrossEarth-Gate), Visual Grounding (GeoVis, Oral), OBB (PWOOD), AD (SpatialRetrievalAD) are accepted by CVPR 2026. Congratulations to Yan Li, Ziyang Gong, Mingxin Liu, Xiaosong Jia. 🎉🎉🎉

2026-02

One paper related to weakly-supervised segmentation (SAPNet++) is accepted by TPAMI. Congratulations to Zhaoyang Wei. 🎉🎉🎉

2026-01

Shortlisted for Elsevier's 2025 Most Cited Chinese Researchers

2026-01

Six papers related to VLM (MM-Helix, SpaCE-10), OBB (SPWOOD, Point2RBox-v3), VLA (InterleaveVLA), Gen (OF-Diff) are accepted by ICLR 2026. Congratulations to Xiangyu Zhao, Ziyang Gong, Wei Zhang, Teng Zhang, Cunxin Fan, Ziqi Ye, etc. 🎉🎉🎉

2026-01

One paper related to RS&VLM (RSCoVLM) is accepted by Remote Sensing. Congratulations to Qingyun Li & Shuran Ma. 🎉🎉🎉

2026-01

One paper related to RS&VLM (DVGBench) is accepted by ISPRS. Congratulations to Yue Zhou. 🎉🎉🎉

2026-01

One paper related to open vocabulary detection (CastDet) is accepted by IJCV. Congratulations to Yan Li. 🎉🎉🎉

2025-12

G-Rep has been selected as the winner of the Remote Sensing 2023 Best Paper Awards. Congratulations to Liping Hou. 🎉🎉🎉

2025-12

One paper related to VFM (CrossEarth) is accepted by TPAMI. Congratulations to Ziyang Gong. 🎉🎉🎉

2025-12

Supported by Shanghai QiYuan Innovation Foundation

2025-11

One survey related to VLMs evaluation is accepted by SCIENCE CHINA Information Sciences. Congrats. 🎉🎉🎉

2025-09

Two papers related to VFM (Earth-Adapter, LWGANet Oral) are accepted by AAAI 2026. Congrats. 🎉🎉🎉

🔥 Recent Works

Equal contribution

Corresponding author

Project Leader

Tech. Report

【Video-MME-v2】Towards the Next Stage in Video Understanding Evaluation (Tech. Report, 2026)

VLM & MLLM & LLMVideoBenchmarkPreprint

Chaoyou Fu

Haozhi Yuan

Yuhao Dong

Yi-Fan Zhang

Yunhang Shen

Xiaoxing Hu

Xueying Li

Jinsen Su

Chengwu Long

Xiaoyao Xie

Yongkang Xie

Xiawu Zheng

Xue Yang

Haoyu Cao

Yunsheng Wu

Ziwei Liu

Xing Sun

Caifeng Shan

Ran He

PDFHomepageCodeHuggingFace

ACL

【Rt-LRM】Red Teaming Large Reasoning Models (ACL, 2026) Citation: 0

VLM & MLLM & LLMSafetyConference

Jiawei Chen

Yang Yang

Chao Yu

Yu Tian

Zhi Cao

Xue Yang

Linghao Li

Hang Su

Zhaoxia Yin

PDF

ACL

【Safe-FedLLM】Delving into the Safety of Federated Large Language Models (ACL, 2026) Citation: 0

VLM & MLLM & LLMSafetyConference

Mingxiang Tao

Yu Tian

Wenxuan Tu

Yue Yang

Xue Yang

Xiangyan Tang

PDFCode

arXiv

【BizGenEval】A Systematic Benchmark for Commercial Visual Content Generation (arXiv, 2026) Citation: 0

VLM & MLLM & LLMAIGCBenchmarkPreprintFirst/Correspondence

Yan Li

Zezi Zeng

Ziwei Zhou

Xin Gao

Muzhao Tian

Yifan Yang

Mingxi Cheng

Qi Dai

Yuqing Yang

Lili Qiu

Zhendong Wang

Zhengyuan Yang

Xue Yang

Lijuan Wang

Ji Li

Chong Luo

PDFCodeHomepageDataset

arXiv

【CrossEarth-SAR】A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation (arXiv, 2026) Citation: 0

PEFTSegmentationVFMMoERSPreprintFirst/Correspondence

Ziqi Ye

Ziyang Gong

Ning Liao

Xiaoxing Hu

Di Wang

Hongruixuan Chen

Chen Huang

Yiguo He

Yuru Jia

Xiaoxing Wang

Haipeng Wang

Xue Yang

Junchi Yan

PDFHomepageCode

arXiv

【EvoTok】A Unified Image Tokenizer via Residual Latent Evolution for Visual Understanding and Generation (arXiv, 2026) Citation: 0

VLM & MLLM & LLMPreprintFirst/Correspondence

Yan Li

Ning Liao

Xiangyu Zhao

Shaofeng Zhang

Xiaoxing Wang

Yifan Yang

Junchi Yan

Xue Yang

PDFCode

arXiv

【FIRM】Trust Your Critic Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation (arXiv, 2026) Citation: 0

VLM & MLLM & LLMRLDatasetBenchmarkPreprintFirst/Correspondence

Xiangyu Zhao

Peiyuan Zhang

Junming Lin

Tianhao Liang

Yuchen Duan

Shengyuan Ding

Changyao Tian

Yuhang Zang

Junchi Yan

Xue Yang

PDFHomepageCodeBenchmark

arXiv

【GRADE】Benchmarking Discipline-Informed Reasoning in Image Editing (arXiv, 2026) Citation: 0

VLM & MLLM & LLMBenchmarkPreprintFirst/Correspondence

Mingxin Liu

Ziqian Fan

Zhaokai Wang

Leyao Gu

Zirun Zhu

Yiguo He

Yuchen Yang

Changyao Tian

Xiangyu Zhao

Ning Liao

Shaofeng Zhang

Qibing Ren

Zhihang Zhong

Xuanhe Zhou

Junchi Yan

Xue Yang

PDFHomepageCodeDataset

arXiv

【CourtSI】Stepping VLMs onto the Court Benchmarking Spatial Intelligence in Sports (arXiv, 2026) Citation: 0

VLM & MLLM & LLMSpatial IntelligenceBenchmarkPreprint

Yuchen Yang

Yuqing Shao

Duxiu Huang

Linfeng Dong

Yifei Liu

Suixin Tang

Xiang Zhou

Yuanyuan Gao

Wei Wang

Yue Zhou

Xue Yang

Yanfeng Wang

Xiao Sun

Zhihang Zhong

PDFCodeHomepage

Tech. Report

【InternVL-U】Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing (Tech. Report, 2026) Citation: 2

VLM & MLLM & LLMBenchmarkPreprint

Changyao Tian

Danni Yang

Guanzhou Chen

Erfei Cui

Zhaokai Wang

Yuchen Duan

Penghao Yin

Sitao Chen

Ganlin Yang

Mingxin Liu

Zirun Zhu

Ziqian Fan

Leyao Gu

Haomin Wang

Qi Wei

Jinhui Yin

Xue Yang

Zhihang Zhong

Qi Qin

Yi Xin

Bin Fu

Yihao Liu

Jiaye Ge

Qipeng Guo

Gen Luo

Hongsheng Li

Yu Qiao

Kai Chen

Hongjie Zhang

PDFCodeHuggingFaceGenEvalKitTextEdit Benchmark

arXiv

【Holi-Spatial】Evolving Video Streams into Holistic 3D Spatial Intelligence (arXiv, 2026) Citation: 2

VLM & MLLM & LLMSpatial IntelligenceBenchmarkPreprint

Yuanyuan Gao

Hao Li

Yifei Liu

Xinhao Ji

Yuning Gong

Yuanjun Liao

Fangfu Liu

Manyuan Zhang

Yuchen Yang

Dan Xu

Xue Yang

Huaxi Huang

Hongjie Zhang

Ziwei Liu

Xiao Sun

Dingwen Zhang

Zhihang Zhong

PDFCodeHomepage

Tech. Report

【ACE-Brain-0】Spatial Intelligence as a Shared Scaffold for Universal Embodiments (Tech. Report, 2026) Citation: 0

VLM & MLLM & LLMSpatial IntelligencePreprintFirst/Correspondence

Ziyang Gong

Zehang Luo

Anke Tang

Zhe Liu

Shi Fu

Zhi Hou

Ganlin Yang

Weiyun Wang

Xiaofeng Wang

Jianbo Liu

Gen Luo

Haolan Kang

Shuang Luo

Yue Zhou

Yong Luo

Li Shen

Xiaosong Jia

Yao Mu

Xue Yang

Chunxiao Liu

Junchi Yan

Hengshuang Zhao

Dacheng Tao

Xiaogang Wang

PDFCodeHuggingFaceHomepage

CVPR

【AdapTok】Learning Adaptive and Temporally Causal Video Tokenization in a 1D Latent Space (CVPR, 2026) Citation: 5

VideoAIGCConferenceFirst/Correspondence

Yan Li

Changyao Tian

Renqiu Xia

Ning Liao

Weiwei Guo

Hongsheng Li

Jifeng Dai

Hao Li

Xue Yang

PDFCode

CVPR

【CrossEarth-Gate】Fisher-Guided Adaptive Tuning Engine for Efficient Adaptation of Cross-Domain Remote Sensing Semantic Segmentation (CVPR, 2026) Citation: 0

PEFTSegmentationVFMMoERSConference

Shilei Cao

Ziyang Gong

Hehai Lin

Yang Liu

Jiashun Cheng

Xiaoxing Hu

Haoyuan Liang

Guowen Li

Chengwei Qin

Hong Cheng

Xue Yang

Juepeng Zheng

Haohuan Fu

PDFHomepageCode

CVPR

Oral

【GeoViS】Geospatially Rewarded Visual Search for Remote Sensing Visual Grounding (CVPR, 2026) Citation: 1

VLM & MLLM & LLMRSConference

Peirong Zhang

Yidan Zhang

Luxiao Xu

Jinliang Lin

Zonghao Guo

Fengxiang Wang

Xue Yang

Kaiwen Wei

Lei Wang

PDFCode