Juanxi (Juanxi Tian)

📢 Awesome Multimodal Modeling

We introduce Awesome Multimodal Modeling, a curated repository tracing the architectural evolution of multimodal intelligence—from foundational fusion to native omni-models.

🔹 Taxonomy & Evolution:

Traditional Multimodal Learning – Foundational work on representation, fusion, and alignment.
Multimodal LLMs (MLLMs) – Architectures connecting vision encoders to LLMs for understanding.
Unified Multimodal Models (UMMs) – Models unifying Understanding + Generation via Diffusion, Autoregressive, or Hybrid paradigms.
Native Multimodal Models (NMMs) – Models trained from scratch on all modalities; contrasts early vs. late fusion under scaling laws.
💡 Key Distinction:
UMMs unify tasks via generation heads; NMMs enforce interleaving through joint pre-training.

🔗 Explore & Contribute: https://github.com/OpenEnvision/Awesome-Multimodal-Modeling

2 replies

·

posted an update 10 days ago

Post

4387

📢 Awesome Multimodal Modeling

We introduce Awesome Multimodal Modeling, a curated repository tracing the architectural evolution of multimodal intelligence—from foundational fusion to native omni-models.

🔹 Taxonomy & Evolution:

Traditional Multimodal Learning – Foundational work on representation, fusion, and alignment.
Multimodal LLMs (MLLMs) – Architectures connecting vision encoders to LLMs for understanding.
Unified Multimodal Models (UMMs) – Models unifying Understanding + Generation via Diffusion, Autoregressive, or Hybrid paradigms.
Native Multimodal Models (NMMs) – Models trained from scratch on all modalities; contrasts early vs. late fusion under scaling laws.
💡 Key Distinction:
UMMs unify tasks via generation heads; NMMs enforce interleaving through joint pre-training.

🔗 Explore & Contribute: https://github.com/OpenEnvision/Awesome-Multimodal-Modeling

2 replies

·

upvoted a paper 13 days ago

Generative World Renderer

Paper • 2604.02329 • Published 19 days ago • 101

upvoted a paper 14 days ago

Vero: An Open RL Recipe for General Visual Reasoning

Paper • 2604.04917 • Published 15 days ago • 31

upvoted a paper 17 days ago

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Paper • 2604.02268 • Published 19 days ago • 94

upvoted 2 papers 20 days ago

GEMS: Agent-Native Multimodal Generation with Memory and Skills

Paper • 2603.28088 • Published 22 days ago • 85

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Paper • 2603.27538 • Published 23 days ago • 144

published a dataset about 1 month ago

OpenEnvisionLab/Realsee

Viewer • Updated Mar 16 • 1k • 104

Juanxi Tian

AI & ML interests

Recent Activity

Organizations

moonshotai/Kimi-K2.6

HY-World 2.0: A Multi-Modal World Model for Reconstructing, Generating, and Simulating 3D Worlds

Seedance 2.0: Advancing Video Generation for World Complexity

GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

OpenEnvisionLab/WorldArena