LLMPapers - a harik68 Collection

Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
LLMPapers - a harik68 Collection

harik68 's Collections

LLMPapers

updated Oct 21, 2025

DocLLM: A layout-aware generative language model for multimodal document understanding

Paper • 2401.00908 • Published Dec 31, 2023 • 191
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models

Paper • 2401.04658 • Published Jan 9, 2024 • 27
Weaver: Foundation Models for Creative Writing

Paper • 2401.17268 • Published Jan 30, 2024 • 45
Efficient Tool Use with Chain-of-Abstraction Reasoning

Paper • 2401.17464 • Published Jan 30, 2024 • 21
Shortened LLaMA: A Simple Depth Pruning for Large Language Models

Paper • 2402.02834 • Published Feb 5, 2024 • 17
CroissantLLM: A Truly Bilingual French-English Language Model

Paper • 2402.00786 • Published Feb 1, 2024 • 26
Self-Discover: Large Language Models Self-Compose Reasoning Structures

Paper • 2402.03620 • Published Feb 6, 2024 • 117
Fine-Tuned Language Models Generate Stable Inorganic Materials as Text

Paper • 2402.04379 • Published Feb 6, 2024 • 8
Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models

Paper • 2402.07033 • Published Feb 10, 2024 • 19
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27, 2024 • 628
Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

Paper • 2402.17177 • Published Feb 27, 2024 • 87
Towards Optimal Learning of Language Models

Paper • 2402.17759 • Published Feb 27, 2024 • 18
StarCoder 2 and The Stack v2: The Next Generation

Paper • 2402.19173 • Published Feb 29, 2024 • 156
AST-T5: Structure-Aware Pretraining for Code Generation and Understanding

Paper • 2401.03003 • Published Jan 5, 2024 • 14
Stealing Part of a Production Language Model

Paper • 2403.06634 • Published Mar 11, 2024 • 91
Design2Code: How Far Are We From Automating Front-End Engineering?

Paper • 2403.03163 • Published Mar 5, 2024 • 98
LLM Agent Operating System

Paper • 2403.16971 • Published Mar 25, 2024 • 73
Can large language models explore in-context?

Paper • 2403.15371 • Published Mar 22, 2024 • 33
The Unreasonable Ineffectiveness of the Deeper Layers

Paper • 2403.17887 • Published Mar 26, 2024 • 82
Transformers Can Do Arithmetic with the Right Embeddings

Paper • 2405.17399 • Published May 27, 2024 • 54
Efficient Detection of Toxic Prompts in Large Language Models

Paper • 2408.11727 • Published Aug 21, 2024 • 13
Ferret: Faster and Effective Automated Red Teaming with Reward-Based Scoring Technique

Paper • 2408.10701 • Published Aug 20, 2024 • 12
SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

Paper • 2408.15545 • Published Aug 28, 2024 • 38
GST: Precise 3D Human Body from a Single Image with Gaussian Splatting Transformers

Paper • 2409.04196 • Published Sep 6, 2024 • 17
Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

Paper • 2409.12941 • Published Sep 19, 2024 • 25
MinerU: An Open-Source Solution for Precise Document Content Extraction

Paper • 2409.18839 • Published Sep 27, 2024 • 41
Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models

Paper • 2410.01782 • Published Oct 2, 2024 • 10
A Survey of Small Language Models

Paper • 2410.20011 • Published Oct 25, 2024 • 46
Cut Your Losses in Large-Vocabulary Language Models

Paper • 2411.09009 • Published Nov 13, 2024 • 49
DeepAnalyze: Agentic Large Language Models for Autonomous Data Science

Paper • 2510.16872 • Published Oct 19, 2025 • 112