时间线

esc

请输入并搜索

奇变偶不变

奇变偶不变

Ctrl+K

时间线

5 分类 × 87 文章 × 17 标签 × 415264 字

2025

27篇

+

[arXiv-2025] $ΔL$ Normalization: Rethink Loss Aggregation in RLVR

[arXiv-2025] Process Reinforcement through Implicit Rewards

[arXiv-2025] Reinforcing General Reasoning without Verifiers

[arXiv-2025] Bridging Supervised Learning and Reinforcement Learning in Math Reasoning

[arXiv-2025] RLPR: Extrapolating RLVR to General Domains without Verifiers

[arXiv-2025] Group Sequence Policy Optimization

[arXiv-2025] The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning

[arXiv-2025] Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space

[arXiv-2025] Hybrid Latent Reasoning via Reinforcement Learning

[ACL-2025] SoftCoT: Soft Chain-of-Thought for Efficient Reasoning with LLMs

[ICLR-2024] Eureka: Human-Level Reward Design via Coding Large Language Models

[ICML-2025] R*: Efficient Reward Design via Reward Structure Evolution and Parameter Alignment Optimization with Large Language Models

[arXiv-2025] AdaptThink: Reasoning Models Can Learn When to Think

Raise the Ceiling: Clip-Higher

[ICLR-2025] To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

[arXiv-2025] OThink-R1: Intrinsic Fast/Slow Thinking Mode Switching for Over-Reasoning Mitigation

[arXiv-2025] ThinkPrune: Pruning Long Chain-of-Thought of LLMs via Reinforcement Learning

[arXiv-2025] Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models_

linux服务器配置

[arXiv-2025] Kimi k1.5: Scaling Reinforcement Learning with LLMs

[arXiv-2025] Self-Training Elicits Concise Reasoning in Large Language Models

[arXiv-2025] CoT-Valve: Length-Compressible Chain-of-Thought Tuning

[arXiv-2025] O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

[arXiv-2025] From System 1 to System 2: A Survey of Reasoning Large Language Models

[arXiv-2025] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

[arXiv-2024] Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models

[arXiv-2024] TestBench: Evaluating Class-Level Test Case Generation Capability of Large Language Models

2024

52篇

+

[arXiv-2024] Evaluating and Aligning CodeLLMs on Human Preference

[arXiv-2024] ExecRepoBench: Multi-level Executable Code Completion Evaluation

[arXiv-2024] Phi-4 Technical Report

[FSE-2024] No More Manual Tests? Evaluating and Improving ChatGPT for Unit Test Generation

[FSE-2024] ChatUniTest: A Framework for LLM-Based Test Generation

[EMNLP-2021] Raise a Child in Large Language Model: Towards Effective and Generalizable Fine-tuning

[ASE-2024] On the Evaluation of Large Language Models in Unit Test Generation

[EMNLP-2024] Pretraining Data Detection for Large Language Models: A Divergence-based Calibration Method

Jinja Template in tokenizer

Writing Perfect Papers

[arXiv-2023] Instruction-Following Evaluation for Large Language Models

[arXiv-2024] Many-Shot In-Context Learning

[arXiv-2024] Scaling and evaluating sparse autoencoders

The Llama 3 Herd of Models

[Arxiv-2024] OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement

[ACL-2024] Self-Distillation Bridges Distribution Gap in Language Model Fine-Tuning

Llama Factory Script

LLM Generate Scripts

[Neurips-2023] CrossCodeEval: A Diverse and Multilingual Benchmark for Cross-File Code Completion

Loguru: Python Module

Rich: Python Module

[ICLR-2024] What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning

bypy使用百度网盘

[ArXiv-2023] Instruction Mining: When Data Mining Meets Large Language Model Finetuning

[Neurips-2023] Reflexion: Language Agents with Verbal Reinforcement Learning

[EMNLP-2023] Large Language Models Can Self-Improve

[NAACL-2023] From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning

[ICLR-2023] Copy Is All You Need

[ArXiv-2024] Reliable, Adaptable, and Attributable Language Models with Retrieval

[ArXiv-2024] Clustering and Ranking: Diversity-preserved Instruction Selection through Expert-aligned Quality Estimation

[Neurips-2023] LIMA: Less Is More for Alignment

[ArXiv-2023] One Shot Learning as Instruction Data Prospector for Large Language Models

[ICLR-2024] GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher

[NAACL-2024] A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily

[ArXiv-2023] R-Tuning: Teaching Large Language Models to Refuse Unknown Questions

使用gdown下载谷歌云盘文件/文件夹

[ArXiv-2024] Universal and Transferable Adversarial Attacks on Aligned Language Models

[ArXiv-2024] DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers

[AAAI-2021] Automated Storytelling via Causal, Commonsense Plot Ordering

[LeetCode] 204. 计算质数

使用 spaCy / OpenIE 从文本中提取三元组

[CIKM-2020] Creative Storytelling with Language Models and Knowledge Graphs

使用python查看远程服务器GPU使用情况

ChatGLM3-6B sft时报错`Error: No such option: -- deepspeed`

[CAIN-2024] Seven Failure Points When Engineering a Retrieval Augmented Generation System

yt-dlp 使用向说明

圆周长公式推导 (个人向

在Neo4j Desktop上配置APOC并且保存当前知识图谱为.cypher文件

2023

3篇

+

用Latex写伪代码

markdown图床(gitee)-已弃用

JSD+github解决图床问题（附PicGo+Typora）

2022

5篇

+

配置git代理

文献综述指南

使用python进行邮件发送

Hugging Face使用向

[LeetCode] 172. 阶乘后的零

Geaming

NLP搬砖人