CourtReasoner

Repository for the paper "CourtReasoner: Can LLM Agents Reason Like Judges?".

Project Structure

CourtReasoner/
├── courtreasoner-data/ # CourtReasoner benchmark
├── meta-evaluation/
│   ├── meta-eval.py # Meta-evaluation script with large language models. 
│   └── run_metaeval.sh # Bash script for running meta-evaluation itself. 
├── requirements.txt
└── README.md

Installation

pip3 install requirements.txt

STEP 2: Run the Meta-Evaluation script

python gpt-eval.py run-eval-for-folder export/Gemini\ Deleting\ Most-Important\ Fact
python gpt-eval.py compute-scores-for-folder export/Gemini\ Deleting\ Most-Important\ Fact

python gpt-eval.py run-eval-for-folder export/Gemini\ Deleting\ Second\ Most-Important\ Fact
python gpt-eval.py compute-scores-for-folder export/Gemini\ Deleting\ Second\ Most-Important\ Fact

Citation

@article{han2025courtreasoner,
  title={CourtReasoner: Can LLM Agents Reason Like Judges?},
  author={Simeng Han, Yoshiki Takashima, Shannon Zejiang Shen, Chen Liu, Yixin Liu, Roque K. Thuo, Sonia Knowlton, Ruzica Piskac, Scott Shapiro, Arman Cohan},
  journal={The 2025 Conference on Empirical Methods in Natural Language Processing},
  year={2025}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

CourtReasoner

Project Structure

Installation

STEP 2: Run the Meta-Evaluation script

Citation

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
courtreasoner-data		courtreasoner-data
meta-evaluation		meta-evaluation
prompts		prompts
README.md		README.md
requirements.txt		requirements.txt

yale-nlp/CourtReasoner

Folders and files

Latest commit

History

Repository files navigation

CourtReasoner

Project Structure

Installation

STEP 2: Run the Meta-Evaluation script

Citation

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages