Publications

Filter by topic:

📄 Preprints & Working Papers

Intrinsic Reward Policy Optimization for Sparse-Reward Environments

📅 January 2026 📌 arXiv preprint arXiv:2601.21391

TL;DR: We propose Intrinsic Reward Policy Optimization (IRPO), a novel framework leveraging a surrogate policy gradient to overcome credit assignment and sample inefficiency in sparse-reward environments.

Topics: Hierarchical RL

📄 PDF 💻 Code Details →

Contraction Actor-Critic: Contraction Metric-Guided Reinforcement Learning for Robust Path Tracking

📅 May 2025 📌 arXiv preprint arXiv:2506.15700

TL;DR: We propose a contraction actor-critic (CAC) algorithm for endowing a stability guarantee to the RL-trained policies for high-dimensional and nonlinear path-tracking problems.

Topics: Safe RL Robotics

📄 PDF 💻 Code Details →

Hierarchical meta-reinforcement learning via automated macro-action discovery

📅 December 2024 📌 arXiv preprint arXiv:2412.11930

TL;DR: We propose a macro-action discovery method and use it in a hierarchical algorithm for solving complex meta-RL problems.

Topics: Meta-RL Hierarchical RL

📄 PDF 💻 Code Details →

🏛️ Conference Proceedings

Sparsity-based Safety Conservatism for Constrained Offline Reinforcement Learning

📅 February 2026 📌 (AIAA-26) AIAA AVIATION Forum 2026

TL;DR: We propose to use K-Mean clustering algorithm to measure the sparsity of each data point and use those measures to overestimate the probable safety violation for safe deployment of a policy.

Topics: Safe RL

📄 PDF Details →

Constrained Meta-Reinforcement Learning for Adaptable Safety Guarantee with Differentiable Convex Programming

📅 March 2024 📌 (AAAI-24) The Association for the Advancement of Artificial Intelligence

TL;DR: We propose a policy optimization framework that provides adaptable safety guarantees on unseen tasks by viewing constrained reinforcement learning through the lens of meta-learning.

Topics: Safe RL Meta-RL

📄 PDF 💻 Code Details →

📚 Journal Articles

Out of Distribution Adaptation in Offline RL via Causal Normalizing Flows

📅 November 2025 📌 Mathematics: Statistics and Operational Research

TL;DR: We propose to learn transition dynamics and reward function using causal normalizing flow model for out-of-distribution adaptation of a policy.

Topics: Offline RL Causal RL

📄 PDF Details →

MJ (Minjae) Cho (조민재)

Publications

📄 Preprints & Working Papers

Intrinsic Reward Policy Optimization for Sparse-Reward Environments

Contraction Actor-Critic: Contraction Metric-Guided Reinforcement Learning for Robust Path Tracking

Hierarchical meta-reinforcement learning via automated macro-action discovery

🏛️ Conference Proceedings

Sparsity-based Safety Conservatism for Constrained Offline Reinforcement Learning

Constrained Meta-Reinforcement Learning for Adaptable Safety Guarantee with Differentiable Convex Programming

📚 Journal Articles

Out of Distribution Adaptation in Offline RL via Causal Normalizing Flows