ViPO: Visual Preference Optimization at Scale

ICLR 2026 Conference SubmissionAnonymous Authors

OpenReview Score: 6.0 Download Report PDF

Diffusion ModelImage GenerationVideo GenerationVisual GenerationDPO

While preference optimization is crucial for improving visual generative models, how to effectively scale this paradigm for visual generation remains largely unexplored. Current open-source preference datasets typically contain substantial conflicting preference patterns, where winners excel in some dimensions but underperform in others. Naively optimizing on such noisy datasets fails to learn meaningful preferences, fundamentally hindering effective scaling. To enhance the robustness of preference algorithms against noise, we propose Poly-DPO, which extends the DPO objective with an additional polynomial term that dynamically adjusts model confidence during training based on dataset characteristics, enabling effective learning across diverse data distributions from noisy to trivially simple patterns. Beyond biased patterns, existing datasets suffer from low resolution, limited prompt diversity, and imbalanced distributions. To facilitate large-scale visual preference optimization by tackling key data bottlenecks, we construct ViPO, a massive-scale preference dataset with 1M image pairs (1024px) across five categories and 300K video pairs (720p+) across three categories. Leveraging state-of-the-art generative models and diverse prompts ensures consistent, reliable preference signals with balanced distributions. Remarkably, when applying Poly-DPO to our high-quality dataset, the optimal configuration converges to standard DPO. This convergence validates both our dataset quality and Poly-DPO's adaptive nature: sophisticated optimization becomes unnecessary with sufficient data quality, yet remains valuable for imperfect datasets. We comprehensively validate our approach across various visual generation models. On noisy datasets like Pick-a-Pic V2, Poly-DPO achieves 6.87% and 2.32% gains over Diffusion-DPO on GenEval for SD1.5 and SDXL, respectively. For our high-quality VIPO dataset, models achieve performance far exceeding those trained on existing open-source preference datasets. These results confirm that addressing both algorithmic adaptability and data quality is essential for scaling visual preference optimization. All models and datasets will be released.

Abstract:

Disclaimer

This report is AI-GENERATED using Large Language Models and WisPaper (A scholar search engine). It analyzes academic papers' tasks and contributions against retrieved prior work. While this system identifies POTENTIAL overlaps and novel directions, ITS COVERAGE IS NOT EXHAUSTIVE AND JUDGMENTS ARE APPROXIMATE. These results are intended to assist human reviewers and SHOULD NOT be relied upon as a definitive verdict on novelty.

NOTE that some papers exist in multiple, slightly different versions (e.g., with different titles or URLs). The system may retrieve several versions of the same underlying work. The current automated pipeline does not reliably align or distinguish these cases, so human reviewers will need to disambiguate them manually.

If you have any questions, please contact: mingzhang23@m.fudan.edu.cn

Overview

Overall Novelty Assessment

The paper proposes Poly-DPO, a polynomial extension to the DPO objective designed to handle noisy preference data, and introduces ViPO, a large-scale preference dataset comprising 1M image pairs and 300K video pairs. It resides in the Direct Preference Optimization Extensions leaf, which contains four papers including Diffusion DPO, DRAGON, and methods addressing multi-preference handling. This leaf sits within the broader Preference Optimization Algorithms and Objectives branch, indicating a moderately active research direction focused on adapting DPO-style frameworks to visual generation without explicit reward modeling.

The taxonomy reveals neighboring leaves addressing related challenges: Reinforcement Learning for Visual Generation explores policy-based methods, Multi-Reward and Multi-Objective Optimization tackles balancing multiple signals, and Hierarchical and Granular Preference Alignment organizes preferences across levels. The Preference Data Construction and Curation branch, particularly Synthetic and Automated Preference Data Generation, addresses dataset quality issues similar to ViPO's motivation. The scope notes clarify that this leaf excludes RL-based and reward-centric approaches, positioning the work as a direct optimization method rather than a policy gradient or reward model design contribution.

Among 21 candidates examined, the Poly-DPO algorithm shows no clear refutation (1 candidate examined, 0 refutable), suggesting limited prior work on polynomial confidence adjustments in DPO. The ViPO dataset contribution examined 10 candidates with 1 refutable match, indicating some overlap in large-scale preference data construction. The insight on conflicting preference patterns examined 10 candidates with no refutations, suggesting this framing may be relatively novel. The limited search scope means these findings reflect top-K semantic matches rather than exhaustive coverage of the field.

Based on the top-21 semantic matches examined, the algorithmic contribution appears less explored while the dataset contribution encounters more substantial prior work. The taxonomy structure shows this research direction is neither overcrowded nor sparse, with four sibling papers addressing related DPO extensions. The analysis captures immediate neighbors but does not cover the full landscape of visual preference optimization methods across all eight major branches.

Taxonomy

Core-task Taxonomy Papers

Claimed Contributions

Contribution Candidate Papers Compared

Refutable Paper

Research Landscape Overview

Core task: Scaling visual preference optimization for generative models. The field has evolved into a rich ecosystem organized around eight major branches. Preference Optimization Algorithms and Objectives explores direct extensions of methods like DPO and IPO, adapting them to visual domains through techniques such as Diffusion DPO[12] and DRAGON[27]. Reward Models and Evaluation Metrics focuses on building robust scoring functions, exemplified by ImageReward[9] and VisionReward[19], to guide model training. Preference Data Construction and Curation addresses the challenge of obtaining high-quality human feedback, while Personalization and User-Specific Adaptation tailors outputs to individual tastes. Reasoning and Prompt Enhancement for Generation leverages chain-of-thought and prompt refinement strategies to improve generation quality. Domain-Specific and Task-Specific Applications targets specialized use cases, Efficiency and Scalability Enhancements tackles computational bottlenecks, and Multimodal Integration and Cross-Modal Alignment bridges vision and language modalities. Within the Preference Optimization Algorithms and Objectives branch, a particularly active line of work centers on direct preference optimization extensions that bypass explicit reward modeling. ViPO[0] sits squarely in this cluster, emphasizing scalable training regimes for visual generative models. It shares conceptual ground with Diffusion DPO[12], which adapts preference learning to diffusion processes, and DRAGON[27], which explores alternative formulations for aligning image generators. Nearby works like Calibrated Multi-Preference[1] and Perpo[3] investigate how to handle diverse or conflicting preference signals, while CHiP[5] introduces hierarchical structures for finer-grained control. The central tension across these methods involves balancing sample efficiency, computational cost, and the ability to capture nuanced human judgments without overfitting to narrow preference distributions.

Claimed Contributions

Poly-DPO optimization algorithm

1 retrieved paper

The authors introduce Poly-DPO, an extension of Diffusion-DPO that adds a polynomial term to dynamically adjust sample weighting based on prediction confidence. This enables effective learning across diverse data distributions, from noisy datasets with conflicting preference patterns to trivially simple patterns.

1 retrieved paper

ViPO large-scale visual preference dataset

Can Refute

10 retrieved papers

The authors construct ViPO, a large-scale high-quality preference dataset containing 1M high-resolution image pairs across five quality dimensions and 300K video pairs across three categories. The dataset uses state-of-the-art generative models and systematic categorization to provide reliable and balanced preference signals.

10 retrieved papers

Can Refute

Insight on conflicting preference patterns as scaling bottleneck

10 retrieved papers

The authors identify that conflicting preference patterns in existing datasets, where winner images excel in some dimensions but underperform in others, represent a fundamental obstacle to scaling visual preference optimization. They show that naively optimizing on such noisy datasets fails to learn meaningful preferences.

10 retrieved papers

Core Task Comparisons

Comparisons with papers in the same taxonomy category

[1] Calibrated multi-preference optimization for aligning diffusion models PDF

Kyungmin Lee, Xiahong Li, Qifei Wang, Xiaohang Li, He Junfeng, Junjie Ke, Junfeng He, Ming-Hsuan Yang, Irfan Essa, Jinwoo Shin, Feng Yang, Yin-Xiao Li, Yinxiao Li (2025)

[12] Diffusion Model Alignment Using Direct Preference Optimization PDF

Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, Nikhil Naik, Shafiq R. Joty (2024)

[27] DRAGON: Distributional Rewards Optimize Diffusion Generative Models PDF

Bai, Yatong, Casebeer, Jonah, Sojoudi, Somayeh, Bryan, Nicholas J. (2025)

Contribution Analysis

Detailed comparisons for each claimed contribution

Contribution

Poly-DPO optimization algorithm

[51] CAPO: Confidence Aware Preference Optimization Learning for Multilingual Preferences PDF

Cannot Refute

Contribution

ViPO large-scale visual preference dataset

[54] Pick-a-pic: An open dataset of user preferences for text-to-image generation PDF

Can Refute

[19] Visionreward: Fine-grained multi-dimensional human preference learning for image and video generation PDF

Cannot Refute

[52] OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation PDF

Cannot Refute

[53] Vbench: Comprehensive benchmark suite for video generative models PDF

Cannot Refute

[55] Openhumanvid: A large-scale high-quality dataset for enhancing human-centric video generation PDF

Cannot Refute

[56] Evaluating Text-to-Visual Generation with Image-to-Text Generation PDF

Cannot Refute

[57] Learning multi-dimensional human preference for text-to-image generation PDF

Cannot Refute

[58] InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation PDF

Cannot Refute

[59] VidGen-1M: A Large-Scale Dataset for Text-to-video Generation PDF

Cannot Refute

[60] Videodpo: Omni-preference alignment for video diffusion generation PDF

Cannot Refute

Contribution

Insight on conflicting preference patterns as scaling bottleneck

[1] Calibrated multi-preference optimization for aligning diffusion models PDF

Cannot Refute

[61] Beyond one-preference-fits-all alignment: Multi-objective direct preference optimization PDF

Cannot Refute

[62] Mitigating hallucination in multimodal large language model via hallucination-targeted direct preference optimization PDF

Cannot Refute

[63] SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization PDF

Cannot Refute

[64] Adaptive preference scaling for reinforcement learning with human feedback PDF

Cannot Refute

[65] Personalizing reinforcement learning from human feedback with variational preference learning PDF

Cannot Refute

[66] Regularizing hidden states enables learning generalizable reward model for llms PDF

Cannot Refute

[67] Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models PDF

Cannot Refute

[68] Socratic-zero: Bootstrapping reasoning via data-free agent co-evolution PDF

Cannot Refute

[69] Larger or Smaller Reward Margins to Select Preferences for Alignment? PDF

Cannot Refute

ViPO: Visual Preference Optimization at Scale

Overview

Overall Novelty Assessment

Taxonomy

Research Landscape Overview

Claimed Contributions

Core Task Comparisons

[1] Calibrated multi-preference optimization for aligning diffusion models PDF

[12] Diffusion Model Alignment Using Direct Preference Optimization PDF

[27] DRAGON: Distributional Rewards Optimize Diffusion Generative Models PDF

Contribution Analysis

Poly-DPO optimization algorithm

[51] CAPO: Confidence Aware Preference Optimization Learning for Multilingual Preferences PDF

ViPO large-scale visual preference dataset

[54] Pick-a-pic: An open dataset of user preferences for text-to-image generation PDF

[19] Visionreward: Fine-grained multi-dimensional human preference learning for image and video generation PDF

[52] OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation PDF

[53] Vbench: Comprehensive benchmark suite for video generative models PDF

[55] Openhumanvid: A large-scale high-quality dataset for enhancing human-centric video generation PDF

[56] Evaluating Text-to-Visual Generation with Image-to-Text Generation PDF

[57] Learning multi-dimensional human preference for text-to-image generation PDF

[58] InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation PDF

[59] VidGen-1M: A Large-Scale Dataset for Text-to-video Generation PDF

[60] Videodpo: Omni-preference alignment for video diffusion generation PDF

Insight on conflicting preference patterns as scaling bottleneck

[1] Calibrated multi-preference optimization for aligning diffusion models PDF

[61] Beyond one-preference-fits-all alignment: Multi-objective direct preference optimization PDF

[62] Mitigating hallucination in multimodal large language model via hallucination-targeted direct preference optimization PDF

[63] SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization PDF

[64] Adaptive preference scaling for reinforcement learning with human feedback PDF

[65] Personalizing reinforcement learning from human feedback with variational preference learning PDF

[66] Regularizing hidden states enables learning generalizable reward model for llms PDF

[67] Multi-Objective Preference Optimization: Improving Human Alignment of Generative Models PDF

[68] Socratic-zero: Bootstrapping reasoning via data-free agent co-evolution PDF

[69] Larger or Smaller Reward Margins to Select Preferences for Alignment? PDF

Table of Contents