Moderation Model Card

This page describes the model used by the Content Moderation detector.

Available Versions

General-purpose moderation across safety categories including hate, self-harm, sexual content, crimes, weapons, privacy, IP, elections, and more.

Coming soon — evaluation across multi-category datasets with per-category metrics.

Coming soon — taxonomy alignment, labeling methodology, and error analysis.