О компании Anthropic

Миссия Anthropic — создавать надежные, интерпретируемые и управляемые системы искусственного интеллекта. Мы хотим, чтобы ИИ был безопасным и полезным для наших пользователей и общества в целом. Наша команда — это быстрорастущая группа преданных своему делу исследователей, инженеров, экспертов по политике и бизнес-лидеров, которые работают вместе над созданием полезных систем ИИ.

О роли

В качестве менеджера по политике продукта Safeguards по вредоносному убеждению вы будете отвечать за разработку, совершенствование и поддержание политик, предотвращающих злоупотребление системами ИИ для операций влияния, вредоносной манипуляции и мошеннических действий в масштабах. В этой роли вы будете владельцем политики для ряда рисков, связанных с вредоносным убеждением, и формировать рамки политики в нескольких областях, включая: целостность выборов, информационную целостность и мошенничество.

В качестве члена команды Safeguards ваше первоначальное внимание будет сосредоточено на переводе рамок риска вредоносного убеждения в четкие, применимые политики, обеспечении того, чтобы язык политики учитывал возникающие угрозы, выявленные партнерскими командами, и установлении руководящих принципов, которые обеспечивают последовательные решения по обеспечению соблюдения. Эта роль может расшириться, включая новые векторы манипуляций по мере развития возможностей ИИ. Безопасность является основой нашей миссии, и вы поможете гарантировать, что наши политики предотвращают использование наших продуктов в качестве оружия для подрыва гражданских процессов, эксплуатации уязвимых групп населения или ухудшения информационных экосистем.

Важный контекст для этой роли: на этой позиции вы можете столкнуться с и работать с откровенным контентом, охватывающим широкий спектр тем, включая сексуальный, насильственный или психологически тревожный характер.

Обязанности:

Разрабатывать и поддерживать комплексные рамки политики для рисков вредоносного убеждения, особенно в контексте целостности выборов, операций влияния и мошенничества
Разрабатывать четкий, применимый язык политики, который может последовательно применяться командами по обеспечению соблюдения и переводиться в технические требования к обнаружению
Проектировать и контролировать выполнение оценок для проверки способности модели использовать, создавать и выполнять обманные и вредоносные методы убеждения.
Писать и совершенствовать внешний язык политики использования, который ясно сообщает о нарушениях политики и ограничениях для пользователей и внешних заинтересованных сторон
Разрабатывать руководства по обучению, критерии оценки и протоколы оценки
Проверять решения по обеспечению соблюдения и автоматизированные оценки, предоставляя качественный анализ и рекомендации по политике в сложных пограничных случаях
Координировать работу с внешними экспертами, организациями гражданского общества и академическими кругами для сбора отзывов о ясности и охвате политики
Предоставлять рекомендации по политике в дизайне пользовательского интерфейса для вмешательств, обеспечивая соответствие элементов, ориентированных на пользователя, намерениям политики и минимизируя трения для законного использования
Вносить вклад в улучшение безопасности моделей совместно с командой дообучения
Поддерживать усилия по соблюдению нормативных требований, включая консультации, связанные с Законом ЕС об ИИ и другими новыми рамками управления ИИ
Выступать в качестве точки эскалации для сложных случаев вредоносного убеждения, требующих экспертного политического суждения

Вы можете подойти, если у вас есть:

Более 5 лет опыта в разработке политики, политике доверия и безопасности или политике платформ с опытом работы в следующих областях: целостность выборов, мошенничество/мошеннические схемы, скоординированное неаутентичное поведение, операции влияния или дезинформация
Общие знания глобального нормативного ландшафта в области целостности выборов, регулирования платформ и ответственности цифровых сервисов
Сильные навыки написания политики с возможностью переводить сложные рамки рисков в четкие, применимые руководства
Опыт разработки политик и рабочих процессов, которые обеспечивают как четкое принятие решений людьми по обеспечению соблюдения, так и техническую реализацию в классификаторах машинного обучения и конвейерах обнаружения
Сильные навыки сотрудничества и обширный опыт эффективного взаимодействия с командами инженерии, науки о данных, юридическими и политическими командами по межфункциональным инициативам
Отличные письменные и устные коммуникативные навыки с возможностью объяснять сложные тактики манипуляции и обоснования политики разным аудиториям

Желательные квалификации:

Глубокое знакомство с целостностью выборов, политической психологией, информационной целостностью и исследованиями демократической устойчивости
Знание теории убеждения, тактик влияния, когнитивных искажений и техник психологической манипуляции
Опыт работы с институтами ЕС, регулирующими органами или политическими организациями по вопросам управления ИИ или регулирования цифровых платформ
Опыт проведения адверсариального тестирования, red teaming или оценки уязвимостей для систем ИИ или платформ
Знакомство с возможностями генеративного ИИ и понимание того, как большие языковые модели могут использоваться для персонализированного убеждения, социальной инженерии или влияния в масштабах

Годовая зарплата:

245 000 - 330 000 долларов США

Логистика

Требования к образованию: Мы требуем как минимум степень бакалавра в смежной области или эквивалентный опыт. Политика гибридного местоположения: В настоящее время мы ожидаем, что весь персонал будет находиться в одном из наших офисов не менее 25% времени. Однако некоторые роли могут требовать большего времени в офисах.

Спонсорство визы: Мы спонсируем визы! Однако мы не можем гарантировать успешное спонсорство виз для каждой роли и каждого кандидата. Но если мы сделаем вам предложение, мы приложим все разумные усилия, чтобы получить для вас визу, и у нас есть иммиграционный юрист, который помогает в этом.

Чем мы отличаемся

Мы считаем, что исследования ИИ с наибольшим воздействием — это большие научные проекты. В Anthropic мы работаем как единая сплоченная команда над всего несколькими крупномасштабными исследовательскими инициативами. И мы ценим влияние — продвижение наших долгосрочных целей по созданию управляемого, заслуживающего доверия ИИ — вместо работы над меньшими и более специфическими задачами.

Ваша безопасность важна для нас. Чтобы защитить себя от потенциальных мошенничеств, помните, что рекрутеры Anthropic связываются с вами только с адресов электронной почты @anthropic.com.

Policy Manager