О компании Anthropic
Миссия Anthropic — создавать надежные, интерпретируемые и управляемые системы искусственного интеллекта. Мы хотим, чтобы ИИ был безопасным и полезным для наших пользователей и общества в целом. Наша команда — это быстрорастущая группа преданных своему делу исследователей, инженеров, экспертов по политике и бизнес-лидеров, которые работают вместе над созданием полезных систем ИИ.
О роли
В качестве менеджера по политике продукта Safeguards по вредоносному убеждению вы будете отвечать за разработку, совершенствование и поддержание политик, предотвращающих злоупотребление системами ИИ для операций влияния, вредоносной манипуляции и мошеннических действий в масштабах. В этой роли вы будете владельцем политики для ряда рисков, связанных с вредоносным убеждением, и формировать рамки политики в нескольких областях, включая: целостность выборов, информационную целостность и мошенничество.
В качестве члена команды Safeguards ваше первоначальное внимание будет сосредоточено на переводе рамок риска вредоносного убеждения в четкие, применимые политики, обеспечении того, чтобы язык политики учитывал возникающие угрозы, выявленные партнерскими командами, и установлении руководящих принципов, которые обеспечивают последовательные решения по обеспечению соблюдения. Эта роль может расшириться, включая новые векторы манипуляций по мере развития возможностей ИИ. Безопасность является основой нашей миссии, и вы поможете гарантировать, что наши политики предотвращают использование наших продуктов в качестве оружия для подрыва гражданских процессов, эксплуатации уязвимых групп населения или ухудшения информационных экосистем.
Важный контекст для этой роли: на этой позиции вы можете столкнуться с и работать с откровенным контентом, охватывающим широкий спектр тем, включая сексуальный, насильственный или психологически тревожный характер.
Обязанности:
- Разрабатывать и поддерживать комплексные рамки политики для рисков вредоносного убеждения, особенно в контексте целостности выборов, операций влияния и мошенничества
- Разрабатывать четкий, применимый язык политики, который может последовательно применяться командами по обеспечению соблюдения и переводиться в технические требования к обнаружению
- Проектировать и контролировать выполнение оценок для проверки способности модели использовать, создавать и выполнять обманные и вредоносные методы убеждения.
- Писать и совершенствовать внешний язык политики использования, который ясно сообщает о нарушениях политики и ограничениях для пользователей и внешних заинтересованных сторон
- Разрабатывать руководства по обучению, критерии оценки и протоколы оценки
- Проверять решения по обеспечению соблюдения и автоматизированные оценки, предоставляя качественный анализ и рекомендации по политике в сложных пограничных случаях
- Координировать работу с внешними экспертами, организациями гражданского общества и академическими кругами для сбора отзывов о ясности и охвате политики
- Предоставлять рекомендации по политике в дизайне пользовательского интерфейса для вмешательств, обеспечивая соответствие элементов, ориентированных на пользователя, намерениям политики и минимизируя трения для законного использования
- Вносить вклад в улучшение безопасности моделей совместно с командой дообучения
- Поддерживать усилия по соблюдению нормативных требований, включая консультации, связанные с Законом ЕС об ИИ и другими новыми рамками управления ИИ
- Выступать в качестве точки эскалации для сложных случаев вредоносного убеждения, требующих экспертного политического суждения
Вы можете подойти, если у вас есть:
- Более 5 лет опыта в разработке политики, политике доверия и безопасности или политике платформ с опытом работы в следующих областях: целостность выборов, мошенничество/мошеннические схемы, скоординированное неаутентичное поведение, операции влияния или дезинформация
- Общие знания глобального нормативного ландшафта в области целостности выборов, регулирования платформ и ответственности цифровых сервисов
- Сильные навыки написания политики с возможностью переводить сложные рамки рисков в четкие, применимые руководства
- Опыт разработки политик и рабочих процессов, которые обеспечивают как четкое принятие решений людьми по обеспечению соблюдения, так и техническую реализацию в классификаторах машинного обучения и конвейерах обнаружения
- Сильные навыки сотрудничества и обширный опыт эффективного взаимодействия с командами инженерии, науки о данных, юридическими и политическими командами по межфункциональным инициативам
- Отличные письменные и устные коммуникативные навыки с возможностью объяснять сложные тактики манипуляции и обоснования политики разным аудиториям
Желательные квалификации:
- Глубокое знакомство с целостностью выборов, политической психологией, информационной целостностью и исследованиями демократической устойчивости
- Знание теории убеждения, тактик влияния, когнитивных искажений и техник психологической манипуляции
- Опыт работы с институтами ЕС, регулирующими органами или политическими организациями по вопросам управления ИИ или регулирования цифровых платформ
- Опыт проведения адверсариального тестирования, red teaming или оценки уязвимостей для систем ИИ или платформ
- Знакомство с возможностями генеративного ИИ и понимание того, как большие языковые модели могут использоваться для персонализированного убеждения, социальной инженерии или влияния в масштабах
Годовая зарплата:
245 000 - 330 000 долларов США
Логистика
Требования к образованию: Мы требуем как минимум степень бакалавра в смежной области или эквивалентный опыт. Политика гибридного местоположения: В настоящее время мы ожидаем, что весь персонал будет находиться в одном из наших офисов не менее 25% времени. Однако некоторые роли могут требовать большего времени в офисах.
Спонсорство визы: Мы спонсируем визы! Однако мы не можем гарантировать успешное спонсорство виз для каждой роли и каждого кандидата. Но если мы сделаем вам предложение, мы приложим все разумные усилия, чтобы получить для вас визу, и у нас есть иммиграционный юрист, который помогает в этом.
Чем мы отличаемся
Мы считаем, что исследования ИИ с наибольшим воздействием — это большие научные проекты. В Anthropic мы работаем как единая сплоченная команда над всего несколькими крупномасштабными исследовательскими инициативами. И мы ценим влияние — продвижение наших долгосрочных целей по созданию управляемого, заслуживающего доверия ИИ — вместо работы над меньшими и более специфическими задачами.
Ваша безопасность важна для нас. Чтобы защитить себя от потенциальных мошенничеств, помните, что рекрутеры Anthropic связываются с вами только с адресов электронной почты @anthropic.com.