Ученые из Университета Бен-Гуриона показали, как чат-боты становятся опасными - «Технологии» » «Интернет Технологии»

Ученые из Университета Бен-Гуриона показали, как чат-боты становятся опасными - «Технологии»



Фото: Pixabay



Специалисты Университета Бен-Гуриона опубликовали исследование, которое показывает: несмотря на многочисленные меры предосторожности, большинство современных языковых моделей остаются уязвимыми для манипуляций и могут выдавать запрещённую или вредную информацию.



Работа размещена на платформе научных препринтов arXiv.



Авторы исследования изучали как так называемые «тёмные» языковые модели — алгоритмы, созданные без фильтрации нежелательного контента, — так и популярных представителей вроде ChatGPT, которым уже внедрены механизмы цензурирования. Тем не менее, оказалось, что даже эти модели можно обмануть, используя специальные методы обхода фильтров — джейлбрейки.



Первоначально исследование было направлено на анализ использования незащищённых моделей для генерации контента порнографического характера с включением изображений реальных людей. Однако в ходе работы специалисты убедились, что уязвимыми остаются и многие общедоступные ИИ-инструменты. Методы обхода, обнародованные ранее, по-прежнему срабатывают, а новые способы появляются быстрее, чем разработчики успевают их нейтрализовать.



Наиболее тревожным открытием стало выявление универсального подхода к «взлому» языковых моделей, позволяющего систематически обходить защиту. С его помощью исследователи получали от чат-ботов пошаговые инструкции по осуществлению запрещённых действий: от взлома сетей и отмывания денег до инструкций по созданию взрывчатых веществ. Эти сценарии подтверждают растущий риск злоупотреблений — как со стороны конечных пользователей, так и через специально разработанные «тёмные» версии языковых моделей.



Учёные подчеркивают, что даже если такие модели не обучаются напрямую на запрещённой информации, часть нежелательного контента всё равно может проникать в их базу знаний в процессе обучения. На данный момент не существует надёжного технического способа полностью устранить это явление. Поэтому, по мнению исследователей, необходим более строгий и системный подход к фильтрации контента и ограничению возможностей моделей по интерпретации вредных запросов.



Результаты исследования вновь ставят перед разработчиками и регуляторами задачу — найти баланс между открытостью языковых моделей и эффективным контролем над потенциально опасной информацией.





Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.

Фото: Pixabay Специалисты Университета Бен-Гуриона опубликовали исследование, которое показывает: несмотря на многочисленные меры предосторожности, большинство современных языковых моделей остаются уязвимыми для манипуляций и могут выдавать запрещённую или вредную информацию. Работа размещена на платформе научных препринтов arXiv. Авторы исследования изучали как так называемые «тёмные» языковые модели — алгоритмы, созданные без фильтрации нежелательного контента, — так и популярных представителей вроде ChatGPT, которым уже внедрены механизмы цензурирования. Тем не менее, оказалось, что даже эти модели можно обмануть, используя специальные методы обхода фильтров — джейлбрейки. Первоначально исследование было направлено на анализ использования незащищённых моделей для генерации контента порнографического характера с включением изображений реальных людей. Однако в ходе работы специалисты убедились, что уязвимыми остаются и многие общедоступные ИИ-инструменты. Методы обхода, обнародованные ранее, по-прежнему срабатывают, а новые способы появляются быстрее, чем разработчики успевают их нейтрализовать. Наиболее тревожным открытием стало выявление универсального подхода к «взлому» языковых моделей, позволяющего систематически обходить защиту. С его помощью исследователи получали от чат-ботов пошаговые инструкции по осуществлению запрещённых действий: от взлома сетей и отмывания денег до инструкций по созданию взрывчатых веществ. Эти сценарии подтверждают растущий риск злоупотреблений — как со стороны конечных пользователей, так и через специально разработанные «тёмные» версии языковых моделей. Учёные подчеркивают, что даже если такие модели не обучаются напрямую на запрещённой информации, часть нежелательного контента всё равно может проникать в их базу знаний в процессе обучения. На данный момент не существует надёжного технического способа полностью устранить это явление. Поэтому, по мнению исследователей, необходим более строгий и системный подход к фильтрации контента и ограничению возможностей моделей по интерпретации вредных запросов. Результаты исследования вновь ставят перед разработчиками и регуляторами задачу — найти баланс между открытостью языковых моделей и эффективным контролем над потенциально опасной информацией.


Похожие новости


Оставьте свой комментарий

Похожие новости



Читайте также
Почему не стоит делиться личными данными с ChatGPT или другими чат-ботами на основе искусственного интеллекта - «Последние новости»
Интернет Технологии
Почему не стоит делиться личными данными с ChatGPT или другими чат-ботами на основе искусственного интеллекта - «Последние новости»
На арабском и на иврите ChatGPT сообщает о ближневосточном конфликте разные факты - «Технологии»
Интернет Технологии
На арабском и на иврите ChatGPT сообщает о ближневосточном конфликте разные факты - «Технологии»
Хасид запустил «кошерную альтернативу» искусственному интеллекту ChatGPT - «Технологии»
Интернет Технологии
Хасид запустил «кошерную альтернативу» искусственному интеллекту ChatGPT - «Технологии»
Хакеры устроили атаку на ChatGPT «за поддержку Израиля» - «Технологии»
Интернет Технологии
Хакеры устроили атаку на ChatGPT «за поддержку Израиля» - «Технологии»
Самозасыхающие томаты черри вывели на юге Израиля - «Технологии»
Интернет Технологии
Самозасыхающие томаты черри вывели на юге Израиля - «Технологии»
Никто не сравнится с Wiz: как израильский стартап выбивает себе место на рынке - «Технологии»
Интернет Технологии
Никто не сравнится с Wiz: как израильский стартап выбивает себе место на рынке - «Технологии»
Скарлет Йоханссон обвинила главу OpenAI Сэма Альтмана в использовании ее голоса в ChatGPT - «Технологии»
Интернет Технологии
Скарлет Йоханссон обвинила главу OpenAI Сэма Альтмана в использовании ее голоса в ChatGPT - «Технологии»
СМИ: ЦАХАЛ разрабатывает аналог ChatGPT со знанием арабского для предотвращения террористических атак - «Технологии»
Интернет Технологии
СМИ: ЦАХАЛ разрабатывает аналог ChatGPT со знанием арабского для предотвращения террористических атак - «Технологии»