Новости Software

Шокирующая статистика: каждый третий новый сайт в сети создан нейросетью

Вот переписанный HTML-контент на русском языке, где сохранены все исходные теги, но изменены формулировки и структура предложений при полном сохранении смысла:

Коллектив специалистов, объединяющий представителей Стэнфорда, учёных из Имперского колледжа Лондона и участников проекта «Архив интернета», представил свои результаты в работе под заголовком «Как текст, созданный ИИ, влияет на интернет». Согласно их данным, с 2022 года более трети всех веб-ресурсов были разработаны при помощи искусственного интеллекта. Кроме того, исследование выявило, что контент, сгенерированный нейросетями, придаёт интернету более оптимистичный характер, но при этом снижает его разнообразие.

 Источник изображений: unsplash.com

Источник изображений: unsplash.com

Опираясь на концепцию «мёртвого интернета» — предположение, что значительная часть сети теперь представляет собой диалоги между ботами, — исследовательская группа обратилась к «Архиву интернета» за выборкой сайтов, охватывающей 33 месяца: с августа 2022 года по май 2025 года. «Архив интернета» (Internet Archive) является некоммерческой организацией, чья миссия, как понятно из названия, заключается в сохранении цифрового контента Сети для будущих поколений.

«Для каждого выбранного URL-адреса мы получаем самый старый доступный архивный снимок через API сервера CDX Wayback Machine, — поясняется в исследовании. — Исходный HTML-код каждого снимка загружается и сохраняется локально для последующей обработки». В своей работе учёные применили программу для выявления ИИ Pangram v3, которая, по их утверждению, оказалась наиболее точным средством для распознавания материалов, созданных нейросетью.

«Существует обеспокоенность, что распространение в интернете текстов, сгенерированных и отредактированных с помощью ИИ, может привести к снижению смыслового и стилистического разнообразия, ухудшению фактической достоверности и прочим негативным последствиям, — отмечают авторы работы. — Мы установили, что к середине 2025 года около 35 % вновь опубликованных сайтов были отнесены к категории созданных или обработанных с участием ИИ, тогда как до запуска ChatGPT в конце 2022 года этот показатель равнялся нулю».

«Я нахожу просто поразительной ту невероятную скорость, с которой искусственный интеллект захватывает интернет, — заявил исследователь ИИ из Стэнфорда и соавтор статьи Йонаш Долежал (Jonáš Doležal). — После десятилетий, когда интернет формировался людьми, значительная его часть всего за три года стала определяться искусственным интеллектом. На мой взгляд, мы наблюдаем масштабное преобразование цифрового ландшафта за гораздо более короткий срок, чем тот, что потребовался для его первоначального создания».

Специалисты проанализировали шесть популярных претензий к материалам, созданным искусственным интеллектом:

  • Ограничивает ли это разнообразие точек зрения?
  • Увеличивается ли объём ложной информации из-за распространения галлюцинаций?
  • Становится ли интернет-контент более «безликим» и излишне оптимистичным?
  • Возникают ли трудности с указанием источников?
  • Порождает ли ИИ цепочки слов с низкой смысловой насыщенностью?
  • Приводит ли это к культурной однородности и стандартизации письменной речи?

«Для каждой из гипотез мы определяем измеримый индикатор, рассчитываем его для каждого ежемесячного набора сайтов и анализируем, есть ли связь с общим показателем вероятности использования ИИ по месяцам», — объяснили авторы. К примеру, чтобы оценить, наполняет ли ИИ интернет недостоверными данными, группа исследователей выделила фактические сведения с изучаемых страниц и проверила их на соответствие действительности. Для выяснения вопроса о ссылках на источники команда подсчитала частоту внешних ссылок в текстах, созданных нейросетью.

К изумлению учёных, лишь два из шести предположений о воздействии текстов, написанных ИИ, подтвердились. Нейросети сделали интернет менее содержательно разнообразным и в целом более оптимистичным, однако они не спровоцировали рост дезинформации и не привели к исчезновению ссылок на источники.

«Самым неожиданным стало то, что наша теория о разрушении истины не нашла подтверждения, — поделился Долежал. — Мы целенаправленно искали признаки увеличения числа заведомо ложных утверждений, но не обнаружили их. Впрочем, возможно, что ИИ незаметно наращивает количество утверждений, которые невозможно проверить с помощью текущих инструментов и методов фактчекинга. Либо же интернет изначально не был особенно привержен правдивости».

Учёные пообещали продолжить исследование воздействия контента, созданного ИИ, на интернет. В данный момент они разрабатывают «постоянно действующий инструмент», который будет отслеживать ситуацию в динамике, а не давать единовременную «моментальную фотографию» ресурсов Сети. Специалисты намерены выяснить, какие именно типы сайтов наиболее насыщены материалами от нейросетей, с разбивкой по категориям и языкам, а также оценить, где последствия использования ИИ проявляются наиболее ярко.

Для Долежала такие исследования имеют ключевое значение, чтобы интернет оставался полезным и продуктивным. «С ростом объёмов контента, создаваемого ИИ, главный вызов — найти применение этим моделям, которое не сведётся лишь к генерации выхолощенного и однообразного материала, — отмечает он. — Вместо того чтобы добиваться от моделей полной послушности и уступчивости, лучше дать им больше характера или склонности к спорам — это позволит им стать творческим партнёром, а не заменой человеческому голосу».

Поделиться:

0 Комментариев

Оставить комментарий

Обязательные поля помечены *
Ваш комментарий *
Категории
Популярные новости