Интергласс
Белый Парус
Как распознать ИИ-текст: признаки и методы детекции
Автор - Админ    Сегодня, 06:00

Когда-то мы смеялись над корявостью и глупостью первых языковых моделей. Сегодня чат-боты пишут за людей деловые письма и посты, сочиняют рассказы, ведут задушевные беседы и приводят аргументы в спорах. Есть ли что-то, чем речь машины в корне отличается от человеческой? И может ли эксперт - или даже другая машина - обнаружить эту разницу?

Гладко, но безжизненно

Машина пишет текст не так, как человек. Она его вычисляет. И эти вычисления оставляют статистический отпечаток, который можно увидеть - если знать, куда смотреть. А смотреть нужно на энтропию: это своего рода мера хаоса. В тексте человека она обычно высокая: мы меняем темп, ошибаемся, вставляем неожиданные слова, перескакиваем с мысли на мысль. У языковой модели энтропия низкая. Она пишет как метроном: четко, последовательно, предсказуемо. Оно и понятно - ведь от генератора текста ждут не потока слов, вываленных в случайном порядке, а... текста.

Возьмем простой пример. Продолжите фразу: "Искусственный интеллект может..." ChatGPT при базовых настройках скорее выдаст продолжение в таком духе: "...помочь в решении сложных задач и повышении эффективности работы". А человек может написать: "...по одной фотке подсказать, как починить сломанную сушилку".

У машины нет жизненного опыта, но есть данные (тексты), на которых она обучалась. Она раскладывает текст на токены - слова, части слов и отдельные символы. Сами тексты она в памяти не хранит, а хранит данные о вероятностях сочетания токенов при определенных параметрах.

На каждом шаге модель смотрит на контекст и оценивает каждое возможное следующее слово - насколько оно здесь уместно. Это называется распределением вероятностей.

Создатели ИИ настраивают модели на "точность" и "когерентность" (то есть согласованность). Но если текст получается хорошим по этим показателям, он теряет живость. А если приобретает живость - рискует "уйти в дебри", начать нести несуразицу и выдать себя уже этим.

И все же модели постоянно совершенствуются. Чтобы сделать сгенерированные тексты менее искусственными, технологические гиганты используют специальную "дрессировку" - процесс, который называется выравниванием (alignment). Машину учат вести себя как человек. Самый популярный метод - обучение с подкреплением на основе человеческой обратной связи. Сначала модель генерирует много вариантов ответов. Потом приходят люди-аннотаторы и говорят: "Вот это звучит естественно, а это - как инструкция от пылесоса". Модель запоминает, какие ответы нравятся людям, и начинает им подражать.

Проще говоря, люди учат ИИ ошибаться "правильно" - вставлять те самые шероховатости человеческой речи, которые делают текст живым.

Компания Anthropic (создатели модели Claude) пошла еще дальше. Они разработали метод конституционного ИИ. Вместо армии аннотаторов они дали модели набор правил - своего рода "конституцию" - и научили ее самокритике. ИИ генерирует текст, потом сам же его анализирует: "Не слишком ли я формален? Не звучу ли как справочник?" - и переписывает.

Что увидит опытный глаз

Есть вещи, которые с высокой вероятностью выдают машинный текст даже невооруженному глазу. Языковые модели любят безличные метатекстовые конструкции, которые показывают логику текста (то есть создают ощущение той самой связности). Но проблема в том, что они превращаются в конструкции-паразиты. Многие тексты, написанные ChatGPT и его аналогами, пестрят однотипными формулировками: однако следует отметить..., в результате можно сделать вывод..., главное здесь..., это не просто [...], это.... В английском языке есть свои "предатели": delve into (углубляться в), at its core (по своей сути), it’s important to note (важно отметить).

Исследователи из Университета Карнеги - Меллона провели масштабный анализ и обнаружили закономерность: модель любит величавые, аккуратные, "закругленные" фразы, в которых чувствуется пустота. Здесь проявляется отмеченная выше черта: отсутствие у машины личного опыта. Она не скажет: "Помню, как пацаном впервые глотнул кофе - аж плеваться захотелось". Вместо этого выдаст что-то вроде: "Кофе представляет собой напиток, обладающий уникальными вкусовыми характеристиками". Впрочем, иногда и люди грешат такими гладкими и бессмысленными формулировками. Но у машин этот стиль, что называется, "не баг, а фича".

Если вы видели много сгенерированных текстов, то наверняка ощутили, что модель как будто слишком осторожничает. ИИ пишет как студент, который хочет произвести впечатление на профессора: напихать побольше умных слов и выражений. И при этом нет ничего, что можно счесть лишним, отрывочным, выбивающимся из стиля.

Исследователи использовали тест для ИИ на основе 66 критериев анализа текста, предложенных лингвистом Дугласом Бибером.

В нем учитывается множество параметров - от использования определенных синтаксических конструкций до частотности определенных частей речи. Когда эти критерии применили к продукции ChatGPT и сравнили результаты с человеческими текстами, выяснилось несколько интересных подробностей:

ИИ использует существительные там, где люди выбирают глаголы;
любит сложноподчиненные предложения;
злоупотребляет причастными оборотами;
питает пристрастие к служебным словам, а наречия недолюбливает;
употребляет менее разнообразную лексику, чем человек.

Вот как ChatGPT описал бы закат: "Солнце, медленно опускающееся за горизонт, окрашивает небосвод в оттенки, варьирующиеся от золотистого до багряного, создавая впечатляющее зрелище". Модель генерирует типовую поэтичность, соответствующую многим описаниям заката, которые она пропустила через себя в процессе обучения.

Пока что есть в текстах признаки искусственного происхождения, которые видны опытному глазу. Но ИИ учится быстрее, чем мы успеваем создавать правила. Уже сейчас появляются модели, которые намеренно "ломают" свою предсказуемость, вставляют случайные отклонения, имитируют человеческие ошибки.

Как работают программы-детекторы

Настоящая битва разворачивается на уровне, невидимом человеческому глазу: в статистике самого текста. И здесь машины (но уже другие) справляются неплохо, особенно на больших массивах сгенерированных текстов.

Подсказки снова кроются в особенностях создания текста - в тех же уровнях энтропии. Когда программа-детектор анализирует текст, она задается вопросом: "Насколько неожиданны эти слова?" Если каждое следующее слово легко предсказывается, это верный признак сгенерированного текста.

Машина пишет так, чтобы другая машина не удивилась. Человек пишет так, чтобы удивить человека. Эта разница в намерениях и оставляет статистический след.

Есть еще один показатель - burstiness (вариативность, неравномерность, буквально "взрывчатость"). Это показатель того, насколько неравномерно движется текст. Человек пишет скачками: короткое предложение, потом длинное, развернутое, со множеством придаточных, деталей и отступлений, которое тянется и тянется, пока вы не забываете, с чего оно вообще началось. А потом - снова короткое. ИИ пишет ровно - как вышколенный ученик, который боится ошибиться. Каждое предложение примерно одной длины. Примерно одной сложности. Примерно одной структуры.

Если разброс длины предложений для человеческого текста составляет от 3 до 40+ слов, то для ИИ-текста- от 12 до 20 слов. Это прямое следствие оптимизации модели в соответствии с критерием "когерентности". Неравномерность может касаться не только структуры предложений, но и распределения слов: в одном абзаце какое-то слово употребляется много раз (это как раз "взрыв" или кластер), а в другом может отсутствовать.

Наконец, программы-детекторы могут ориентироваться на разницу между глобальной и локальной семантической когерентностью - например, провалы в связности между соседними словами в определенных местах при сохранении общей логичности текста. Эти и другие аномалии, встречающиеся тут и там в обширном фрагменте, могут выдать машину.

Разработчики инструментов "очеловечивания" текста стараются учитывать эти данные. Они стремятся искусственно повысить энтропию и перплексию, не меняя смысл. Добавляют налет хаоса, чтобы текст выглядел человечнее. Например, заменяют слова на менее предсказуемые варианты. Или намеренно ломают ритм, дробя предложения и используя скачкообразные конструкции с тире, без лишних рассуждений и вводных слов. А еще - вставляют разговорные слова ("куча" вместо "много", "штука" вместо "вещь"), неполные предложения и даже опечатки.

Но и детекторы тоже эволюционируют. Они учатся распознавать тот хаос, который был добавлен нарочно.

Неуловимая человечность

Итак, мы можем при большом желании опознать тексты, которые содержат все перечисленные проблемы. Но остаются сложные случаи: когда человек умеет виртуозно составлять запросы (промпты) и тем самым получать более человечно звучащие тексты - и когда, напротив, написанные человеком тексты звучат блекло и механистично.

Если алгоритм получает от человека четкое техническое задание - тон, цель, контекст, стилистическую рамку, он может создать текст, который в своей "человечности" будет даже превосходить средние образцы живого письма.

Машина не устает, не теряет нить, не путается в формулировках. Ее "человечность" - функция постоянного контроля и точной настройки. А вот человек, напротив, может писать так, как будто он не имеет ни живого опыта, ни собственного голоса, а действует как конструктор механических фраз. Это случается в спешке, при профессиональном выгорании, при попытке подражать официально-деловому стилю, при желании "звучать умно".

Такие тексты не содержат ошибок, но и не содержат жизни - ритма, неожиданности, интонационных перепадов, микрособытий мысли. Например, тот, кто только учит язык, может проявлять осторожность: использовать много шаблонных конструкций, однообразной лексики, заученных формулировок. Предложения могут быть сложными, но слишком аккуратными.

В результате критерий "естественности" становится ненадежным. То, что мы считаем слишком выразительным для машины, может оказаться искусственным - только с использованием удачного промпта. А то, что кажется плоским и шаблонным, вполне может быть пробой пера начинающего автора.

Не забудем и о том, что многие тексты подчиняются определенным требованиям: запросы, деловые письма, научные статьи и аннотации к ним, инструкции... В этот список можно добавить даже школьные сочинения. Как раз такие тексты, благодаря их шаблонности, языковая модель может правдоподобно воспроизвести. Рекламные тексты, например, тоже строятся на определенных приемах. Но чтобы создать по-настоящему цепляющий, небанальный сюжет, нужна живость человеческого ума.

Кто кому подражает

Люди постепенно (и, видимо, непреднамеренно) перенимают у своих кремниевых творений стилистику письма. Недавно ученые из института Макса Планка, проанализировав 360 тысяч образовательных видео на YouTube, заметили, что преподаватели, спикеры и прочие "публичные личности" все чаще используют лексику, характерную для ИИ.

Например, в речи людей стали чаще встречаться слова вникнуть, исследовать, компетентный или область - в полтора раза чаще, чем до появления ChatGPT. Нейтральные, "холодные" слова вытесняют более образные, эмоционально насыщенные и индивидуальные конструкции. Меньше становится регионализмов, интонационного выделения, спонтанных пауз и даже юмора.

Этот сдвиг может со временем изменить всю культуру общения, как когда-то телеграф приучил наших предков к лаконичности, а мессенджеры у нас на глазах сделали письменную речь похожей на устную.

Главное: делать выводы рано, ведь технология продолжает стремительно развиваться. Новые версии языковых моделей выходят каждый месяц. Многие уже признаются, что не отличают сгенерированные видео от настоящих. Да и с текстом та же история: недавно исследователи из Питтсбургского университета провели эксперимент с участием полутора тысяч человек и выяснили: люди не отличают стихи, написанные ChatGPT, от творений классиков.

Вероятно, это еще и проблема оценщика. Точно так же, как истинный ценитель может с высокой вероятностью отличить произведение мастера от картины ремесленника, ценитель литературы, филолог или критик, скорее всего, отличит текст, за которым чувствуется живой человек - с эмоциями, сомнениями, ошибками и неожиданными речевыми находками.


Источник - Грамота.ру




: 0

Оставить комментарий

ПРАВИЛА КОММЕНТИРОВАНИЯ:

1) Не употребляйте ненормативную лексику.
2) Не оскорбляйте автора статьи или авторов комментариев.
3) Не размещайте в поле комментария статьи других авторов или ссылки на них.
4) Комментируя статью, не отклоняйтесь от ее тематики, не вступайте в перепалку с собеседниками.
5) Не размещайте в комментариях политический или личностный пиар, а так же рекламную информацию.
6) Не допускайте в комментариях разжигания межнациональной и межрегиональной розни.
7) Не оскорбляйте высших должностных лиц государства.
8) Не размещайте призывов к свержению строя или к иным противоправным действиям.

ПРИМЕЧАНИЯ:
- Авторы публикаций не вступают в переписку с комментаторами и не обсуждают собственные с материалы.
- Редакция не несет ответственности за содержание комментариев.

АДМИНИСТРАЦИЯ САЙТА ПРЕДУПРЕЖДАЕТ – категорически запрещено обсуждать в комментариях политику редакции или действия модератора, а так же распространять личные сведения о сотрудниках редакции и владельцах сайта.

В случае нарушения какого-либо правила комментарий удаляется.
При злостных и повторяющихся, намеренных нарушениях доступ к размещению комментариев блокируется.

Мировые новости
Загадочная смерть экс-сенатора от Чувашии. Кому помешал олигарх?
Сегодня, 06:00
Битва банков против маркетплейсов обернётся против каждого из нас
Сегодня, 06:00
Балтике приготовиться. Европа ищет повод к новой Большой войне
Сегодня, 06:00
Битва за Чёрное море перешла в опасную фазу
Сегодня, 06:00
Как распознать ИИ-текст: признаки и методы детекции
Сегодня, 06:00
Чего ждать России от нового спецпосланника США по Украине?
Сегодня, 06:00
Саботаж против Путина — чиновники раздают мигрантам "волшебные бумажки"
Сегодня, 06:00
Боррель: США при Трампе больше не могут считаться союзником ЕС
Вчера, 20:13
Киев согласился с планом США по урегулированию на Украине
Вчера, 20:11
Мелания Трамп приняла в Белом доме главную рождественскую елку США
Вчера, 13:15
Политолог: почему ЕС делает вид, что не понимает ультиматум Трампа
Вчера, 08:57
Эксперт: для чего Лондону потребовалась история с «перехватом» наших кораблей
Вчера, 08:51
Комитеты ЕП поддержали создание «военного Шенгена»
Вчера, 08:48
США прекратили финансирование конфликта на Украине
Вчера, 08:46
Тайное послание Си Путину. Китай просит о помощи?
Вчера, 06:00
Настал "чёрный день": Четыре ошибки Минфина, которые дорого обойдутся каждому из нас
Вчера, 06:00
Кыргызстан
Жапаров лично встретил Путина в аэропорту Бишкека
Вчера, 20:09
В Бишкеке прошла репетиция конного почетного караула перед визитом Путина
Вчера, 20:09
Путин и Жапаров пообщаются тет-а-тет, - о программе госвизита
Вчера, 11:15
Кто из чиновников и бизнесменов прилетит вместе с Путиным в Кыргызстан? Состав делегации РФ
Вчера, 11:14
Администрация президента: Санкции против банков КР основаны на неверных выводах
Вчера, 11:04
ОДКБ сменит генсека: пост займет представитель Кыргызстана
Вчера, 11:02
Садыр Жапаров вводит должность должность уполномоченного по борьбе с коррупцией
Вчера, 11:00
25-26-27 ноября состоится госвизит президента России Владимира Путина в Кыргызстан
24-11-2025, 17:35
Саммит ОДКБ. Список улиц в Бишкеке и Чуйской области, которые закроют для дорожного движения
24-11-2025, 17:34
Бишкек вводит ограничения из-за саммита ОДКБ. Школы и вузы переведут на онлайн
24-11-2025, 15:27
Глава Минздрава предлагает сократить количество аптек в Кыргызстане
24-11-2025, 09:23
Сын бывшего президента и экс-депутаты арестованы
24-11-2025, 09:20
Казахстан и Узбекистан зимой будут поставлять электроэнергию в Кыргызстан
24-11-2025, 09:17
Пресечена деятельность группы, готовившей массовые беспорядки после выборов в ЖК
23-11-2025, 08:51
Мэрия Бишкека запретила проведение новогодних корпоративов в подведомственных структурах
22-11-2025, 18:12
За призывы к массовым беспорядкам задержан Темирлан Султанбеков
22-11-2025, 12:55
В доме экс-депутата ЖК Шайлообека Атазова прошел обыск
22-11-2025, 12:53
Рост ОРВИ. Когда в школах Кыргызстана могут ввести карантин
21-11-2025, 15:15
Детсады будут финансировать по-новому
21-11-2025, 10:18
Невидимая армия: сколько людей «кормят» выборы в Жогорку Кенеш
21-11-2025, 10:17
Казахстан, Узбекистан
"Газовое кольцо" способно обеспечить энергетическую безопасность ЦА
Сегодня, 06:00
Армения не примет участие в саммите ОДКБ в Бишкеке
Вчера, 11:16
Актера Сергея Безрукова обвинили в неуважении к народу и культуре Узбекистана
Вчера, 11:03
В Туркменистане полностью пересохли два водохранилища
Вчера, 10:58
S&P повысило суверенный рейтинг Узбекистана до "BB"
Вчера, 06:00
Казахстан стал самым образованным государством СНГ
Вчера, 06:00
Уходящий мэр Нью-Йорка залетел в Узбекистан в поисках работы
24-11-2025, 09:59
Казахстан и Узбекистан зимой будут поставлять электроэнергию в Кыргызстан
24-11-2025, 09:17
Приоритетная задача ШОС - предотвращение радикализации
24-11-2025, 06:00
Душ для Ташкента. Узбекистан готовят к экспериментам с погодой
24-11-2025, 06:00
За стволом переговоров: почему Таджикистан начал контактировать с талибами
24-11-2025, 06:00
В России более 80 процентов детей мигрантов не приняли в школы
23-11-2025, 08:53
Соцсети
Белый Парус в Telegram
Белый Парус на Facebook
Интергласс-Строй
Гороскоп

Гороскоп с 25 по 30 ноября 2025 года. Какие события наиболее вероятны в ближайшие дни? К чему вам стоит подготовиться? Чего избегать, к чему стремиться? Ответы на эти вопросы вы найдете в еженедельном гороскопе.

Подробнее »


Tehnoinvest
Курс валют НБКР
На 26.11.2025
USD 87,4500
EUR 100,8211
CNY 12,3291
KZT 0,1686
RUB 1,1157