Как распознать ИИ-текст: признаки и методы детекции

Как распознать ИИ-текст: признаки и методы детекции

Автор - Админ 26-11-2025, 06:00

Когда-то мы смеялись над корявостью и глупостью первых языковых моделей. Сегодня чат-боты пишут за людей деловые письма и посты, сочиняют рассказы, ведут задушевные беседы и приводят аргументы в спорах. Есть ли что-то, чем речь машины в корне отличается от человеческой? И может ли эксперт - или даже другая машина - обнаружить эту разницу?

Гладко, но безжизненно

Машина пишет текст не так, как человек. Она его вычисляет. И эти вычисления оставляют статистический отпечаток, который можно увидеть - если знать, куда смотреть. А смотреть нужно на энтропию: это своего рода мера хаоса. В тексте человека она обычно высокая: мы меняем темп, ошибаемся, вставляем неожиданные слова, перескакиваем с мысли на мысль. У языковой модели энтропия низкая. Она пишет как метроном: четко, последовательно, предсказуемо. Оно и понятно - ведь от генератора текста ждут не потока слов, вываленных в случайном порядке, а... текста.

Возьмем простой пример. Продолжите фразу: "Искусственный интеллект может..." ChatGPT при базовых настройках скорее выдаст продолжение в таком духе: "...помочь в решении сложных задач и повышении эффективности работы". А человек может написать: "...по одной фотке подсказать, как починить сломанную сушилку".

У машины нет жизненного опыта, но есть данные (тексты), на которых она обучалась. Она раскладывает текст на токены - слова, части слов и отдельные символы. Сами тексты она в памяти не хранит, а хранит данные о вероятностях сочетания токенов при определенных параметрах.

На каждом шаге модель смотрит на контекст и оценивает каждое возможное следующее слово - насколько оно здесь уместно. Это называется распределением вероятностей.

Создатели ИИ настраивают модели на "точность" и "когерентность" (то есть согласованность). Но если текст получается хорошим по этим показателям, он теряет живость. А если приобретает живость - рискует "уйти в дебри", начать нести несуразицу и выдать себя уже этим.

И все же модели постоянно совершенствуются. Чтобы сделать сгенерированные тексты менее искусственными, технологические гиганты используют специальную "дрессировку" - процесс, который называется выравниванием (alignment). Машину учат вести себя как человек. Самый популярный метод - обучение с подкреплением на основе человеческой обратной связи. Сначала модель генерирует много вариантов ответов. Потом приходят люди-аннотаторы и говорят: "Вот это звучит естественно, а это - как инструкция от пылесоса". Модель запоминает, какие ответы нравятся людям, и начинает им подражать.

Проще говоря, люди учат ИИ ошибаться "правильно" - вставлять те самые шероховатости человеческой речи, которые делают текст живым.

Компания Anthropic (создатели модели Claude) пошла еще дальше. Они разработали метод конституционного ИИ. Вместо армии аннотаторов они дали модели набор правил - своего рода "конституцию" - и научили ее самокритике. ИИ генерирует текст, потом сам же его анализирует: "Не слишком ли я формален? Не звучу ли как справочник?" - и переписывает.

Что увидит опытный глаз

Есть вещи, которые с высокой вероятностью выдают машинный текст даже невооруженному глазу. Языковые модели любят безличные метатекстовые конструкции, которые показывают логику текста (то есть создают ощущение той самой связности). Но проблема в том, что они превращаются в конструкции-паразиты. Многие тексты, написанные ChatGPT и его аналогами, пестрят однотипными формулировками: однако следует отметить..., в результате можно сделать вывод..., главное здесь..., это не просто [...], это.... В английском языке есть свои "предатели": delve into (углубляться в), at its core (по своей сути), it’s important to note (важно отметить).

Исследователи из Университета Карнеги - Меллона провели масштабный анализ и обнаружили закономерность: модель любит величавые, аккуратные, "закругленные" фразы, в которых чувствуется пустота. Здесь проявляется отмеченная выше черта: отсутствие у машины личного опыта. Она не скажет: "Помню, как пацаном впервые глотнул кофе - аж плеваться захотелось". Вместо этого выдаст что-то вроде: "Кофе представляет собой напиток, обладающий уникальными вкусовыми характеристиками". Впрочем, иногда и люди грешат такими гладкими и бессмысленными формулировками. Но у машин этот стиль, что называется, "не баг, а фича".

Если вы видели много сгенерированных текстов, то наверняка ощутили, что модель как будто слишком осторожничает. ИИ пишет как студент, который хочет произвести впечатление на профессора: напихать побольше умных слов и выражений. И при этом нет ничего, что можно счесть лишним, отрывочным, выбивающимся из стиля.

Исследователи использовали тест для ИИ на основе 66 критериев анализа текста, предложенных лингвистом Дугласом Бибером.

В нем учитывается множество параметров - от использования определенных синтаксических конструкций до частотности определенных частей речи. Когда эти критерии применили к продукции ChatGPT и сравнили результаты с человеческими текстами, выяснилось несколько интересных подробностей:

ИИ использует существительные там, где люди выбирают глаголы;
любит сложноподчиненные предложения;
злоупотребляет причастными оборотами;
питает пристрастие к служебным словам, а наречия недолюбливает;
употребляет менее разнообразную лексику, чем человек.

Вот как ChatGPT описал бы закат: "Солнце, медленно опускающееся за горизонт, окрашивает небосвод в оттенки, варьирующиеся от золотистого до багряного, создавая впечатляющее зрелище". Модель генерирует типовую поэтичность, соответствующую многим описаниям заката, которые она пропустила через себя в процессе обучения.

Пока что есть в текстах признаки искусственного происхождения, которые видны опытному глазу. Но ИИ учится быстрее, чем мы успеваем создавать правила. Уже сейчас появляются модели, которые намеренно "ломают" свою предсказуемость, вставляют случайные отклонения, имитируют человеческие ошибки.

Как работают программы-детекторы

Настоящая битва разворачивается на уровне, невидимом человеческому глазу: в статистике самого текста. И здесь машины (но уже другие) справляются неплохо, особенно на больших массивах сгенерированных текстов.

Подсказки снова кроются в особенностях создания текста - в тех же уровнях энтропии. Когда программа-детектор анализирует текст, она задается вопросом: "Насколько неожиданны эти слова?" Если каждое следующее слово легко предсказывается, это верный признак сгенерированного текста.

Машина пишет так, чтобы другая машина не удивилась. Человек пишет так, чтобы удивить человека. Эта разница в намерениях и оставляет статистический след.

Есть еще один показатель - burstiness (вариативность, неравномерность, буквально "взрывчатость"). Это показатель того, насколько неравномерно движется текст. Человек пишет скачками: короткое предложение, потом длинное, развернутое, со множеством придаточных, деталей и отступлений, которое тянется и тянется, пока вы не забываете, с чего оно вообще началось. А потом - снова короткое. ИИ пишет ровно - как вышколенный ученик, который боится ошибиться. Каждое предложение примерно одной длины. Примерно одной сложности. Примерно одной структуры.

Если разброс длины предложений для человеческого текста составляет от 3 до 40+ слов, то для ИИ-текста- от 12 до 20 слов. Это прямое следствие оптимизации модели в соответствии с критерием "когерентности". Неравномерность может касаться не только структуры предложений, но и распределения слов: в одном абзаце какое-то слово употребляется много раз (это как раз "взрыв" или кластер), а в другом может отсутствовать.

Наконец, программы-детекторы могут ориентироваться на разницу между глобальной и локальной семантической когерентностью - например, провалы в связности между соседними словами в определенных местах при сохранении общей логичности текста. Эти и другие аномалии, встречающиеся тут и там в обширном фрагменте, могут выдать машину.

Разработчики инструментов "очеловечивания" текста стараются учитывать эти данные. Они стремятся искусственно повысить энтропию и перплексию, не меняя смысл. Добавляют налет хаоса, чтобы текст выглядел человечнее. Например, заменяют слова на менее предсказуемые варианты. Или намеренно ломают ритм, дробя предложения и используя скачкообразные конструкции с тире, без лишних рассуждений и вводных слов. А еще - вставляют разговорные слова ("куча" вместо "много", "штука" вместо "вещь"), неполные предложения и даже опечатки.

Но и детекторы тоже эволюционируют. Они учатся распознавать тот хаос, который был добавлен нарочно.

Неуловимая человечность

Итак, мы можем при большом желании опознать тексты, которые содержат все перечисленные проблемы. Но остаются сложные случаи: когда человек умеет виртуозно составлять запросы (промпты) и тем самым получать более человечно звучащие тексты - и когда, напротив, написанные человеком тексты звучат блекло и механистично.

Если алгоритм получает от человека четкое техническое задание - тон, цель, контекст, стилистическую рамку, он может создать текст, который в своей "человечности" будет даже превосходить средние образцы живого письма.

Машина не устает, не теряет нить, не путается в формулировках. Ее "человечность" - функция постоянного контроля и точной настройки. А вот человек, напротив, может писать так, как будто он не имеет ни живого опыта, ни собственного голоса, а действует как конструктор механических фраз. Это случается в спешке, при профессиональном выгорании, при попытке подражать официально-деловому стилю, при желании "звучать умно".

Такие тексты не содержат ошибок, но и не содержат жизни - ритма, неожиданности, интонационных перепадов, микрособытий мысли. Например, тот, кто только учит язык, может проявлять осторожность: использовать много шаблонных конструкций, однообразной лексики, заученных формулировок. Предложения могут быть сложными, но слишком аккуратными.

В результате критерий "естественности" становится ненадежным. То, что мы считаем слишком выразительным для машины, может оказаться искусственным - только с использованием удачного промпта. А то, что кажется плоским и шаблонным, вполне может быть пробой пера начинающего автора.

Не забудем и о том, что многие тексты подчиняются определенным требованиям: запросы, деловые письма, научные статьи и аннотации к ним, инструкции... В этот список можно добавить даже школьные сочинения. Как раз такие тексты, благодаря их шаблонности, языковая модель может правдоподобно воспроизвести. Рекламные тексты, например, тоже строятся на определенных приемах. Но чтобы создать по-настоящему цепляющий, небанальный сюжет, нужна живость человеческого ума.

Кто кому подражает

Люди постепенно (и, видимо, непреднамеренно) перенимают у своих кремниевых творений стилистику письма. Недавно ученые из института Макса Планка, проанализировав 360 тысяч образовательных видео на YouTube, заметили, что преподаватели, спикеры и прочие "публичные личности" все чаще используют лексику, характерную для ИИ.

Например, в речи людей стали чаще встречаться слова вникнуть, исследовать, компетентный или область - в полтора раза чаще, чем до появления ChatGPT. Нейтральные, "холодные" слова вытесняют более образные, эмоционально насыщенные и индивидуальные конструкции. Меньше становится регионализмов, интонационного выделения, спонтанных пауз и даже юмора.

Этот сдвиг может со временем изменить всю культуру общения, как когда-то телеграф приучил наших предков к лаконичности, а мессенджеры у нас на глазах сделали письменную речь похожей на устную.

Главное: делать выводы рано, ведь технология продолжает стремительно развиваться. Новые версии языковых моделей выходят каждый месяц. Многие уже признаются, что не отличают сгенерированные видео от настоящих. Да и с текстом та же история: недавно исследователи из Питтсбургского университета провели эксперимент с участием полутора тысяч человек и выяснили: люди не отличают стихи, написанные ChatGPT, от творений классиков.

Вероятно, это еще и проблема оценщика. Точно так же, как истинный ценитель может с высокой вероятностью отличить произведение мастера от картины ремесленника, ценитель литературы, филолог или критик, скорее всего, отличит текст, за которым чувствуется живой человек - с эмоциями, сомнениями, ошибками и неожиданными речевыми находками.

Источник - Грамота.ру

: 0

Оставить комментарий

ПРАВИЛА КОММЕНТИРОВАНИЯ:

1) Не употребляйте ненормативную лексику.
2) Не оскорбляйте автора статьи или авторов комментариев.
3) Не размещайте в поле комментария статьи других авторов или ссылки на них.
4) Комментируя статью, не отклоняйтесь от ее тематики, не вступайте в перепалку с собеседниками.
5) Не размещайте в комментариях политический или личностный пиар, а так же рекламную информацию.
6) Не допускайте в комментариях разжигания межнациональной и межрегиональной розни.
7) Не оскорбляйте высших должностных лиц государства.
8) Не размещайте призывов к свержению строя или к иным противоправным действиям.

ПРИМЕЧАНИЯ:
- Авторы публикаций не вступают в переписку с комментаторами и не обсуждают собственные с материалы.
- Редакция не несет ответственности за содержание комментариев.

АДМИНИСТРАЦИЯ САЙТА ПРЕДУПРЕЖДАЕТ – категорически запрещено обсуждать в комментариях политику редакции или действия модератора, а так же распространять личные сведения о сотрудниках редакции и владельцах сайта.

В случае нарушения какого-либо правила комментарий удаляется.
При злостных и повторяющихся, намеренных нарушениях доступ к размещению комментариев блокируется.

Ваше имя*

Ваш e-mail*

Мировые новости

Трамп заявил, что ему не нужно международное право
Вчера, 09:07

США за день получили венесуэльскую нефть на $4 миллиарда — Дональд Трамп
Вчера, 09:05

Международный суд принял решение о суде над киевским режимом, обвиняемом в геноциде населения Донбасса
Вчера, 06:00

День закрытых дверей: что сделали тарифы США с мировой экономикой
Вчера, 06:00

"Завидуйте, нищеброды". "Лучшие люди" опозорились в Куршевеле
Вчера, 06:00

Президент Путин – важнейший фактор консолидации народа
Вчера, 06:00

Должность для "любимого генерала Путина". Операция "Преемник"
Вчера, 06:00

Ради России Франция отказала США
Вчера, 06:00

Захват «Маринеры» требует от России новых подходов к безопасности танкеров
Вчера, 06:00

Медведев усомнился в адекватности защиты танкера Marinera флагом России
9-01-2026, 17:08

Трамп освободил двух россиян из захваченного танкера «Маринера»
9-01-2026, 17:06

Каким будет курс рубля в 2026 году
9-01-2026, 06:00

Как перестать спорить с историей
9-01-2026, 06:00

"Теперь могу сказать всю правду": Раймонд Паулс ошеломил заявлением про русских
9-01-2026, 06:00

"Получи, Путин!"
9-01-2026, 06:00

Система высшего образования отказалась от бакалавров и магистров
9-01-2026, 06:00

Кыргызстан

Ввести госрегулирование цен на недвижимость предлагает Дастан Бекешев
Вчера, 16:21

Проект городка «Алтай» в Бишкеке не согласовали с Институтом сейсмологии — НАН
9-01-2026, 10:01

Бишкек снова в тройке городов мира с самым загрязненным воздухом
9-01-2026, 09:59

Эдиль Байсалов: Мы должны пересмотреть безвизовый режим для граждан США
8-01-2026, 17:03

Зима не будет, будет потепление. Погода на неделю в Бишкеке
8-01-2026, 10:12

Календарь праздничных и нерабочих дней в КР
8-01-2026, 10:09

«Нестле» отзывает отдельные партии детского питания в КР
8-01-2026, 10:05

Для граждан КР ввели визовый залог при оформлении въездных документов в США
7-01-2026, 20:04

Белый дом поставил Венесуэле условия: «выдворить КНР, РФ, Иран и Кубу и разорвать экономические связи»
7-01-2026, 17:13

Президент поздравил кыргызстанцев с Рождеством Христовым
7-01-2026, 10:45

Акции протеста в Иране: Кыргызстанцев просят воздержаться от поездок в страну
7-01-2026, 10:02

При пожаре в Доме престарелых в Бишкеке погибли два человека
7-01-2026, 10:01

Это важно: обменки Кыргызстана будут проверять происхождение ваших средств
6-01-2026, 10:52

За 10 лет число школьников выросло на полмиллиона, - президент о нехватке школ
5-01-2026, 09:33

Почему жилье от ГИК не может быть дешевле? Ответ Садыра Жапарова
5-01-2026, 09:31

Садыр Жапаров: Переход на 12-летнюю систему образования — глобальное требование
5-01-2026, 09:30

Население и бизнес разошлись в ожиданиях от 2026 года
5-01-2026, 06:00

Кыргызстанка вошла в 0,4 процента людей с самым высоким IQ в мире
3-01-2026, 17:18

Медики рассказали, сколько в Кыргызстане родилось детей в новогоднюю ночь
1-01-2026, 14:15

Новогодняя ночь в Кыргызстане прошла спокойно, без серьезных происшествий — МВД
1-01-2026, 11:48

Казахстан, Узбекистан

В Казахстане начинает работу первый в стране крематорий
Вчера, 16:20

Что произошло с Национальным фондом Казахстана в 2025 году
Вчера, 13:49

Нарративы о предстоящей агрессии России в Центральной Азии проплачены (часть2)
8-01-2026, 06:00

Брюссельский надзор: ЕС назначил себя главным аудитором по сексу в Казахстане
8-01-2026, 06:00

Почему России не нужен протекторат над 80-миллионной Центральной Азией (часть 1)
7-01-2026, 06:00

Биометрия и лимит на 10 номеров: в Казахстане изменили правила покупки SIM-карт
7-01-2026, 06:00

Казахстан вступил в новый этап модернизации. Новогоднее интервью Касым-Жомарта Токаева
7-01-2026, 06:00

Токаев рассказал, какими видами спорта занимаются президенты стран СНГ
6-01-2026, 06:00

В Узбекистане учредят нагрудный знак "За вклад в борьбу с коррупцией" для защиты информаторов от преследований
6-01-2026, 06:00

Депутат Олий Мажлиса обратился к гражданам Узбекистана с призывом покинуть РФ
5-01-2026, 17:56

Будут ли в Казахстане устанавливать вышки 5G в 2026 году?
5-01-2026, 09:42

Атака на резиденцию Путина. Киев упрекает страны Центральной Азии
3-01-2026, 17:16

Соцсети

Гороскоп

Гороскоп на неделю, с 5 по 11 января 2026 года. Какие события наиболее вероятны в ближайшие дни? К чему вам стоит подготовиться? Чего избегать, к чему стремиться? Ответы на эти вопросы вы найдете в еженедельном

Подробнее »

Курс валют НБКР

На 11.01.2026
USD	87,4435
EUR	102,5188
CNY	12,5145
KZT	0,1731
RUB	1,1016

Оставить комментарий

ПРАВИЛА КОММЕНТИРОВАНИЯ:

© 2009 — 2009 Интернет газета «Белый Парус»