Как распознать текст, созданный ИИ: инструменты и подходы для работы с контентом

Признаки сгенерированных ИИ текстов
Сервисы для проверки сгенерированных текстов
Как приблизить текст к написанному человеком

Копирайтеры используют инструменты ИИ для написания текстов самыми разными способами: как для генерации идей и брейнштормов, так и для написания частей и целых статей. Это может существенно ускорить работу, однако если генерация используется бездумно, без редактирования и фактчекинга, это дает на выходе менее качественные тексты.

Редактор или владелец сайта имеют перед собой новый вызов: необходимость определить, самостоятельно ли копирайтер писал текст.

Заказчики платят деньги копирайтерам за авторские статьи — сгенерировать текст на ChatGPT можно и бесплатно. Поэтому самая первая необходимость в проверке на ИИ-генерацию состоит в том, чтобы узнать, насколько добросовестно автор подходит к работе, действительно ли сам пишет статьи, или же он идет по пути наименьшего сопротивления и лукавит.

Известно, что хотя Google не запрещает постить тексты, сгенерированные нейросетями, но все же такой контент имеет меньше шансов попасть в ТОП выдачи. Текст повышается в ранжировании за живой опыт, надежность, авторитетность, словом, за то, что он действительно полезен читателям. И напротив, водянистые, обобщенные тексты будут «падать» в выдаче ниже.

Давайте разберемся, как определить сгенерированный искусственным интеллектом текст.

Признаки сгенерированных ИИ текстов

Все признаки, о которых здесь идет речь, со временем могут становиться сложнее для «отлавливания», ведь модели учатся, и также учатся люди — в частности, лучше формулировать запрос к ИИ. Однако это не обязательно. Можно сказать, что ИИ пишет на уровне посредственного копирайтера, который поленился проверить факты и вычитать за собой.

Фейки

Один из самых первых признаков, которые часто встречается в текстах, сгенерированных языковыми моделями и не вычитанных человеком — фейки. Они встречаются так часто, что это стало развлечением пользователей интернета: просить ChatGPT написать свою собственную биографию или описание малоизвестной книги — и делиться смешными результатами с сообществом. Бывали и казусы, которые влияли на студенческие оценки. Например, грамматически правильный и логически согласованный реферат о том, что Леся Украинка была медсестрой на бронепоезде Махна.

Стилистика

Очень часто сгенерированные тексты содержат повторяющиеся слова и конструкции. В частности, «в современном мире» — одна из любимых, из которых ChatGPT начинает значительную часть своих текстов.

Часто они пишут также тексты без узнаваемого стиля, переспамивают одним и тем же ключевым словом. Если текст маркетинговый — в нем будет слишком много восторга, высказанного в очень общих чертах («современные технологии», «кульминация развития технологий» и так далее).

Также ИИ чрезмерно увлекаются списками. Если вы видите текст, в котором почти сплошные списки — он 99% написан нейросетью.

К примеру, мы спросили у ChatGPT, как проверить домен на доступность — результат видите сами.

Пример сгенерированного искусственным интеллектом текста

Все вышеописанные проблемы можно исправить с помощью правильных запросов: «не используй списки», «пиши в сдержанном стиле», «не используй штампованные выражения» и так далее.

Но есть важный признак, который не исправишь никакими запросами — тексты, созданные ИИ, быстро утомляют читателя, они неинтересны и поверхностны. Заметьте, как долго вы можете читать ИИ текст? Если мозг отключается на втором абзаце, это также признак «искусственности» — нейросеть не способна написать живой авторский текст. По крайней мере, пока.

Ошибки нейросетей

Хотя со временем языковые модели учатся лучше, все еще можно встретить в текстах многочисленные несогласования, использование одного и того же слова там, где человек употребил бы синоним.

Может быть и так, что GPT будет использовать слишком много синонимов и сложных слов там, где живой человек так бы не говорил.

Вот еще несколько чисто технических признаков:

чрезмерное использование вставного слова «может»;
однотипная структура предложений;
повторение слов или целых фраз;
проблемы с согласованием предложений, если ИИ сразу писал длинный текст.

Отсутствие индивидуальности

В текстах от ИИ не найдешь даже имитации собственных опытов, предложения будут максимально обобщенными.

ИИ не скажет «я считаю», «я думаю», «мне больше всего понравилось» и т.д.

Наверное, никто не ожидает, что текст, написанный для продвижения страниц сайта на сторонних площадках по частотным запросам будет написан как личный блог. Однако мы не должны забывать, что поисковикам и читателям важно, чтобы текст был полезен, содержал нечто, чего нет у других. ИИ не имеет собственного опыта и не может вложить его в написанные тексты — на это способен только человек. Именно поэтому профессиональные копирайтеры с прекрасным стилем написания могут быть спокойными за работу — нейросеть ее не отнимет.

Вода в текстах, сгенерированных ИИ

Этот недостаток вытекает из предыдущего: GPT без серьезной помощи человека пишет тексты с огромным количеством воды. Их можно приложить к чему-либо, и они неплохо впишутся в тему, однако не будут точно раскрывать вопрос с учетом его специфики. Их можно охарактеризовать выражением «много букв ни о чем» — как реферат студента или речь чиновника.

На иллюстрации ниже – ИИ сгенерировал описание кефира «Галичина». Можно генерировать аналогичные описания хоть десятками.

Пример ИИ-текста для описания товара

Уникальны ли сгенерированные искусственным интеллектом тексты

ИИ-сгенерированные тексты имеют достаточно высокую уникальность. Мы предложили сервису Skandy текст о хостинге, полностью созданный нейросетью. Эта платформа одновременно определяет плагиат и ИИ-генерацию. Как видим, при уникальности 94% сервис показывает 90% вероятности, что автор этого контента не человек.

Результаты проверки ИИ-текста на уникальность

Сервисы для проверки сгенерированных текстов

На этой ноте мы плавно переходим к вопросу инструментов определения ИИ-контента. Для облегчения работы редактор может использовать автоматизированные сервисы, которых в сети немало.

Правда, не все такие сервисы распознают украинский язык, но ниша потихоньку движется в этом направлении.

ZeroGPT

Этот текст, по словам редакторов, которые с ним долго работают, выдает погрешности, определяя наиболее обобщенные фрагменты текста как написанные искусственным интеллектом. Однако эта система поддерживает разные языки, в том числе и украинский, что является плюсом.

Вот как она протестовала фрагмент этой статьи.

Сервис для проверки текста на ИИ ZeroGPT

GPT-2 Output Detector

Тоже проверяет тексты на украинском, очень простой интерфейс, ничего лишнего. Детектор определяет естественность даже для отдельных предложений — на сайте указано, что данные становятся достоверными уже после 50 токенов. К примеру, у проверенного нами текста было уже 773 токена.

Результаты проверки ИИ-текста на сервисе GPT-2 Output Detector

GLTR IO

Это сервис проверки, который базируется на математической формуле: чем чаще то или иное слово используется в интернете, тем вероятнее оно будет использовано в тексте от ИИ. Поэтому, чем легче системе «угадать» слово в тексте, тем больше он «роботизирован».

К сожалению, украинский язык здесь не распознается, и вообще кириллица превращается при анализе в абракадабру. Но для проверки текстов на английском инструмент вполне подходит.

AI Text Classifier

На этот сервис от OpenAI возлагались большие надежды, но он уже недоступен для пользователей. Создатели утверждали, что эта модель основана на тех же принципах, что и популярный Chat GPT, поэтому хорошо анализирует тексты, используя аналогичные алгоритмы и обучаясь в процессе.

Сейчас на странице сервиса висит следующее уведомление:

«По состоянию на 20 июля 2023 классификатор искусственного интеллекта больше не доступен из-за его низкой точности. Мы работаем над улучшением с учетом отзывов, и сейчас исследуем более эффективные методы происхождения текста, а также обязались разработать и развернуть механизмы, позволяющие пользователям понять, какой аудио- или визуальный контент создан искусственным интеллектом.»

Почему мы вспоминаем о неработающем сервисе? Потому что это очень показательный кейс. Он был одним из первых и внушал веру в то, что можно легко обнаружить сгенерированный текст, просто скопировав его в окошко. Его разработала команда OpenAI, то есть создатели ChatGPT, к которым гораздо больше доверия, чем к «гаражным» разработчикам подобных платформ. Тем не менее они закрыли этот инструмент для пользователей, продемонстрировав высокий уровень ответственности. Это означает, что подобные сервисы еще очень несовершенны и часто ошибаются.

Их можно и нужно использовать, но только как вспомогательный инструмент. И всегда следует иметь в виду, что копирайтер также может написать неинтересный поверхностный текст с кучей ошибок.

Как приблизить текст к написанному человеком

Осознание того, что копирайтер сдал заказчику сгенерированный текст вместо авторского, может стать неприятным сюрпризом. Но все же в генерации ИИ-контента как таковой нет ничего криминального. Нейросети помогают цифровым работникам оптимизировать рабочий процесс и быстро создавать простой контент, не требующий особого творческого вымысла. Например, таким образом владелец бюджетного сайта может быстро сделать описания для товаров или основных страниц.

ИИ может сэкономить значительную часть времени для тех, кто пишет тексты самостоятельно. Ему можно делегировать составление плана статьи, подзаголовков, генерацию дополнительных идей, объяснение сложных терминов. Он может помочь написать Title и Description, дать идеи по семантическому ядру и в целом сильно облегчить работу.

Поэтому в этом разделе мы не легализуем халтурный подход к работе недобросовестных копирайтеров, а хотим поделиться советами с авторами, веб-мастерами и владельцами бизнеса, для кого генерация контента становится выходом и помощью.

Обязательное редактирование ИИ-текстов

ИИ-тексту всегда нужна редактура — это аксиома. Даже если текст выглядит вполне пристойно, редактирование способно значительно его очеловечить и улучшить читабельность.

замените часто повторяющиеся слова на синонимы или совсем уберите их;
сделайте структуру предложений менее однотипной;
проверьте факты;
уменьшите количество списков или совсем избавьтесь от них, если нет ситуативной потребности;
снизьте градус восхищения;
сократите воду — часто целый абзац от ИИ можно уместить в одно предложение.

Интеграция собственного опыта в сгенерированный контент

Следует добавить в текст индивидуальности, реальных кейсов ваших клиентов, живых примеров, которые вы возьмете из своего опыта.

Чем больше в тексте творчества, использования всего инструментария языка, полезных лайфхаков, которые нигде не найдешь, тем больше он индивидуализирован.

Если контент хотя бы частично содержит информацию, которой нет на других сайтах, он уже несет пользу и может удовлетворить интерес читателя. Не полагайтесь в этом вопросе на ИИ, здесь он бессилен.

Сервисы-«гуманизаторы» — стоит ли ими пользоваться

Сейчас появились сервисы, которые делают из сгенерированного текста «humanized», то есть очеловечивают его. Лично мы ими не пользуемся, потому что нет такой необходимости, но небольшое исследование в сети показало, что адекватных сервисов для работы с украинским языком пока нет. В большинстве своем они зависают и выдают ошибки. Только один из полдесятка протестированных хоть как-то смог переварить предложенный текст об аренде сервера, но не скажешь, что у него это получилось хорошо.

Пример сервиса для гуманизации ИИ-текста

Возможно, со временем такие сервисы будут развиваться и становиться лучше, но сейчас мы не советуем тратить на них время.

Нейросети созданы для помощи людям, а не для их замены — они не способны самостоятельно создавать качественный контент. Но если ИИ текст добросовестно проработан человеком, его трудно отличить от человеческого.

И если уже есть необходимость использовать искусственный интеллект — комбинируйте собственный опыт с онлайн-сервисами, а не ограничивайтесь только ими. Текст, написанный в осознанном и активном соавторстве ИИ и человека, полезен с точки зрения и Google, и читателя, а следовательно, и необходимости определять его как сгенерированный уже не будет.

Как понять, что текст написан ИИ — советы для редакторов и контент-мейкеров