Як розпізнати текст, створений ШІ: інструменти та підходи для роботи з контентом

Ознаки генерованих текстів
Сервіси для перевірки генерованих текстів
Як наблизити текст до написаного людиною

Копірайтери використовують інструменти ШІ для написання текстів у найрізноманітніші способи: як для генерації ідей та брейнштормів, так і для написання частин та цілих статей. Це може суттєво пришвидшити роботу, проте якщо генерація використовується бездумно, без редагування та фактчекінгу, це дає на виході менш якісні тексти.

Редактор чи власник сайту мають перед собою новий виклик: необхідність визначити, чи самостійно копірайтер писав текст.

Замовники платять гроші копірайтерам за авторські статті — згенерувати текст на ChatGPT можна і безкоштовно. Тому найперша необхідність у перевірці на ШІ-генерацію полягає в тому, щоб дізнатися, наскільки сумлінно автор підходить до роботи, чи дійсно сам пише статті, або ж він йде шляхом найменшого спротиву і хитрує.

Відомо, що, хоча Google не забороняє постити тексти, згенеровані нейромережами, але все ж такий контент має менше шансів потрапити в ТОП видачі. Текст підвищується в ранжуванні за живий досвід, надійність, авторитетність, словом, за те, що він справді корисний читачам. І навпаки, водянисті, узагальнені тексти будуть «падати» у видачі нижче.

Тож давайте розберемося, як визначити згенерований штучним інтелектом текст.

Ознаки генерованих текстів

Всі ознаки, про які тут йдеться, з часом можуть ставати складнішими для «відловлювання», адже моделі навчаються, і також навчаються люди — зокрема краще формулювати запит до ШІ. Проте це не обов’язково. Можна сказати, що ШІ пише на рівні посереднього копірайтера, який полінувався перевірити факти та вичитати за собою.

Фейки

Одна з найперших ознак, які часто зустрічаються у текстах, згенерованих мовними моделями і не вичитаних людиною — фейки. Вони зустрічаються так часто, що подекуди це стало розвагою користувачів інтернету: просити ChatGPT написати свою власну біографію або опис маловідомої книги — і ділитися смішними результатами зі спільнотою. Бували і казуси, що впливали на студентські оцінки. Наприклад, граматично правильний і логічно узгоджений реферат про те, що Леся Українка була медсестрою на бронепотязі Махна.

Читайте також: Фейки та дезінформація: вчимося розпізнавати неправдиві дані в мережі

Стилістика

Дуже часто згенеровані тексти містять повторювані слова і конструкції. Зокрема «в сучасному світі» — одна з улюблених, з яких ChatGPT починає значну частину своїх текстів.

Часто вони пишуть також тексти без впізнаваного стилю, переспамлюють одним і тим самим ключовим словом. Якщо текст маркетинговий — в ньому буде забагато захвату, висловленого в дуже загальних рисах («найсучасніші технології», «кульмінація розвитку технологій» тощо).

Також ШІ надмірно захоплюються списками. Якщо ви бачите текст, в якому майже суцільні списки — він 99% написаний нейромережею.

Наприклад, ми запитали в ChatGPT, як перевірити домен на доступність — результат бачите самі.

Приклад згенерованого штучним інтелектом тексту

Всі вищеописані проблеми можна виправити за допомогою правильних запитів: «не використовуй списки», «пиши в стриманому стилі», «не використовуй штампованих виразів» тощо.

Але є важлива ознака, яку не виправиш ніякими запитами — тексти, створені ШІ, швидко втомлюють читача, вони нецікаві та поверхневі. Помітьте, як довго ви можете читати ШІ-текст? Якщо мозок відключається на другому абзаці, то це також ознака «штучності» — нейромережа не здатна написати живий авторський текст. Принаймні, поки що.

Читайте також: Неочевидні функції в Google Docs: інструкція з використання

Помилки нейромереж

Хоча з часом мовні моделі навчаються краще, все ще можна зустріти в текстах численні неузгодження, використання одного і того самого слова там, де людина вжила б синонім.

Може бути і так, що GPT вживатиме забагато синонімів і складних слів там, де жива людина так би не говорила.

Ось іще трохи чисто технічних ознак:

надмірне використання вставного слова «може»;
однотипна структура речень;
повторення слів або цілих фраз;
проблеми з узгодженням речень, якщо ШІ одразу писав довгий текст.

Відсутність індивідуальності

В текстах від ШІ не знайдеш навіть імітації власних досвідів, речення будуть максимально загальними.

ШІ не скаже «я вважаю», «я думаю», «мені найбільше сподобалося» тощо.

Напевне ніхто не чекає, що текст, написаний для просування сторінок сайту на сторонніх майданчиках за частотними запитами буде написаний як особистий блог. Проте ми не маємо забувати, що пошуковикам і читачам важливо, аби текст був корисний, містив щось, чого немає у інших. ШІ не має власного досвіду, і не може вкласти його в написані тексти — на це здатна тільки людина. Саме тому професійні копірайтери з чудовим стилем написання можуть бути спокійними за роботу — нейромережа її не відбере.

Вода у текстах, згенерованих ШІ

Цей недолік витікає з попереднього: GPT без серйозної допомоги людини пише тексти, повні води. Їх можна прикласти до будь-чого, і вони підходитимуть предмету в середньому, проте навряд описуватимуть його точно. Їх можна охарактеризувати виразом «багато букв ні про що» — як реферат студента або промова чиновника.

На ілюстрації нижче — ШІ генерував опис кефіру «Галичина». Можна генерувати аналогічні описи хоч десятками.

Приклад ШІ-тексту для опису товару

Читайте також: ChatGPT-4 доступний у Bing — як безкоштовно використовувати штучний інтелект для бізнесу

Чи унікальні тексти, згенеровані штучним інтелектом

ШІ-генеровані тексти мають доволі високу унікальність. Ми запропонували сервісу Skandy текст про хостинг, повністю створений нейромережею. Ця платформа одночасно визначає плагіат і ШІ-генерацію. Як бачимо, при унікальності 94% сервіс показує 90% вірогідності, що автор цього контенту не є людиною.

Результати перевірки ШІ-тексту на унікальність

Сервіси для перевірки генерованих текстів

На цій ноті ми плавно переходимо до питання інструментів визначення ШІ-контенту. Для полегшення роботи редактор може скористатися автоматизованими сервісами, яких у мережі чимало.

Щоправда, не всі такі сервіси розпізнають українську мову, але ніша потихеньку рухається в цьому напрямі.

ZeroGPT

Цей текст, за словами редакторів, що працюють із ним багато, видає похибки, визначаючи найбільш узагальнені фрагменти тексту як такі, що написані ШІ. Проте ця система підтримує різні мови, зокрема і українську, що є плюсом.

Ось як вона протестувала фрагмент цієї статті.

Сервіс для перевірки тексту на ШІ ZeroGPT

GPT-2 Output Detector

Теж перевіряє тексти українською, дуже простий інтерфейс, нічого зайвого. Детектор визначає природність навіть для окремих речень — на сайті вказано, що дані стають достовірними вже після 50 токенів. До прикладу, у перевіреного нами тексту було вже 773 токени.

Результати перевірки ШІ-тексту на сервісі GPT-2 Output Detector

GLTR IO

Це — сервіс перевірки, який базується на математичній формулі. Що частіше те чи інше слово використовується в інтернеті, то ймовірніше воно буде використане в тексті від ШІ. Тому чим легше системі «вгадати» слово у тексті, тим більше він «роботизований».

На жаль, українську мову тут не розпізнається, і взагалі кирилиця перетворюється при аналізі на абракадабру. Але для англійської інструмент цілком нормальний.

AI Text Classifier

На цей сервіс від OpenAI покладалися великі сподівання, але він уже недоступний для користувачів. Творці стверджували, що ця модель заснована на тих самих принципах, що й популярний Chat GPT, тому добре аналізує тексти, користуючись аналогічними алгоритмами і навчаючись у процесі.

Зараз на сторінці сервісу висить таке сповіщення:

«Станом на 20 липня 2023 року класифікатор штучного інтелекту більше не доступний через його низьку точність. Ми працюємо над врахуванням відгуків і наразі досліджуємо ефективніші методи походження тексту, а також взяли на себе зобов’язання розробити та розгорнути механізми, які дозволять користувачам зрозуміти, який аудіо- чи візуальний контент створено штучним інтелектом.»

Чому ми згадуємо про непрацюючий сервіс? Бо це дуже показовий кейс. Він був одним із перших і вселяв віру в те, що можна легко виявити згенерований текст, просто скопіювавши його у віконце. Його розробила команда OpenAI, творців ChatGPT, до яких набагато більше довіри, ніж до «гаражних» розробників схожих платформ. І все ж вони закрили цей інструмент для користувачів, продемонструвавши високий рівень відповідальності. Це означає, що такі сервіси ще дуже не досконалі і часто помиляються.

Їх можна і потрібно використовувати, але тільки як допоміжний інструмент. І завжди варто мати на увазі, що копірайтер також може написати нецікавий поверхневий текст із купою помилок.

Як наблизити текст до написаного людиною

Усвідомлення, що копірайтер здав замовнику згенерований текст замість авторського, може стати неприємним сюрпризом. Але все ж у генерації ШІ-контенту як такій немає нічого кримінального. Нейромережі допомагають цифровим працівникам оптимізувати роботу та швидко створювати простий контент, який не потребує особливого творчого вимислу. Наприклад, таким чином власник бюджетного сайту може швидко зробити описи для товарів чи основних сторінок.

ШІ може зекономити значну частину часу для тих, хто пише тексти самостійно. Йому можна делегувати складання плану статті, підзаголовків, генерацію додаткових ідей, пояснення складних термінів. Він може допомогти написати Title і Description, дати ідеї по семантичному ядру і загалом сильно полегшити роботу.

Тож цим розділом ми не легалізуємо халтурний підхід до роботи недобросовісних копірайтерів, а хочемо поділитися порадами з авторами, вебмайстрами та власниками бізнесу, для кого генерація контенту стає виходом і допомогою.

Читайте також: SEO на мінімалках — що власник сайту може зробити самостійно для просування сайту без залучення спеціалістів

Обов’язкове редагування ШІ-текстів

ШІ-тексту завжди потрібна редактура — це аксіома. Навіть якщо текст виглядає цілком пристойно, редагування здатне значно його олюднити та покращити читабельність:

замініть часто повторювані слова на синоніми або зовсім приберіть їх;
зробіть структуру речень менш однотипною;
перевірте факти;
зменшіть кількість списків або зовсім позбавтеся від них, якщо немає ситуативної потреби;
знизьте градус захоплення;
скоротіть воду — часто цілий абзац від ШІ можна вмістити в одне речення.

Інтеграція власного досвіду в згенерований контент

Варто додати в текст індивідуальності, реальних кейсів ваших клієнтів, живих прикладів, які ви візьмете зі свого досвіду.

Що більше в тексті творчості, використання всього інструментарію мови, корисних лайфхаків, які ніде не знайдеш — то більше він індивідуалізований.

Якщо контент хоча б частково містить інформацію, якої немає на інших сайтах — він уже несе користь та може задовольнити інтерес читача. Не покладайтеся в цьому питанні на ШІ, тут він безсилий.

Сервіси-«гуманізатори» — чи варто ними користуватися

Зараз з’явилися сервіси, які роблять з генерованого тексту «humanized», тобто олюднюють його. Особисто ми ними не користуємося, бо не маємо такої потреби, але невелике дослідження в мережі показало, що адекватних сервісів для роботи з українською мовою поки що немає. Здебільшого вони зависають і видають помилки. Тільки один із півдесятка протестованих хоча б якось зміг перетравити запропонований текст про оренду сервера, але не скажеш, що в нього це вийшло добре.

Приклад сервісу для гуманізації ШІ-тексту

Можливо, з часом такі сервіси будуть розвиватися і ставати кращими, але зараз ми б не радити витрачати на них час.

Нейромережі створені для допомоги людям, а не для їхньої заміни — вони не здатні самостійно створювати якісний контент. Але якщо ШІ-текст добросовісно опрацьований людиною, його важко відрізнити від людського.

І якщо вже є потреба використати штучний інтелект — комбінуйте власний досвід з онлайн-сервісами, а не обмежуйтеся лише ними. Текст, написаний в усвідомленому і активному співавторстві ШІ та людини, корисний з точки зору Google і з точки зору читача, а отже і необхідності визначати його як згенерований вже не буде.

Сподобалася стаття? Розкажіть про неї друзям:

Як зрозуміти, що текст написаний ШІ — поради для редакторів та контент-мейкерів