ХЗ зачем. Восстание машин

ХЗ зачем. Восстание машин

1.2 Миф об объективности: почему детекторы ИИ работают некорректно

Сделаю разбор данной части, так как только в ней автор привел какие-то цифры, пытался говорить по существу и продемонстировал свое представление о детекторах. Текст в цитатах читать необязательно, если вы знакомы с постом Пата (в дальнейшем буду называть его в том числе — автор)

Разработчики детекторов, в частности Gptzero, обещают чудеса точности — до 99% на человеческих текстах. Но многочисленные независимые тесты рисуют иную картину. Уровень ложноположительных срабатываний достигает критических значений для достоверности результатов в целом, а главное — эти инструменты демонстрируют вопиющую некомпетентность в определении самых базовых маркеров человеческой речи. В этом параметре собенно показательно, как на результаты влияют самые маркеры. Например, использование буквы «ё» способно изменить вердикт буквально на 50 процентов! — программа воспринимает эту букву как подозрительный маркер, считая, что человеку лень её использовать, хотя для любого носителя языка это просто вариант орфографии. Кавычки — ещё один «фактор риска». Длинное тире (m-dash), которое является признаком профессиональной грамотности и литературного стиля, автоматически повышает вероятность того, что текст назовут «сгенерированным». Простыми словами, эти три маркера могут кардинально изменить результаты тестирования. Как иронично заметил один журналист с 22-летним стажем: «Я использовал длинное тире — значит, я ИИ. Нет, я просто работал над датасетом, на котором обучались большинство открытых ИИ».

В данном абзаце автор не зря начинает с упоминания того, что Gptzero заявляет высокую точность. Потому что в конце он будет подводить нас к мысли, что все это рулетка, парадокс и абсурд. Но автор то ли осознано пользуется стандартным приемом обесценивания на контрасте, вначале приводя громкое заявление Gptzero, затем перечисляя самые простые ошибки самых простых детекторов, либо действительно игнорирует, что в подобном анализе нужна точность, примеры, ссылки, а не лингвистические приемы.

Начнем разбор с того, что заявление Gptzero является стандартным маркетинговым ходом, как и заявление создателей косметики, что 90% женщин заметили улучшение. Но разбор ситуаций, когда ваши черные точки или прыщи не были исправлены косметикой, был бы понятным и от этого комичным для большинства. Как и разбор детекторов является смешным и понятным для меня.

Начнем с первого аргумента:

1) Использование буквы «ё»: разброс до 50%
2) Использование кавычек
3) Использование длинного тире (m-dash)

Это самые поверхностные критерии, по которым мы, люди, можем подозревать текст на ИИ, так как использование «ё», кавычек и длинных тире в соц сетях встречается не часто. Данные критерии могут влиять на результаты лишь самых примитивных детекторов. И здесь было бы полезно Пату привести прмеры, где Gptzero может человеческий текст с данными критериями посчитать текстом ИИ. Если он обнаружит хотя бы 1 пример, я напишу репорт в тех поддержку сервиса, потому что такие вещи учитываются сразу даже обычной заменой (Приведение входящего текста и текстов из базы к единому стилю). Предсказываю — подобных примеров Пат не приведет ни сейчас, ни в будущем.

Перечисление данных критериев больше похоже на советы из тик тока, мол, я изменил всего 1 букву «е» на «ё» и детектор ошибЬся.  
Но надо понять, какой именно детектор — тот, который написал любитель программист и не пользуется спросом или Gptzero с огромным количеством клиентов.

Вот для автора разница между детекторами не имеет значения. Он дальше приводит второй аргумент:

Один детектор говорит 100% AI. Другой — 0% AI. Один и тот же текст. Написанный живым человеком, от руки. Эта технология больше похожа на рулетку с красивым интерфейсом

Вот еще несколько подобных заявлений, чтобы мне не пришлось объяснять абсурдность, когда человек не понимает, что за технологиями кроется разная реализация:

— Один тест на COVID-19 показал, что я болен, другой, что я — здоров. Это рулетка и я в ней не участвую!
— Один банк одобрил мне кредит, другой — отказал. Вот и думайте, как работает кредитный скоринг. Я банкам больше не доверяю!

После этих аргументов Пат заявляет:

И такая ситуация это не просто бред — это буквальная демонстрация фундаментальной несостоятельности подхода. Программа не понимает текст, не анализирует смысл — она алгоритмами ищет статистические паттерны, калеча живую речь под свои примитивные лекала.

Эта технология больше похожа на рулетку с красивым интерфейсом

Просто вдумайтесь, как в разборе и отрыве от литературной подачи автора эти аргументы далеки от подобных эмоциональных выводов.

В конце Пат переходит уже наконец-то к чему то, что приближено к реальности. Но нужно было с этого начинать, а не преподносить как итоги:

В чём может быть, собственно, причина? А она кроется в самом принципе работы этих инструментов. Детекторы анализируют текст по двум параметрам: perplexity (запутанность) и burstiness (вариативность). Проблема заключается в том, что многие человеческие тексты — особенно хорошие, логичные, структурированные — обладают теми же свойствами, что и машинные. Более того, нейросети обучались на лучших образцах человеческой литературы. И парадокс в том, что теперь они любой нормальный текст признают своим, а не человеческим. Типа — человек так не может, он запинается, заикается, у него с логикой проблемы.

В чём может быть, собственно, причина?

То есть до этого автор выдавал такие аргументы, как работа плохих детекторов, разные результаты разных детекторов, заканчивая каждый аргумент своим эмоциональным протестным суждением, а теперь приглашает нас к мысли, почему же его протестные суждения подтверждаются.

А причина то оказывается вообще в другом — в том, что детекторы используют в основном параметры запутанность и вариативность. Да, Пат, не букву «ё» и длинное тире. А как ты думаешь, если все детекторы используют только эти 2 метрики одинаково, почему тогда один и тот же текст на разных детекторах выдает разный процент? Ты это привел как аргумент несостоятельности детекторов, а я вижу как аргумент, который подтверждает, что валить в общую кучу разбор всех детекторов и обобщать результаты — неправильно

Реализация детекторов основывается на десятках метриках, 2 основные и всем известные из них ты назвал почему-то только в конце. Почему-то ты связал это как логический вывод с предшествующим текстом. Я думаю, чтобы предварительно сформировать в читателе протест и затем подвести к выводам было легче. Но я вижу это как 2 разные подтемы, можно просто отделить их, потому что даже вместе они по своей сути не работают против лозунга Gptzero и не приводят к итоговым словам, которыми ты закончил раздел:

Абсурд ситуации достигает пика, когда мы осознаём: языковые модели учились писать как люди, а детекторы теперь «требуют», чтобы люди писали хуже, чтобы не походить на эти модели.

Именно из-за абсурдности этих слов я и сделал текущую обложку поста.

Мои итоги, что Пат манипулирует понятиями, использует стилистические удобные приемы и пытается подать свое восприятие технологий читателям как аргументы. К тому же, он откладывает ссылки, скрины, которые просто необходимы именно сейчас, чтобы подтверждать текущие слова. Иначе для чего мы читаем такой объем текста, если нет аргументов? Чтобы аргументы, которые не будут подтверждать конкертно эти заявления, работали после, когда наш прогретый мозг будет со всем соглашаться?

11:02
76
Написать автору
Нет комментариев. Ваш будет первым!