Манера письма как цифровой отпечаток: как по стилю речи можно связать два аккаунта без использования IP

Demas_228

Member
Ты можешь сидеть через Tor, менять ники, использовать разные устройства. Но если пишешь одинаково - тебя вычислят. Не по IP, не по кукам, не по фингерпринту браузера. По тому, как ты строишь предложения.

OIP-1482207572.jpg

Звучит как фантастика? Нет. Это стилометрия, и она работает давно. Просто большинство об этом не думает.

Что такое стилометрия​

Каждый пишет по-своему. Не про «красиво/некрасиво», а про привычки, которые ты не замечаешь:

  • средняя длина предложений
  • знаки препинания и их частота
  • слова-паразиты («типа», «ну», «короче», «кста»)
  • «не» слитно или раздельно в спорных местах
  • пробел перед восклицательным знаком
  • оформление списков - с точкой, с тире, с заглавной
  • сокращения («норм», «чел», «инфа»)
  • длина абзацев, переносы строк
Всё это - твой лингвистический отпечаток. Он уникален, как почерк. Поменять пару слов легко, но весь комплекс привычек подделать почти невозможно.

Как это работает​

Стилометрия анализирует пять групп признаков:

  1. Лексические - слова, словарный запас, частота редких слов.
  2. Структурные - длина предложений и абзацев, количество знаков препинания.
  3. Синтаксические - построение фраз: «Я пошёл в магазин потому что» vs «Потому что надо было, пошёл в магазин». Порядок слов, вложенность, деепричастные обороты.
  4. Контент-специфичные - темы, метафоры, повторяющиеся формулировки.
  5. Идиосинкратические - опечатки, нестандартное написание. Постоянные ошибки вроде «софт» → «сопт» или «щас» → «сейчас» - маркеры.
Алгоритм берёт сотни признаков, сравнивает два текста и находит совпадения. Человек не заметит, машина - увидит.

Цифры подтверждают​

  • UC Berkeley: алгоритм связывал аккаунты продавцов на разных даркнет-маркетплейсах с точностью 97,5% только по тексту объявлений.
  • Форумы (Antichat, Darkode, Hack Forums, Nulled и др.): различие авторов определялось с 90% точностью при 1% ложных срабатываний.
  • Код: по стилю программирования определяют автора среди 8903 разработчиков с точностью 92%.
Новейшие исследования 2025 года - SALA (Stylometry-Assisted LLM Analysis) - соединяют классическую стилометрию с LLM. Точность ещё выше, нейросети ловят паттерны, которые статистика пропускает.

Кейсы из реальной жизни​

  • Унабомбер: 17 лет рассылал бомбы, оставался неуловим. Манифест 35 000 слов - брат узнал стиль. Не содержание, а обороты: «you can't eat your cake and have it too», «analyse» вместо «analyze», «licence» вместо «license». ФБР подтвердило - автор манифеста и писем один человек. Арест в 1996.
  • Silk Road: Росса Ульбрихта связали с Dread Pirate Roberts не только через утечку email. Стиль постов под ником «altoid» совпадал с DPR.
  • Даркнет-рынки: продавцы меняют ники, но описание товара и стиль остаются - ловят это алгоритмы.

Инструменты​

  • JStylo - open-source платформа на Java. Загружаешь тексты, выбираешь признаки, получаешь вероятность совпадения автора.
  • Writeprints - сотни признаков строят уникальный «отпечаток письма». Работает даже на коротких текстах.
  • Anonymouth - инструмент для анонимизации текста, показывает, что тебя выдаёт, и как исправить.
  • SALA (2025) - комбинация стилометрии и LLM, самый точный метод на сегодня.

Что выдаёт тебя​

  • одинаковые вводные слова («короче», «ну смотри», «по факту»)
  • многоточия в конце мыслей
  • оформление блоков и списков
  • пробелы перед двоеточием
  • скобки для ремарок
  • одинаковые ошибки и опечатки
Если совпадает половина - алгоритм видит связь.

Как усложнить задачу​

  • сознательно менять стиль под каждый аккаунт
  • использовать Anonymouth для анализа текста
  • осторожно с LLM - тексты ИИ тоже имеют стилометрический «отпечаток»
  • разные темы для разных аккаунтов
  • разное время публикаций

Итог​

VPN, Tor, фальшивые почты - это про сетевую анонимность.
Стилометрия - про твою манеру письма.

Если следствие имеет образцы текста с другого аккаунта - связать их дело техники. Думай не только откуда пишешь, думай как пишешь.
 

sedoj-enot

Administrator
Команда форума
Admin
Ты можешь сидеть через Tor, менять ники, использовать разные устройства. Но если пишешь одинаково - тебя вычислят. Не по IP, не по кукам, не по фингерпринту браузера. По тому, как ты строишь предложения.

Посмотреть вложение 190

Звучит как фантастика? Нет. Это стилометрия, и она работает давно. Просто большинство об этом не думает.

Что такое стилометрия​

Каждый пишет по-своему. Не про «красиво/некрасиво», а про привычки, которые ты не замечаешь:

  • средняя длина предложений
  • знаки препинания и их частота
  • слова-паразиты («типа», «ну», «короче», «кста»)
  • «не» слитно или раздельно в спорных местах
  • пробел перед восклицательным знаком
  • оформление списков - с точкой, с тире, с заглавной
  • сокращения («норм», «чел», «инфа»)
  • длина абзацев, переносы строк
Всё это - твой лингвистический отпечаток. Он уникален, как почерк. Поменять пару слов легко, но весь комплекс привычек подделать почти невозможно.

Как это работает​

Стилометрия анализирует пять групп признаков:

  1. Лексические - слова, словарный запас, частота редких слов.
  2. Структурные - длина предложений и абзацев, количество знаков препинания.
  3. Синтаксические - построение фраз: «Я пошёл в магазин потому что» vs «Потому что надо было, пошёл в магазин». Порядок слов, вложенность, деепричастные обороты.
  4. Контент-специфичные - темы, метафоры, повторяющиеся формулировки.
  5. Идиосинкратические - опечатки, нестандартное написание. Постоянные ошибки вроде «софт» → «сопт» или «щас» → «сейчас» - маркеры.
Алгоритм берёт сотни признаков, сравнивает два текста и находит совпадения. Человек не заметит, машина - увидит.

Цифры подтверждают​

  • UC Berkeley: алгоритм связывал аккаунты продавцов на разных даркнет-маркетплейсах с точностью 97,5% только по тексту объявлений.
  • Форумы (Antichat, Darkode, Hack Forums, Nulled и др.): различие авторов определялось с 90% точностью при 1% ложных срабатываний.
  • Код: по стилю программирования определяют автора среди 8903 разработчиков с точностью 92%.
Новейшие исследования 2025 года - SALA (Stylometry-Assisted LLM Analysis) - соединяют классическую стилометрию с LLM. Точность ещё выше, нейросети ловят паттерны, которые статистика пропускает.

Кейсы из реальной жизни​

  • Унабомбер: 17 лет рассылал бомбы, оставался неуловим. Манифест 35 000 слов - брат узнал стиль. Не содержание, а обороты: «you can't eat your cake and have it too», «analyse» вместо «analyze», «licence» вместо «license». ФБР подтвердило - автор манифеста и писем один человек. Арест в 1996.
  • Silk Road: Росса Ульбрихта связали с Dread Pirate Roberts не только через утечку email. Стиль постов под ником «altoid» совпадал с DPR.
  • Даркнет-рынки: продавцы меняют ники, но описание товара и стиль остаются - ловят это алгоритмы.

Инструменты​

  • JStylo - open-source платформа на Java. Загружаешь тексты, выбираешь признаки, получаешь вероятность совпадения автора.
  • Writeprints - сотни признаков строят уникальный «отпечаток письма». Работает даже на коротких текстах.
  • Anonymouth - инструмент для анонимизации текста, показывает, что тебя выдаёт, и как исправить.
  • SALA (2025) - комбинация стилометрии и LLM, самый точный метод на сегодня.

Что выдаёт тебя​

  • одинаковые вводные слова («короче», «ну смотри», «по факту»)
  • многоточия в конце мыслей
  • оформление блоков и списков
  • пробелы перед двоеточием
  • скобки для ремарок
  • одинаковые ошибки и опечатки
Если совпадает половина - алгоритм видит связь.

Как усложнить задачу​

  • сознательно менять стиль под каждый аккаунт
  • использовать Anonymouth для анализа текста
  • осторожно с LLM - тексты ИИ тоже имеют стилометрический «отпечаток»
  • разные темы для разных аккаунтов
  • разное время публикаций

Итог​

VPN, Tor, фальшивые почты - это про сетевую анонимность.
Стилометрия - про твою манеру письма.

Если следствие имеет образцы текста с другого аккаунта - связать их дело техники. Думай не только откуда пишешь, думай как пишешь.
Страшно звучит, потому что это правда. Мы все время думаем про IP и трекеры, а выдаёт просто привычка ставить пробел перед знаком вопроса. Буду теперь параноить даже про многоточия.
 

Korti

Administrator
Admin
Стилометрия давно перестала быть теорией - это практический инструмент идентификации по лингвистическому отпечатку, который невозможно полностью скрыть простыми сменами IP или устройств. Любой, кто игнорирует свои текстовые паттерны, рискует быть вычисленным даже при максимальной сетевой анонимности.
 

Calypso

New member
Даже меняя устройства и ники, твой стиль письма остаётся с тобой. Слова, знаки и ритм это невидимый отпечаток, который алгоритмы могут распознать. В цифровом мире важнее не только где ты, но и как ты выражаешься.
 
Верх