Profile

olga_mw

June 2022

S M T W T F S
   1 234
567891011
12131415161718
19202122232425
26272829 30  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Date: 2017-12-05 05:13 pm (UTC)

From: [personal profile] gb0
А сколько там CPSов?
Date: 2017-12-05 08:57 pm (UTC)

From: [personal profile] gb0
Well, if you can only type 5000 characters, that 's a problem. The probability of random occurrence of any 7-character (order matters) substring appearing in a stream of random characters [A-Z] is somewhere around 10E-10, lest I am badly mistaken.
Date: 2017-12-05 07:17 pm (UTC)

Занудно

From: [personal profile] malobukov
Не в Facebook, а в Twitter. И вообще он совершил всего три ошибки. Печатал слово COVERED, первые три буквы угадал с вероятностью 100%, а потом

  • Между V и E коварно вкралась F, которая на клавиатуре как раз посередине между ними и ниже E.
  • Вместо R напечаталась F, которая рядом снизу.
  • Буква D потерялась.

Автокоррект обычно исправляет до двух ошибок, потому что пространство для перебора очень быстро возрастает между двумя и тремя.

Интереснее было бы задать следующий вопрос: "На основании частотного анализа предсказать, когда и где автокоррект должен исправлять covered на covfefe, но не наоборот".
From: [personal profile] malobukov
У этой задачи забавная прикладная сторона. Если вот так прямо в лоб комбинаторикой считать, с независимыми соседними буквами, то вероятность набрать covfefe слишком низкая получается и восстановить, что именно думал печатающий, тоже кажется совершенно невозможным.

А на самом деле оказывается, что там дофига дополнительной информации, которую можно использовать и вытянуть смысл из-под ошибок. Люди обычно первые несколько букв в слове печатают нормально и делают ошибки ближе к концу, на клавиатуре QWERTY соседние буквы легче нажать, можно по словарю английского языка (а лучше по словарю n-грамм конкретного человека) посчитать частоты и выбрать наиболее вероятный вариант замены и так далее. И всё это делается в несколько строчек на питоне.

А слово там было coverage, я неправильно по памяти написал.
Page generated Mar. 14th, 2026 04:54 am
Powered by Dreamwidth Studios