Оригінал: http://blog.jpalardy.com/posts/statistics-how-many-would-you-check

Статистика: скільки би ви перевірили?

9 квітня 2015 р

Russion Translation, завдяки Владу.

Уявіть собі цю ситуацію:

Ви просто зробили пакетне оновлення для мільйонів користувачів у вашій базі даних. Не було повідомлень про помилки, і ви впевнені, що все пройшло добре. Але це не зашкодить перевірці ...

Скільки користувачів ви повинні перевірити, щоб переконатися, що все працювало, принаймні, на 95% користувачів?

Ось деякі думки:

Я не думаю, що відповідь очевидна. Мені довелося зайняти деякий час, щоб подумати про це.

Об'їзд: середній рейтинг

Я пам'ятав, як читав, як не сортувати за середнім рейтингом , і я думав, що зможу застосувати ту ж саму логіку до цієї проблеми.

Якщо у вас є лише один відгук, і це позитивне, це 100%? Інтуїтивно ми знаємо, що це не так: це лише одна думка людини. Оскільки все більше і більше людей дають позитивні відгуки, ми можемо почати почути краще про точність оцінки.

Цитата з статті:

З огляду на рейтинги, я маю 95% шансів, що "реальна" частка позитивних рейтингів, принаймні, що?

Ми можемо використовувати нижню межу довірчого інтервалу Вілсона.

На практиці з Р.

Функція binom.wilson , з пакета binom , може бути використана так:

> binom.wilson(18, 20)
method x n mean lower upper
1 wilson 18 20 0.9 0.6989664 0.9721335

Іншими словами, якщо ми відібрали 18 позитивних та 2 негативів (18/20), то "реальна" частка, ймовірно, падає між 0.699 та 0.972 (середня: 0.9).

Для нашого прикладу ми можемо запропонувати це 100% успіху:

> binom.wilson(10, 10)
method x n mean lower upper
1 wilson 10 10 1 0.7224672 1

Верхня межа не цікава, нам не цікавить найкращий сценарій. Але якщо ви перевіряєте 10 і всі вони успішні, ви можете відчувати впевненість, що він працював (нижня межа) 72,2% користувачів.

Якщо ми продовжуємо перевіряти, і ми продовжуємо знаходити успіхи, ми можемо відчувати все більше і більше впевнені в "справжньому" успіху:

нижня межа успіху над кількістю перевірок

Це займає 73 перевірки, щоб досягти нижньої межі 95% "справжнього" успіху (червона лінія).

Аналіз

Ось аналіз як документ RMarkdown та вихідний вихідний html-документ .

Обговоріть у Twitter