blogu' lu' castraveţ

#13 Charles Wheelan – Голая статистика. Самая интересная книга о самой скучной науке

with one comment

  • «Люди, которые делают короткие перерывы в работе в течение дня, имеют гораздо больше шансов умереть от рака». Смею предположить, что именно сигареты, а не кратковременные перерывы в работе, являются основной причиной раковых заболеваний.
  • Андрейсом Дункельсом: «Опираясь на статистику, легко лгать, но без статистики очень трудно выяснить истину».
  • Коэффициент Джини – стандартный инструмент в экономике, демонстрирующего степень неравенства доходов. Коэффициент Джини помогает оценить по шкале от 0 до 1, насколько равномерно распределяется в стране совокупный доход. Этот статистический показатель можно вычислить для материального благосостояния или годового дохода, причем он может быть рассчитан на индивидуальном или семейном уровне. У страны, в которой все семьи имеют одинаковый уровень благосостояния, был бы нулевой коэффициент Джини. А в той стране, где все богатство сосредоточено в руках одной семьи, он равнялся бы единице. Как вы, наверное, догадались, чем ближе значение к единице, тем выше степень расслоения общества.
    Коэффициент Джини для Швеции составляет 0,23; для Канады – 0,32; для Китая – 0,42; для Южной Африки 0,65[4]. Анализ этих значений позволяет получить представление о том, какое место в мире занимают Соединенные Штаты с точки зрения неравенства распределения доходов. Можно также проанализировать, как коэффициент Джини изменяется со временем в одной и той же стране. Например, в 1997 году для Соединенных Штатов он равнялся 0,41, а в следующем десятилетии достиг 0,45 (самые последние данные ЦРУ относятся к 2007 году). Это дает возможность составить объективную картину нарастания неравенства в распределении богатства по мере процветания Соединенных Штатов (во всяком случае на рассматриваемом отрезке времени). Кроме того, мы можем сравнить изменения коэффициента Джини в разных странах примерно за один и тот же период времени.
  • Одна из ключевых функций статистики – использование имеющихся данных для выдвижения аргументированных предположений, касающихся вопросов, исчерпывающий ответ на которые невозможно дать из-за отсутствия полной информации.
  • Описательные статистики дают нам некое обобщенное и осмысленное представление исходного явления
  • «Есть три вида лжи: ложь, наглая ложь и статистика» © Марк Твен
  • Реальные величины, в отличие от номинальных, учитывают поправку на инфляцию. Номинальные величины не скорректированы с учетом поправки на инфляцию.
  • «Вы не можете управлять тем, что не в состоянии измерить». И это действительно так. Однако вы должны быть твердо уверены в следующем: то, что вы измеряете, действительно является тем, чем вы пытаетесь управлять.
  • Корреляция, равная 1 (иногда ее называют идеальной корреляцией), означает, что каждому изменению одной переменной соответствует эквивалентное изменение другой переменной в том же направлении. Корреляция, равная –1 (иногда ее называют идеальной отрицательной корреляцией), означает, что каждому изменению одной переменной соответствует эквивалентное изменение другой переменной в противоположном направлении.
  • Ежемесячное количество дорожно-транспортных происшествий в октябре, ноябре и декабре 2001 года, согласно оценкам авторов данного исследования, увеличилось на 344 случая (с учетом среднего количества погибших и факторов, которые обычно способствуют ДТП, например погодных условий). Со временем – предположительно в результате уменьшения боязни терроризма – этот эффект сам по себе сошел на нет, но, по оценкам исследователей, теракты 11 сентября как таковые привели к более чем 2000 дорожно-транспортных происшествий со смертельным исходом.
  • На дереве решений отображается каждый источник неопределенности, а также вероятности, связанные со всеми возможными исходами. Конец дерева указывает все возможные доходы, а также вероятность получения каждого из них. Если каждый такой доход умножить на весовой коэффициент, который равняется вероятности соответствующего дохода, и просуммировать все возможности, то мы получим математическое ожидание данной инвестиционной возможности.
  • Представители страховых компаний правильно описывают свой бизнес как «передача риска» – и поэтому им следует как можно точнее оценивать риски, переносимые на них.
  • хотя законом запрещена отправка SMS во время вождения, поскольку это часто приводит к ДТП, водителей это не останавливает. Более того, подобные законы могут даже усугублять ситуацию, заставляя водителей прятать мобильные телефоны и в результате отвлекаться от дороги во время набора сообщения.
  • Статистика не может быть более совершенной, чем люди, которые ее используют. Но иногда она заставляет умных людей делать глупости. Одним из самых безответственных случаев применения статистики за последнее время стал механизм оценивания рисков на Уолл-стрит перед финансовым кризисом 2008 года. В то время компании, представляющие финансовый сектор, использовали общепринятый барометр риска – модель стоимости риска, или рисковой стоимости (Value-at-Risk – VaR). Когда VaR вычисляется для некоего короткого промежутка времени, например недели, то самым вероятным исходом станет то, что в конце данного периода у этих акций будет примерно такая же стоимость, как и в начале. Вероятность того, что их стоимость повысится или снизится на 10 %, относительно невелика. Еще меньше вероятность того, что она повысится или снизится на 25 %, и т. д. В банке J. P. Morgan, где была разработана и неоднократно уточнялась модель VaR, ее ежесуточное вычисление носило название «отчет 4:15», так как результат этого расчета появлялся на рабочих столах высшего руководства каждый день в 16:15 – сразу же после закрытия в тот день американских финансовых рынков.
    В частности, именно эту модель обвиняли в наступлении финансового кризиса, разразившегося в 2008 году. Главной причиной критики в адрес VaR является то, что фундаментальные риски, связанные с финансовыми рынками, невозможно предсказать по аналогии с подбрасыванием монетки или слепой сравнительной дегустацией двух сортов пива. Ложное ощущение точности, встроенное в эти модели, породило ложное ощущение безопасности. Показатель VaR был похож на неисправный спидометр; пожалуй, это хуже, чем если бы его не было вообще. Понадеявшись на неисправный спидометр, вы перестанете обращать внимание на другие признаки того, что уже превысили допустимую скорость. В случае же отсутствия спидометра вам придется отслеживать признаки, указывающие на реальную скорость движения автомобиля.
    К сожалению, с профилями риска, заложенными в моделях VaR, существовали две огромные проблемы. Во-первых, вероятности, на которых строились эти модели, исходили из прошлых движений рынка; однако на финансовых рынках (в отличие от дегустации пива) будущее вовсе не обязательно должно быть похожим на прошлое. Таким образом, не было никаких оснований полагать, что движения рынка в период с 1980 по 2005 год были наилучшим предиктором изменеий на рынке после 2005 года.
    «Это как подушка безопасности, которая дает сбой именно в момент автокатастрофы». Если стоимость риска (VaR) какой-либо компании составляет 500 миллионов долларов, то это можно рассматривать как 99-процентную вероятность того, что на протяжении указанного периода фирма потеряет не более этой суммы. Но это также означает, что данная компания может с 1-процентной вероятностью потерять свыше 500 миллионов долларов (а при определенных обстоятельствах даже значительно больше).
    Модели VaR прогнозируют, что должно произойти в 99 случаях из ста. Именно таков механизм действия вероятностей (во второй половине книги это обстоятельство будет подчеркиваться неоднократно). Между тем маловероятные события время от времени случаются. Более того, в долгосрочном периоде они не так уж и маловероятны. Иногда в людей попадает молния. Моя мать убедилась в этом на собственном опыте.
  • Теория вероятностей предоставляет в наше распоряжение мощный и полезный набор инструментов, правильное использование которых поможет лучше уяснить ситуацию, складывающуюся в мире; а неправильное посеет в нем хаос.
  • Эта история произошла в контексте так называемого синдрома внезапной смерти младенцев во время сна (СВСМ) – явления, когда вполне здоровый малыш умирает в своей кроватке. (У британцев СВСМ принято называть «смертью в колыбели».) СВСМ по-прежнему остается медицинской загадкой, хотя многие из факторов риска, связанных с этим феноменом, удалось выявить. Например, смертность у младенцев можно резко снизить, если ребенка укладывать спать на спину.
    Британские прокуроры и суды были убеждены, что один из способов правильно определять причины СВСМ – повысить внимание к семьям с повторными случаями «смерти в колыбели». Сэр Рой Мидоу, известный британский педиатр, часто привлекался к рассмотрению подобных случаев в качестве эксперта. Как поясняется в британском журнале The Economist: «Мысль, которая пришла в голову Рою Мидоу и стала впоследствии известной как “закон Мидоу” (суть ее в том, что одна младенческая смерть – это трагедия, две смерти вызывают подозрение, а три – это убийство), основывается на том, что если какое-либо событие является достаточно редким, то два или большее число его наступлений в одной и той же семье настолько маловероятны, что нет никаких оснований считать это простой случайностью».
    В 2004 году британское правительство объявило о предстоящем пересмотре 258 приговоров, согласно которым родители, обвинявшиеся в умышленном лишении жизни своих детей, отбывают тюремный срок. Непонимание, когда события ДЕЙСТВИТЕЛЬНО независимы друг от друга.
  • Однако каждый раз, когда мы видим какое-либо аномальное событие вне конкретного контекста, в котором оно произошло, у нас поневоле возникает подозрение, что здесь, помимо чистой случайности, замешано что-то еще.
  • все подбрасывают монетку, и те, у кого выпадает решка, садятся. Допустим, в аудитории находится 100 студентов; примерно 50 из них займут свое место после первого подбрасывания. Потом мы выполняем это упражнение еще раз, в результате чего останутся стоять примерно 25 студентов. И так далее.
  • Статистическая дискриминация (установление различия в статистическом смысле). В каких случаях следует опираться на то, что подсказывает нам теория вероятностей, а в каких так поступать не стоит? В 2003 году Анна Диамантопуло, еврокомиссар по проблемам занятости и социальным вопросам, выступила с предложением запретить страховым компаниям применять разные ставки к мужчинам и женщинам, поскольку это нарушает принцип равноправия, исповедуемый Евросоюзом. Мужчины обычно платят больше за автостраховку, поскольку чаще, чем женщины, попадают в аварии. Женщины платят больше за аннуитеты (финансовый продукт, который выплачивает фиксированную ежемесячную или ежегодную сумму), потому что живут дольше, чем мужчины. Очевидно, что многие женщины попадают в аварии чаще, чем многие мужчины, а многие мужчины живут дольше, чем многие женщины. Но, как объяснялось в предыдущей главе, страховым компаниям нет до этого никакого дела. Их интересуют лишь среднестатистические показатели, поскольку именно это позволяет им получать прибыль.
  • Какой бы соблазнительной ни была элегантность и точность вероятностных моделей, они не заменят нам здравого размышления о сути и цели выполняемых вычислений.
  • Весной 2012 года в популярном журнале Science вышел сенсационный материал. В нем говорилось, что на основании результатов одного исследования, опирающегося на последние достижения науки, ученые сделали вывод, что когда самка дрозофилы (плодовой мушки) категорически отвергает ухаживания самца, он впадает в отчаяние и начинает топить горе в алкоголе.
  • Многие из самых ошибочных статистических утверждений обусловлены применением совершенно правильных статистических методов к плохим выборкам, а вовсе не наоборот.
  • Если вы попросите 100 человек в каком-либо общественном месте заполнить совсем небольшую анкету, то те 60, которые согласятся это сделать, наверняка будут существенно отличаться от остальных 40, которые вас проигнорируют.
  • Базовый принцип, лежащий в основе центральной предельной теоремы, заключается в том, что большая, надлежащим образом сформированная выборка будет похожа на совокупность, из которой она извлечена.
  • Будущая цена инвестиции зависит от ее сегодняшней цены. Чем выше цена, которую вы платите сегодня, тем ниже будет ваш доход в будущем.
  • 1. Среднеквадратическое отклонение измеряет разброс в исходной совокупности. 2. Стандартная ошибка измеряет разброс средних значений выборок. Если мы извлекли ряд выборок (в каждой по 100 значений), то как будет выглядеть разброс их средних значений? 3. Вот что связывает между собой эти две концепции: стандартная ошибка является среднеквадратическим отклонением средних значений выборок.
  • В статистике уровнем значимости называют вероятность отклонить нулевую гипотезу при условии, что она истинна. Это так называемая ошибка первого рода.
  • Центральная предельная теорема: 1) средние значения выборок из какой-либо совокупности будут распределены примерно по нормальному закону вблизи среднего значения соответствующей совокупности; 2) можно ожидать, что среднее значение и среднеквадратическое (стандартное) отклонение выборки будут примерно равняться среднему значению и среднеквадратическому отклонению совокупности, из которой выборка извлечена; и 3) примерно 68 % средних значений выборок будут отстоять от среднего значения соответствующей совокупности на расстояние, не превышающее одной стандартной ошибки, примерно 95 % – на расстояние, не превышающее двух стандартных ошибок, и т. д.
    Если наше «бремя доказательства», которое позволило бы отвергнуть основную гипотезу, будет чересчур низким (например 0,1), то нам придется периодически отклонять нулевую гипотезу, хотя на самом деле она верна (я подозреваю, что именно так и произошло при исследовании ESP). На языке статистики это называется ошибкой первого рода.
    Ошибка первого рода заключается в ошибочном отказе от основной гипотезы. Иногда это называют «ложным позитивом», хотя употребление такого термина кажется несколько парадоксальным.
    Ошибка второго рода – это вероятность принятия нулевой гипотезы тогда, когда она неверна.
  • Оказывается, самый опасный вид стресса на работе обусловлен невозможностью человека в достаточной степени контролировать способы и условия выполнения поставленных задач.
  • Ceteris paribus по-латыни означает «при прочих равных условиях». Это убивает его в буквальном смысле этого слова.
  • Цель этого анализа заключалась в том, чтобы послать беременным женщинам соответствующие купоны в надежде сделать их постоянными покупательницами Target. В результате Target хочет выявить беременных женщин – особенно тех, кто на четвертом – шестом месяцах, – и заманить их в свои магазины, чтобы они посещали их как можно чаще. Но здесь есть одна статистическая уловка: компания «вычислила», что другие женщины, которые демонстрируют аналогичное покупательское поведение, также, вероятно, беременны. Специалисты по упреждающему анализу компании Target выявили двадцать пять наименований товаров, которые в совокупности составляют «признак, позволяющий предсказать беременность».

Bibliografie

  • Darrell Huff – How to Lie with Statistics
  • Талеб Н. – Черный лебедь. Под знаком непредсказуемости
  • Stata – статистический пакет, используемый специалистами-исследователями во всем мире; его интерфейс отличается серьезным, научным видом. См. http://www.stata.com/
  • R – это бесплатный (с открытым исходным кодом) популярный статистический пакет.
  • SAS – http://www.sas.com/technologies/analytics/statistics/
  • http://www-01.ibm.com/software/analytics/spss/products/statistics/.
  • Кроме перечисленных автором, отметим еще один зарубежный статистический пакет, получивший широкое распространение в России. Это универсальный статистический пакет STATISTICA, который может служить не только эффективным инструментом для научных исследований, но и чрезвычайно удобной средой для обучения методам статистического анализа. Из российских разработок отметим пакеты STADIA, «ЭВРИСТА», «МЕЗОЗАВР», «САНИ», «СТАТЭксперт» и др. Советуем обратить внимание на удивительно компактный пакет STADIA.


Written by kirpi4

February 10th, 2018 at 3:41 pm

Posted in Cărți

Tagged with

One Response to '#13 Charles Wheelan – Голая статистика. Самая интересная книга о самой скучной науке'

Subscribe to comments with RSS or TrackBack to '#13 Charles Wheelan – Голая статистика. Самая интересная книга о самой скучной науке'.

  1. […] Charles Wheelan – Голая статистика. Самая интересная книга … 02. Александр Никонов – Апгрейд обезьяны. Большая […]

Leave a Reply