توزیع Benford و آرا- پویان مشایخ
دوشنبه, ۱ تیر ۱۳۸۸، ۱۱:۵۶ ق.ظ
[پیش نوشت: پویان لطف کرد و بهم خبر داد که یه مطلب توی وبلاگش نوشته که می تونم بذارمش اینجا. پویان از فارغ التحصیلان دورۀ سوم مؤسسه است و دکترای اقتصاد رو از دانشگاه کالیفورنیای جنوبی گرفته. پویان در دفاع از اصول اقتصاد تعارف نداره. این رو اونایی که می شناسنش، یعنی تقریباً همه، می دونن. عنوان وبلاگش هم اینو داد می زنه. مخالفین اقتصاد رقابتی تو ایران خاطراتی به یاد ماندنی از مباحثۀ "علمی و عملی" با پویان دارن! خوبی پویان اینه که این صراحت حرفهاش رو با دقت علمی بالا ترکیب می کنه. نوشته هاش همیشه خواندنیه و گپ زدن باهاش همیشه لذت بخش. مطلب زیر رو من از وبلاگش کپی کردم، و با چند مورد ویرایش گذاشتم اینجا. دست مریزاد پویان]
در مورد قضیه Benford شاید بهترین جایی که آنرا توضیح داده اینجا باشه . خلاصه داستان اینه که رقم دوم از سمت چپ دارای توزیع Benford است. به زبان ساده، این توزیع میگه که احتمال مشاهدۀ عدد صفر در رقم دوم ازدست چپ بیشترینه و بعد رقم یک و دو و … نُه. این توزیع رو یه فیزیکدانی به همین نام Benford کشف کرده و دیده خیلی پدیده ها از این توزیع تبعیت می کنند. شاید فکر کنید احتمال این رقمها باید با هم برابر باشه، ولی این فیزیکدان که هفتاد سال پیش ماشین حساب نبود و مجبور بود از جداول لگاریتمی استفاده کنه دیده بود که صفحاتی که با عدد یک شروع میشن بیشتر کهنه شدن تا ارقامی مثل هشت و نه. در مورد انتخابات اخیر ایران هم سه مقاله پیدا کردم که از این توزیع برای چک کردن آرا استفاده کردن :
1) اولین نوشته مربوط به آقای رسول رستگاری است که در اینجا چاپ شده و خیلی هم ساده این توزیع را توضیح داده. برای اینکه ببینید که توزیع آماری داده ها شبیه Benford است یا خیر از یک آماره استفاده کرده اند که آنرا هم در مقاله خود توضیح داده اند. ولی نتیجه گیری ایشان بسبب یک اشتباه محاسباتی ساده غلط از آب در آمده. ایشان نتیجه گیری کرده اند که آرای هیچکدام از کاندیداها از توزیع Benford تبعیت نمی کند. من خودم این آماره ها را حساب کردم و جوابهام فرق داشت و نشون نمی داد که داده ها از Benford تبعیت نمی کنند. ایشان در رقم مورد انتظار عددِ دو اشتباه محاسباتی کرده اند. ولی باید توجه داشت که آمار استفاده شده به تفکیک 366 شهرستان بوده و در مقالات این رشته دیده شده که آرا جمع شده همواره دارای توزیع Benford هستند.
2) مقاله دیگری دیدم از یک محقق فرانسوی که گویا فیزیکدان هم هست که اینجا می تونید ببینید. ایشان از اولین رقم دست چپ برای همخوانی با توزیع Benford استفاده کرده و در نهایت نتیجه گیری کرده است که آمارها با توزیع مورد نظر جور در نمیاد. من چون خودم به آرا به تفکیک شهری دسترسی داشتم تونستم محاسباتش را انجام بدم. اشکال این مقاله این است که از رقم اول استفاده کرده که معتبر نیست. در مورد آرا باید از رقم دوم استفاده کرد و در ادبیات این موضوع دیده شده که توزیع رقم اول انتخاب درستی برای توزیع Benford نمیباشد.
3) مقاله ای هم منتشر شده از یک استاد آمار در دانشگاه میشیگان که می تونید مقاله اش را اینجا ببینید. این آقا از آمار به تفکیک شهرستان استفاده کرده و دیده که نمی شه فرض توزیع Benford را رد کنه ولی با دسترسی به آمار صندوقها (فکر کنم شانزده استان) این توزیع را چک کرده. دیده این آزمون برای آرای موسوی رد نمیشه (یعنی توزیعش میشه گفت Benford است) ولی آرا کروبی و رضایی و احمدی نژاد دارای توزیع Benford نیست ودر نهایت میگه یا تقلب شده یا مردم بطور استراتژیک به این دو نفر رای ندادن (استراتژیکش را من نفهمیدم یعنی چی).
1) اولین نوشته مربوط به آقای رسول رستگاری است که در اینجا چاپ شده و خیلی هم ساده این توزیع را توضیح داده. برای اینکه ببینید که توزیع آماری داده ها شبیه Benford است یا خیر از یک آماره استفاده کرده اند که آنرا هم در مقاله خود توضیح داده اند. ولی نتیجه گیری ایشان بسبب یک اشتباه محاسباتی ساده غلط از آب در آمده. ایشان نتیجه گیری کرده اند که آرای هیچکدام از کاندیداها از توزیع Benford تبعیت نمی کند. من خودم این آماره ها را حساب کردم و جوابهام فرق داشت و نشون نمی داد که داده ها از Benford تبعیت نمی کنند. ایشان در رقم مورد انتظار عددِ دو اشتباه محاسباتی کرده اند. ولی باید توجه داشت که آمار استفاده شده به تفکیک 366 شهرستان بوده و در مقالات این رشته دیده شده که آرا جمع شده همواره دارای توزیع Benford هستند.
2) مقاله دیگری دیدم از یک محقق فرانسوی که گویا فیزیکدان هم هست که اینجا می تونید ببینید. ایشان از اولین رقم دست چپ برای همخوانی با توزیع Benford استفاده کرده و در نهایت نتیجه گیری کرده است که آمارها با توزیع مورد نظر جور در نمیاد. من چون خودم به آرا به تفکیک شهری دسترسی داشتم تونستم محاسباتش را انجام بدم. اشکال این مقاله این است که از رقم اول استفاده کرده که معتبر نیست. در مورد آرا باید از رقم دوم استفاده کرد و در ادبیات این موضوع دیده شده که توزیع رقم اول انتخاب درستی برای توزیع Benford نمیباشد.
3) مقاله ای هم منتشر شده از یک استاد آمار در دانشگاه میشیگان که می تونید مقاله اش را اینجا ببینید. این آقا از آمار به تفکیک شهرستان استفاده کرده و دیده که نمی شه فرض توزیع Benford را رد کنه ولی با دسترسی به آمار صندوقها (فکر کنم شانزده استان) این توزیع را چک کرده. دیده این آزمون برای آرای موسوی رد نمیشه (یعنی توزیعش میشه گفت Benford است) ولی آرا کروبی و رضایی و احمدی نژاد دارای توزیع Benford نیست ودر نهایت میگه یا تقلب شده یا مردم بطور استراتژیک به این دو نفر رای ندادن (استراتژیکش را من نفهمیدم یعنی چی).
۸۸/۰۴/۰۱