رمز من - ramzeman

روش تازه دانشمند جهان اسلام برای تحلیل بهتر داده ها

روش تازه دانشمند جهان اسلام برای تحلیل بهتر داده ها رمز من: محققان برجسته جهان اسلام از توسعه الگوریتم داده های پرت و معرفی فاصله بیضوی برای خوشه بندی دقیق تر داده ها خبر دادند.



به گزارش رمز من به نقل از مهر، نشست های «استپ» (STEP) در رویداد جایزه مصطفی (ص) با هدف اشتراک گذاری دانش میان دانشمندان مسلمان برگزار می گردد. استپ دهم، میزبان چهره های بین المللی برجسته ای بود که دستاوردهایشان در مرزهای دانش حرکت می کند. همچون این چهره ها، «علی اس. هادی» (Ali S. Hadi)، دانشمند مصری، استاد ممتاز دانشگاه آمریکایی قاهره بود.
دکتر علی اس. هادی از محققان برجسته حوزه آمار با سابقه تدریس و پژوهش در دانشگاه های معتبر بین المللی، همچون دانشگاه آمریکایی بیروت، استاد بازنشسته افتخاری دانشگاه کرنل و دانشگاه آمریکایی قاهره به حساب می آید.
حوزه فعالیت علمی وی شامل آمار پیشرفته، تحلیل داده و روشهای آماری کاربردی است و تابحال آثار علمی مختلفی دراین خصوص منتشر نموده است. یکی از حوزه هایی که این دانشمند بر آن مسلط است، داده های پرت (داده ای است که در فاصله ی غیرعادی از بقیه مقادیر داده در یک نمونه ی تصادفی از یک جمعیت مشاهده می شود) است.
این دانشمند جهان اسلام در گفتگو با خبرنگار مهر، در جواب این پرسش که چرا اتکا بر یک آستانه مشخص (crisp cutoff) برای تشخیص داده های پرت همیشه قابل اعتماد نیست، اظهار نمود: داده های پرت یکی از چالش های اصلی در پروسه جمع آوری و تحلیل داده ها هستند، چون که معمولا در هر مجموعه داده، مقادیری وجود دارند که به صورت محسوسی با اکثریت داده ها متفاوت اند.
وی برای توضیح این مساله مثال زد و اظهار داشت: اگر داده های در ارتباط با درآمد افراد را جمع آوری کنید، امکان دارد ناگهان با فردی مانند بیل گیتس مواجه شوید؛ در چنین شرایطی، او یک داده پرت شمرده می شود، برای اینکه فاصله معناداری با سایر داده ها دارد.
هادی ضمن اشاره به تمرکز پژوهش های خود بر داده های چندمتغیره اظهار داشت: در این نوع داده ها، برعکس تحلیل تک متغیره، با مجموعه ای از متغیرها سروکار داریم و همین مسئله شناسایی داده های پرت را پیچیده تر می کند. داده ها را میتوان در یک، دو یا سه بعد ترسیم کرد، اما در ابعاد بالاتر، این کار در عمل دشوار می شود و ناچاریم به روشهای عددی تکیه نماییم.
این دانشمند جهان اسلام اضافه کرد: برخی داده های پرت در مرز میان داده های عادی و غیرعادی قرار دارند؛ ازاین رو اگر بخواهیم با یک نقطه آستانه مشخص درباره ی آنها تصمیم بگیریم، احتمال خطا افزایش خواهد یافت. به این علت از منطق فازی (Fuzzy Logic) استفاده می نماییم تا میزان پرت بودن داده ها را به شکل تدریجی و در بازه ای بین صفر تا یک تعیین نماییم. هرچه این مقدار به یک نزدیک تر باشد، احتمال پرت بودن داده بیشتر است.
هادی درباره ی مزیت روشهای فازی نسبت به الگوریتم کلاسیک BACON توضیح داد: الگوریتم BACON در نسخه اصلی خود مبتنی بر منطق قطعی (crisp) است، اما ما آنرا به نسخه توسعه یافته ای با عنوان Fuzzy BACON ارتقا دادیم. در این مدل، داده ها فقط به دو دسته پرت و غیرپرت تقسیم نمی شوند، بلکه داده هایی که در ناحیه مرزی قرار دارند، در یک محدوده فازی ارزیابی می شوند.
وی با اعلان اینکه مدلهای قطعی در واقع حالت خاصی از مدلهای فازی هستند، اظهار داشت: اگر پارامتر فازی فقط صفر یا یک باشد، در عمل همان مدل قطعی را داریم، اما زمانیکه این پارامتر در بازه بین صفر و یک قرار می گیرد، مدل فازی شکل می گیرد و امکان تحلیل دقیق تر داده های مرزی فراهم می شود.
این استاد آمار در تشریح تفاوت تجربی میان Fuzzy BACON و نسخه کلاسیک آن اظهار نمود: در مدل کلاسیک، یک آستانه ثابت وجود دارد و داده ها یا پرت هستند یا نیستند؛ اما در مدل فازی، یک محدوده تعریف می شود که در آن، میزان اطمینان نسبت به پرت بودن داده ها به شکل تدریجی سنجیده می شود.
هادی همین طور به کاربرد این شیوه در انواع مختلف داده ها اشاره نمود و اظهار داشت: نسخه اولیه BACON عمدتا برای داده های عددی طراحی شده بود، اما روشهای جدید امکان تحلیل همزمان داده های عددی و دسته ای (categorical) را نیز فراهم آورده اند و این مساله دامنه کاربرد آنرا گسترده تر کرده است.
استاد ممتاز دانشگاه آمریکایی قاهره در بخش دیگری از این گفتگو، به جدیدترین پژوهش های خود در حوزه خوشه بندی (Clustering) اشاره نمود و اظهار داشت: یکی از پروژه های اخیرم بر اندازه گیری فاصله میان خوشه های داده متمرکز است. در تحلیل خوشه ای، پرسش اصلی اینست که چطور میتوان فاصله میان خوشه ها را بشکلی دقیق اندازه گیری نمود.
او اضافه کرد: تابحال روشهای مختلفی برای سنجش فاصله پیشنهاد شده، اما جدید ترین رویکرد، استفاده از «فاصله بیضوی» (Elliptical Distance) است. برعکس فاصله اقلیدسی که بر فرض برابری واریانس ها و استقلال متغیرها استوار است، فاصله بیضوی این محدودیت ها را درنظر نمی گیرد و شرایط واقعی تر داده ها را منعکس می کند.
هادی در انتها با تشریح مزیت روش پیشنهادی خود اظهار داشت: این شیوه دو مسئله مهم را پوشش می دهد؛ نخست تفاوت واحدهای اندازه گیری و واریانس متغیرها، و دوم وابستگی میان متغیرها. در روشهای کلاسیک، متغیرهایی با واریانس بالا می توانند بر تحلیل غلبه کنند و همین طور وابستگی میان متغیرها نادیده گرفته می شود، اما روش پیشنهادی ما این محدودیت ها را برطرف کرده و دقت تحلیل خوشه ای را به صورت محسوسی بالا می برد. بطور خلاصه، هادی از پژوهشگران برجسته حوزه آمار با سابقه تدریس و پژوهش در دانشگاه های معتبر بین المللی، همچون دانشگاه آمریکایی بیروت، استاد بازنشسته افتخاری دانشگاه کرنل و دانشگاه آمریکایی قاهره بشمار می رود. حوزه فعالیت علمی وی شامل آمار پیشرفته، تحلیل داده و روشهای آماری کاربردی است و تاکنون آثار علمی مختلفی دراین خصوص منتشر نموده است. وی با اشاره به اینکه مدل های قطعی در حقیقت حالت خاصی از مدل های فازی هستند، عنوان کرد: اگر پارامتر فازی فقط صفر یا یک باشد، در عمل همان مدل قطعی را داریم، اما زمانیکه این پارامتر در بازه بین صفر و یک قرار می گیرد، مدل فازی شکل می گیرد و امکان تحلیل دقیق تر داده های مرزی فراهم می شود.

منبع:

1405/02/16
13:40:18
0.0 / 5
3
تگهای خبر: دانشمند , كاربر , محقق , ناسا
اگر مطلب را پسندیدید لایک کنید
(0)
(0)
تازه ترین مطالب مرتبط
نظرات بینندگان در مورد این مطلب
نظر شما در مورد این مطلب
نام:
ایمیل:
نظر:
سوال:
= ۵ بعلاوه ۵
پربازدیدهای رمزمن

پربحثهای رمزمن

تازه های رمزمن

رمز من - Ramzeman
ramzeman.ir - حقوق مادی و معنوی سایت رمز من محفوظ است

رمز من

فناوری اطلاعات و امنیت
رمز من: امنیت دیجیتال شما در دستان ماست. با رمز من، رمزهایتان را فراموش نکنید