زمینه و هدف: خطا در جمعآوری دادهها و عدم توجه به دادههایی که در پروسه جمعآوری به هر دلیل دچار نویز شدهاند باعث ایجاد اشکال در تحلیلهای مبتنی بر داده و بهتبع آن، تصمیمسازیهای اشتباه میگردد؛ لذا رفع مشکل دادههای گم شده و یا نویزی، قبل از انجام مراحل پردازش و تحلیل دارای اهمیت حیاتی در سامانههای تحلیلی است. هدف این مقاله، ارائه روشی بهمنظور شناسایی دادههای نویزی، پرت و دادههای گم شده و ارائه راهکاری مناسب برای هموارسازی این دادهها است.
روش پژوهش: این پژوهش بر مبنای هدف، از نوع کاربردی است. بهمنظور تحلیل دادهها از تکنیکهای دادهکاوی شامل هموارسازی پیالهای و مدل رگرسیون بهمنظور شناسایی و جاگذاری دادههای پرت و نویزی استفاده شده است.
نتایج: نتایج آزمایشهای انجام شده در محیط واقعی مربوط به دادههای شبکههای اجتماعی، نشاندهنده عملکرد مناسب روش پیشنهادی است. همچنین نشاندادهشده است که روش پیشنهادی دارای دقت بالاتری در مقایسه با روشهای هموارسازی پیالهای، میانگین و رگرسیون خطی است. بهطوریکه برای دادههای مربوط به بخش توئیت، میانگین مربعات خطای بهدستآمده برای روش پیشنهادی برابر ۰٫۰۴، روش هموارسازی پیالهای برابر ۰٫۳۸، روش رگرسیون خطی برابر ۰٫۰۵ و روش جایگزینی با میانگین برابر ۰٫۰۶ بوده است.
نتیجهگیری: روش ارائه شده در این مقاله، میتواند در ابتدا از طریق یکسوم و دوسوم نرمال، دادههای پرت را شناسایی کند و سپس با مدل رگرسیون خطی به جایگزینی دادههای پرت بپردازد که در نتیجه سبب بهبود عملکرد استفاده و پردازش اطلاعات و بهبود تعامل انسان و اطلاعات خواهد شد.