ه برای مفید بودن و تازگی ارزیابی خواهند شد.
این به این معنی است که آن‌ها با توضیحات مسأله با استفاده از روش کاوش ایده به خصوص مقایسه می‌شوند. با این روش، الگوهای متنی به صورت ایده مفید و جدید دسته بندی خواهند شد. بنابراین کاوش ایده، ایده‌های جدید و مفید را در سه مرحله تعریف می‌کند.
1- تهیه شرح مسأله28.
2- استخراج الگوهای متنی از متن جدید.
3- ارزیابی الگوهای متنی برای سودمندی و تازگی در رابطه با شرح مسأله[7].
2-5 فرایند کاوش ایده
شکل 12- فرایند رویکرد کاوش ایده در مراحل مختلف بر اساس پایه‌ای برای فرایند کاوش ایده را نشان می‌دهد.

شکل 2-1: فرایند رویکرد کاوش ایده
بعد از فرایند جداسازی شناسه‌ها29 و فیلتر اصطلاح، الگوهای متنی ایجاد می‌شوند و بردارهای اصطلاح بر اساس این الگوهای متنی ساخته می‌شوند. بردارهایی اصطلاح از متن جدید با بردارهای اصطلاح از شرح مسأله با استفاده از اندازه گیری فاصله اقلیدسی با هم مقایسه می‌شوند. سپس، بردارهای اصطلاحی از متن جدید با بردارهای اصطلاحی از شرح مسأله با استفاده از اندازه گیری کاوش ایده مقایسه می‌شوند. به عنوان نتیجه، ما بردارهای اصطلاح را از متن جدید که ایده‌های جدید و مفید ارائه می‌دهند را دریافت می‌کنیم.
با جداسازی شناسه‌ها، متن‌ها به اصطلاحات تفکیک می‌شوند و واحد اصطلاحات کلمه است. مجموعه متفاوتی از اصطلاحات در متن به وسیله استفاده از متدهای فیلتر کلمه‌های عمومی و ریشه یابی کاهش پیدا می‌کند. به این منظور، یک لیست کامل از کلمات عمومی به خوبی الگوریتم ریشه یابی پورتر استفاده می‌شوند.
یک مشکل در ارتباط با استفاده از ریشه یابی شناسایی مترادف‌ها است. مترادف‌ها کلمات متفاوتی با معانی یکسان یا مشابه هستند. مترادف‌ها گروهی از کلمات با تلفظ یکسان اما با معنی متفاوت هستند.
با ریشه یابی مترادف‌ها شناسایی نمی‌شوند زیرا ریشه یابی از دانش مفهوم اصطلاح استفاده نمی‌کند. در این رویکرد کاوش داده، ما مترادف‌ها و مفهوم‌ها را شناسایی نمی‌کنیم این به این دلیل است که رویکرد همیشه به مفهوم اصطلاح به وسیله کار روی الگوهای متن که شامل چندین اصطلاح مشترک هستند رسیدگی می‌کند، همان‌طور که در زیر شرح داده می‌شود.
در اینجا ما نشان می‌دهیم که چگونه این الگوهای متنی به صورت اتوماتیک ایجاد می‌شوند. در اطراف ظاهر هر کدام از اصطلاحات در متن جدید، ما الگوی متن شامل اصطلاح انتخاب شده و تمام اصلاحات که در راست و چپ متن اصطلاح انتخاب شده رخ می‌دهد را ایجاد می‌کنیم. برای کاهش الگوهای متن ما فقط الگوهای متنی را در اطراف کلمه‌های غیر عمومی30 و در اطراف اصطلاحات که در هر دوی متن جدید و شرح مسأله رخ می‌دهند را ایجاد می‌کنیم.
یک تصمیم مهم که باید گرفته شود این است که طول الگوی متن را باید تعیین کنیم. الگوهای متنی نباید بسیار کوتاه باشند به طوری که آن‌ها شامل تمام اصطلاحات ارائه شده در ایده جدید باشند؛ و همچنین الگوهای متنی نباید بسیار بزرگ باشند بطوریکه تنها اصطلاحاتی در الگوی متنی رخ دهند که در ارتباط با ایده جدید باشد.
برای مثال اگر طول الگوی متن را L قرار دهید پس الگوی متن شامل اصطلاح انتخاب شده و شامل L اصطلاح از متن سمت چپش و L اصطلاح از متن سمت راستش است. درجه مجموعه فیلتر کلمه عمومی و اصطلاحات ریشه از این الگو به صورت نرمال کوچک‌تر از 2×L+1 است زیرا بعضی از کلمه‌های عمومی و بسیاری اصطلاحات 2 بار می‌آیند و بعضی از اصطلاحات ریشه یکسان دارند.
در این مقاله، ما از طول ثابت، برای الگو استفاده نمی‌کنیم اما طول متغیر الگوهای متنی بر اساس وفق دهی پویا با متنش را استفاده می‌کنیم. در آن به وسیله استفاده از شمای توزین اصطلاحات بر اساس تفاوت بین کلمه‌های عمومی و کلمات غیر عمومی بیان کرد که اهمیت کلمات عمومی به اندازه کلمه‌های غیر عمومی بالا نیست. اگر نویسنده ایده را بسیار خلاصه به وسیله پیوستن کلمه‌های اصلی به هم فرموله کند پس به صورت نرمال از بسیاری از کلمه‌های عمومی استفاده نمی‌کند و طول الگوی متن می‌تواند کوچک باشد. اگر نویسنده متن را با سبک گل و بلبل فرموله کند به این معنی که نوشته‌اش را با روش واضح و ساده بیان نکند پس به صورت نرمال از کلمه‌های عمومی زیادی استفاده می‌کند و الگوی متنی باید بزرگ‌تر باشد. در کاوش داده مقدار طول الگوی متن L و u درصد اهمیت کلمهها‌ی عمومی و v درصد اهمیت کلمه‌های غیر عمومی است. در زیر نحوه ارزیابی این روش بیان می‌شود.
برای تشخیص ایده‌های جدید و مفید، اندازه گیری خاص کاوش ایده را به کار می‌بریم. به وسیله مقایسه بردار از متن جدید با کلماتی که از شرح مسأله بدست آمده است، ما می‌توانیم مقدار نتیجه را همیشه بین %5 تا %100 با استفاده از این اندازه گیری محاسبه کنیم. بزرگ‌ترین مقدار نتیجه احتمال این است که بردار از متن جدید ایده مفید و جدید در رابطه با بردار از شرح مسأله را ارائه می‌دهد.
ما از این اندازه گیری برای مقایسه بردارها از متن جدید با بردارهای مشابهشان در شرح مسأله استفاده می‌کنیم اما نه با همه‌ی بردارها، این به این دلیل است که مقایسه بردار با بردار بسیار مشابه‌اش مقادیر نتیجه با قطعیت بهتری را از مقایسه بردار با بردارهای بیشتری را می‌دهد. برای مثال، اگر بردار از متن جدید با بردار از شرح مسأله مشابه باشد، پس ایده جدید نیست بدون در نظر گرفتن اینکه آیا مقادیر نتیجه از مقایسه این بردار با بردارهای بیشتری از شرح مسأله بزرگ‌تر از صفر هستند یا نه؟
بنابراین، ما می‌توانیم مطمئن باشیم که برداری ایده جدید و مفید را ارائه می‌دهد که مقدار نتیجه بزرگ را از کاوش ایده در رابطه با مشابه‌ترین بردارش را بدهد. با توجه به اینکه، محاسبه اندازه گیری کاوش ایده زمان بر است. بنابراین، این ضروری است که تعداد مقایسه‌ها با روش کاوش ایده برای پیاده سازی برنامه کاربردی کاوش ایده را محدود کنیم.
در اینجا روش دسته بندی 2 مرحله‌ای را انتخاب می‌کنیم. در مرحله اول هر بردار از متن جدید با تمام بردارها از شرح مسأله را به وسیله استفاده از اندازه گیری فاصله اقلیدسی31 مقایسه می‌کنیم. خوشبختانه محاسبه اندازه گیری فاصله اقلیدسی زمان بر نیست بنابراین برای پیاده سازی برنامه کاربردی کاوش ایده مناسب است. با معیار فاصله اقلیدسی برای هر بردار از متن جدید، تمام بردارهای مشابه آن از شرح متن را شناسایی کرده که مقدار نتیجه فاصله اقلیدسی آن کم‌ترین است، بدین معنی که مشابه‌ترین بردارها را شناسایی می‌کنیم. در مرحله دوم، هر بردار را از متن جدید با مشابه‌ترین بردارهایش با استفاده از روش کاوش ایده مقایسه می‌کنیم.
هر بردار از متن جدید- که با چندین بردار مشابه‌اش مقایسه شده- بالاترین مقدار نتیجه را از روش کاوش ایده به عنوان مقدار نتیجه می‌گیرد. برای شناسایی ایده جدید و مفید از متد برش آلفا استفاده می‌کنیم. برش آلفا مقدار نتیجه روش کاوش ایده مجموعه‌ای از تمام بردارها از متن جدید است که مقدار نتیجه مربوطه‌اش بزرگ‌تر یا مساوی آلفا (ᾱ) است[7].

2-5-1 نتایج استفاده از روش کاوش ایده
در یک بررسی برای وزارت دفاع آلمان، مقاله[7] از رویکرد کاوش ایده برای تشخیص ایده‌های تکنولوژی جدید برای برنامه تحقیقاتی وزارت دفاع آلمان استفاده کرد. به طور کلی، آنها باید ایده ها و راهحل جدید را جهت حل مسائل جاری در وزارت دفاع آلمان بر اساس پروژه‌های تحقیقاتی تشخیص می‌دادند.
آنها ایدههای جدید را از توضیحات 300 پروژه تحقیقاتی اعطا شده در سال 2006 به وسیله کمیته تکنولوژی و استاندارد بین‌الملل (NEST) در ایالات متحده تحت عنوان برنامه تحقیق مشاغل کوچک نوآوری، استخراج کردند. آنها از اطلاعات متنی از وزارت دفاع فعلی و از پروژه‌های تحقیقاتی وزارت دفاع آلمان به عنوان شرح مسأله استفاده کردند. به عنوان نتیجه آنها چندین ایده جدید را استخراج کردند که برای طراحان تحقیقات وزارت دفاع آلمان مفید بودند و اکنون به عنوان نقطه شروع برای پروژه‌های مشارکتی یا برای پروژه‌های تحقیقاتی جدید تحت وزارت دفاع استفاده می‌شود.
راه حل مناسب این ایده‌ها یک موضوع استراتژیک است و تأثیرات اساسی در کارایی سیستم‌های دفاعی آینده دارد. در اینجا بعضی مثال‌های موفقیت آمیز را بیان می‌کنیم. تکنولوژی آرایه تغییر فاصله کانونی هواپیما شناسایی شد که می‌تواند برای ایجاد آشکار سازی طیف فرابنفش دور استفاده شد. این به بهبود شناسایی نظامی منجر شد.
این ایده جدید است تاکنون تکنولوژی آرایه‌ای فاصله کانونی هواپیماها در نزدیکی منطقه ماوراء بنفش و مادون قرمز و بصری استفاده می‌شد.
علاوه بر این رویکرد تشخیص تجهیزات جانمایی التراسونیک پرسنل که به صورت اورجینال به منظور فراهم ساختن جهت گیری ممکن برای جنگجویان آتش در دود متراکم توسعه پیدا کرده بود. اغلب می‌تواند برای بهبود جایگیری و ناوبری سربازان در جنگ‌های شهری استفاده ‌شود.
علاوه بر این، رویکردی که نشان می‌دهد استفاده از تکنولوژی فتودیود بهمنی32 می‌تواند بهره برداری داخلی و جریان تاریکی ردیاب مادون قرمز را بهبود بخشد.که می تواند برای بهبود شناسایی نظامی بکار رود.
مقاله[7] نشان داد که بعضی از ایده‌های استخراج شده به صورت اتوماتیک برای طراحان تحقیقات تکنولوژی از وزارت دفاع آلمان مفید است. متأسفانه، شرح مسأله به کاربرده شده (اطلاعات متنی درباره وزارت دفاع فعلی بر اساس پروژه‌های تحقیقاتی) به صورت محدوده شده برای آلمان دسته بندی شد به این معنی که اجازه نمی‌دهد این نتایج در کمیته‌های علمی توزیع گردد.
بنابراین آنها از نتایج این مطالعه برای ارزیابی رویکرد کاوش ایده استفاده نکردند. اگر چه یک ارزیابی جداگانه با استفاده از داده‌های انحصاری برای محاسبه ارزیابی دوباره انجام شد.
2-5-2 ارزیابی روش کاوش ایده
نتایج [7] از معیارهای فراخوانی رایج در بازاریابی اطلاعات بر اساس مثبت درست، مثبت غلط و منفی غلط استفاده کردند. بر اساس این، آن‌ها باید اصل راستی را برای ارزیابیشان تعریف می‌کردند. بنابراین متخصص خبره اغلب ایده‌های جدید و مفید را از این تعریف به صورت دستی تشخیص می‌داد به این معنی است که بدون استفاده از رویکرد کاوش ایده بود. آن‌ها از تعریف ایده در بخش 2-3 استفاده کردند. بنابراین هر الگوی متنی بر اساس پیدا کردن اصطلاحات ارائه شده در وسیله شناخته شده (یا هدف) را چک می‌کردند و اصطلاحاتی که هدف ناشناخته (یا وسیله) را ارائه می‌دادند شناسایی می‌کردند. این نتایج اصل درستی برای ارزیابی بود. [7] مقادیر بازگشتی و دقت را با استفاده از معیار کاوش ایده و با استفاده از ضریب جکارد محاسبه کردند. در نهایت مقادیر میانگین بازگشتی و دقت را حساب می‌کردند. به عنوان نتیجه مقدار دقت33 %40 و مقدار فراخوانی34 %25 را با استفاده از رویکرد کاوش ایده با معیار کاوش ایده را بدست آوردند.
مقدار دقت 40% به این معنی است که اگر رویکرد کاوش ایده 10 الگوی متنی را استخراج کرده پس چهار تای آن‌ها ایده جدید و مفید را ارائه می‌دهند.
مقدار فراخوانی %25 به این معنی است که اگر چهار ایده‌ی جدید و مفید در متن جدید وجود داشته باشد پس رویکرد کاوش ایده تنها یکی از آن‌ها را استخراج کرده است. بر اساس این، مقدار دقت %30 و مقدار فراخوانی %20 را به وسیله‌ی ضریب جکارد بدست آورده شد.
این به این دلیل است که در بعضی از متن‌ها ضریب جکارد الگوهای متنی را از متن جدید استخراج می‌کند که شبیه الگوهای متنی از شرح مسأله است این شاید ایده‌ی شناخته شده را ارائه دهد اما ایده جدید نیست. در کنار ضریب جکارد

دسته بندی : No category

دیدگاهتان را بنویسید