پاورپوینت بررسی بازيابی كارا و مؤثر اطلاعات وب (pptx) 61 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 61 اسلاید
قسمتی از متن PowerPoint (.pptx) :
بررسی بازيابی
كارا و مؤثر اطلاعات وب
فهرست مطالب
مقدمه
دستاوردهاي اين پروژه
كاوش متمركز وب
كاوش متمركز وب با استفاده از يادگيري تقويتي
طراحي و پياده سازي كاوشگر متمركز يادگيري تقويتي
نتايج حاصل از پياده سازي و ارزيابي
توسعه مكانيسم هاي پرس و جو در كاوشگرهاي متمركز
معرفي
“
سلسله مراتب مفهومي با دامنه خاص (
DSCH
)
”
ارائه الگوريتمي خودكار
DSCH
–
پياده سا
زي و ارزيابي آن
ارائه معماري يكپارچه براي موتورهاي جستجوي با دامنه خاص
نتيجه گيري و پيشنهادات آينده
مقالات ارائه شده حاصل از پروژه
2
معماري كاوشگرهاي وب
3
Web content
target url
Stop list
Stemmer
Proper noun list
Indexing Policy
Thesaurus
…
query
Results
Crawler Manager
Indexer
Index Manager
Query Manager
Crawling Component
Indexing Component
Querying Component
كاوش متمركز وب
كاوش متمركز وب به عنوان راه حلي براي بازيابي اطلاعات وب
صفحات مربوط به
يك موضوع و يا از نوع
خاص را جستجو و كپي كرده، شاخصبندي و نگهداري مي
كند.
نتايج مورد انتظار از كاوش متمركز
يافتن بيشترين صفحات مربوط با كاوش كمترين ابرپيوند نامربوط
تحقيقات مرتبط
Fish
Web Watcher
Page-Rank
IBM Focused Crawler (Clever)
Cora
Context Focused Crawler
KAON
Apprentice
4
معماري كاوشگرهاي متمركز
5
مؤلفه تنظيمات اوليه (صفحات اوليه كاوش)
كاوشگر(هاي) وب
وب
اسناد مربوط به موضوع مورد تمركز
صف اولويت
URL
ها
تشخيص ميزان تشابه صفحه به موضوع كاوش (دسته
بندي كننده)
تخمين ميزان ربط ابرپيوندهاي استخراج شده به موضوع
صفحات
مرتبط
URL
هاي استخراج شده
URL
صفحه وب
صفحه وب
Q
/ مقدار
URL
آدرس شروع
URL
حد آستانه
دستاوردهاي اين پروژه
كاوش متمركز وب با استفاده از يادگيري تقويتي
توسعه روشهاي
Cora
براي محاسبه مقدار
Q
يادگيري تقويتي
و پيشنهاد روشهاي جديد
استفاده از دسته
بندي كننده ماشينهاي بردار پشتيبان براي اولين بار
در كاوشگرها و مقايسه با نتايج قبلي
ارزيابي تاثير مقادير متفاوت پارامترهاي يك كاوشگر يادگيري تقويتي در كارآيي كاوشگر مانند متن اطراف ابرپيوند، تعداد دسته ها در دسته بندي كننده و مقدار گاما در محاسبه
Q
توسعه پرس و جوي كاربر در كاوشگرهاي متمركز
معرفي ابزار
"
سلسله مراتب مفهومي با دامنه خاص
"
و استفاده از آن براي توسعه خودكار پرس و جوي كاربر در معماري
-CS
ََ
AKU
طراحي
،
پياده سازي
و ارزيابي
الگوريتمي جديد براي
يادگيري
"
سلسله مراتب مفهومي با دامنه خاص
"
با استفاده از اسناد آموزشي
پيشنهاد يك معماري يكپارچه
(با ارائه چارچوب فرمال )
براي موتورهاي جستجوي با دامنه خاص كه
از
سلسله مراتب مفهومي با دامنه خاص
و
استدلال بر پايه موارد
براي يادگيري از جستجوهاي قبلي
استفاده مي كند
6
يادگيري تقويتي
يادگيري تقويتي
به چارچوبي براي يادگيري خط مشي بهينه از محاوره با يك محيط پويا و با مكانيسم پاداش و جزا اشاره دارد.
7
Environment
Agent
STATE ,
REWARD
ACTION
S
: set of available
States
,
A
: set of available
Actions,
T: S
A
S
, Transition Function
R: S
A
R
,
Reward Function
,
: S
A
,
Learned Policy
*
:
Optimal Policy
, which maximizes the values of states, for all state
s.
V*
:
Value Function
of
Optimal Policy
Q*
: expected return of taking action a in state s, and thereafter following
optimal
policy
r
t
: Received
reward
in
t
step after starting from
s
,
:
discount factor,
V
(s)
=
Value
of state
s
Q*(s,a) = R(s,a) +
V*(T(s,a))
يادگيري تقويتي براي كاوش متمركز
خواصي از يادگيري تقويتي كه آن را براي كاوش متمركز مناسب مي سازد:
توانايي مدل كردن پاداشهاي تاخيري (آينده) حاصل از تعقيب ابرپيوندها
امكان يادگيري از سعي و خطا
–
مناسب براي محيط هاي پويا و با تعداد داده هاي آموزشي كم
كارآيي به صورت پاداش در طول زمان قابل اندازه گيري است
مزيت كاوشگر يادگيري تقويتي بر كاوشگر متمركز معمولي
امكان در نظر گرفتن پاداش هاي آينده يك ابرپيوند در اولويت كاوش آن
8
نگاشت كاوش متمركز به يادگيري تقويتي
توابع
T
و
R
مشخص هستند
پاداشهاي آني
(
R: Reward Function
)
سند مرتبط حاصل از كليك كردن ابرپيوند
پاداشهاي آينده
(
V: Value function
)
سند (اسناد) مرتبط حاصل از تعقيب ابرپيوند در چند سطح بعدتر
“
عمل
”:
تعقيب (پيمايش) يك ابرپيوند خاص
(
A: set of actions
)
تعداد اعمال در اختيار، پويا و بزرگ
"
حالت"
شامل
(
S: set of states
)
مجموعه اسناد هدفي است كه بايد کاوش شوند
.
مجموعه پيوندهايي كه يافته شدهاند.
9
نگاشت كاوش متمركز به يادگيري تقويتي
(ادامه)
مشكلات
فضاي حالات بسيار بزرگ است
.
تعداد اعمال در اختيار هم بسيار زياد است
فرض
هاي
كاوشگر يادگيري تقويتي
Cora
ب
راي
سادگي و تعميم مساله:
"حالت" مستقل از اينست كه كدام اسناد هدف تابحال ديده شدهاند.
تبديل
تمامي حالات به يک حالت
ميزان ربط اعمال (ابرپيوندها) به موضوع (هدف) ميتواند با كلمات "در همسايگي"
ابرپيوند متناظر با هر عمل مشخص شود.
ميتوان بين ابرپيوندها تعميم انجام داد و آنها را بوسيله متن اطرافشان با هم مقايسه كرد
.
10