ვებსაიტის სემანტიკური სტრუქტურის იდენტიფიცირება

Original web-page: http://www-cs.ccny.cuny.edu/~akira/semantic.desc.html

აკირა კავაგუჩი/Akira Kawaguchi

ინტერნეტ – საიტები, როგორც წესი, ორგანიზებულია საგნების მიერ. გაშუქებული საგნების კოლექცია წარმოადგენს ვებ – გვერდის შინაარსს. ეს შინაარსი შეიძლება შეიცავდეს კომპანიის ინფორმაციას, გასაყიდად შემოთავაზებულ ნივთებს ან გამოწერას, პროდუქტებსა თუ მომსახურებებს რეკლამას და ა.შ. ვებ – საიტის დიზაინერები აყალიბებენ საგნებს ისე, რომ მიზნად ისახონ მომხმარებლების მიერ მოთხოვნილ ინფორმაციაზე წვდომა. ეს ნიშნავს, რომ დიზაინერები ცდილობენ წინასწარ დააზონონ მომხმარებლის მოთხოვნები მათი კლასიფიკაციის სქემებში.

პოტენციური პრობლემები: ყველაზე ხშირად გამოყენებულ სქემაში საგნები იერარქიულად ტარდება ფესვგადგმული ხის სტრუქტურაში, რომელშიც ხის კვანძები შეესაბამება ვებ – გვერდებს, ხოლო შინაარსის ზოგადობის დონე საპირისპიროდ პროპორციულია, ვიდრე ფესვიდან დაშორებული. ვებ – გვერდის შესვლის გვერდი (მაგ., URL-ით, რომელიც განსაზღვრულია ინტერნეტ კომპანიის მიერ, როგორიცაა www.amazon.com, იდენტიფიცირება), შეესაბამება root კვანძს. ამ გვერდზე მოცემულია ზოგადი ინფორმაცია და მოცემულია ინდექსების მთელი რიგი, რომელიც უხელმძღვანელებს მომხმარებლის მიერ გვერდის ავლით საგნების შეგროვებას. სხვა გვერდებზე (შეესაბამება შიდა კვანძებს ან ხის ფოთლებს) მოცემულია ქვეკატეგორიები ან სპეციალიზებული ინფორმაცია. რაც უფრო დიდია მანძილი კვანძიდან ფესვიდან, მით უფრო სპეციალიზირებულია ის ინფორმაცია, რომელიც შეიცავს მას. ჰიპერბმულები, რომლებიც მომხმარებლებს მიმართავენ იმ გვერდიდან, რომელსაც ისინი უყურებენ სხვა ვებ – გვერდებზე, წარმოდგენილია ხის კიდეებით. ხეები, რადგან აციკლიურია, არ შეიძლება გამოყენებულ იქნას ყველა შესაძლო ინფორმაციის სტრუქტურის წარმოსადგენად – გრაფიკები აშკარად გვთავაზობს უფრო მეტ ზოგადს. ამასთან, ამ წინადადებაში მიიღება ხის წარმომადგენლობა, რადგან იგი განსაკუთრებით კარგად არის შესაფერისი კლასიფიკაციის სქემების მოდელირებისთვის, რომელთაგან რამდენიმე შეიძლება გავლენა იქონიოს ვებ-საიტის ორგანიზებაში. მაგალითად, CUNY სამაგისტრო ცენტრის საწყისი გვერდი კლასიფიკაციას უწევს საიტის შინაარსს სადოქტორო პროგრამებში, სხვა პროგრამებში, კვლევით ცენტრებში და ა.შ. გარდა ამისა, იგი გთავაზობთ მითითებებს ბიბლიოთეკის ინფორმაციაზე, კომპიუტერული ობიექტებზე, საიტების რუქებზე და ა.შ. ამ შინაარსის ორგანიზაცია ამრიგად შეიძლება მოდელირებული იყოს ორმაგი ხე-ნაგებობებით, ერთი წარმოადგენს უნივერსიტეტში ფუნქციურ ერთეულებს, მეორე წარმოადგენს ინფორმაციულ რესურსებს.

მიუხედავად იმისა, რომ დიზაინერის თვალსაზრისით, ვებ – გვერდის შინაარსი შეიძლება სწორად იყოს წარმოდგენილი შესაბამისი ხის სტრუქტურაში, ამ კონკრეტულმა წარმომადგენლობამ შეიძლება ვერ მიითვისოს მომხმარებლები ინფორმაციის მოძიებაში. უფრო მეტიც, მომხმარებლის მიერ მოძიებული ინფორმაცია შეიძლება არ იყოს შესული კლასიფიკაციის სქემაში. ამრიგად, ინფორმაციის მოძიება შეუძლებელია კლასიფიკაციის სქემაში გამოყენებული ხის ფესვიდან ბილიკის გავლით; იგი შეიძლება საერთოდ არ შევიდეს ხეზე დაფუძნებული კლასიფიკაციის სქემაში. მაგალითად, მონაცემთა ბაზის კურსის შესახებ ინფორმაციის მოძიება CCNY საიტის დეტალური ცოდნის გარეშე რთულია. ინფორმაცია განთავსებულია სადღაც ბილიკზე: “კომპიუტერული მეცნიერების განყოფილება”, რომელსაც მოჰყვება “პროფ. კავავაუჩი”, შემდეგ კი “CSc571X”. მომხმარებელმა შეიძლება დაიწყოს “კურსების გრაფიკი” და დაადგინოს “2001 წლის გაზაფხული”, რომელიც არის ფოთოლი, რომელიც არ შეიცავს ინფორმაციას მონაცემთა ბაზის კურსების დეტალებთან. ანალოგიური პრობლემა ჩნდება, როდესაც ერთი და იგივე ტიპის ინფორმაცია კლასიფიკაციის ხის სხვადასხვა შინაგან (ან ფოთოლს) კვანძებში მოდის. მაგალითად, CUNY ვებსაიტზე ‘ლოგიკის კურსების’ მოსაძებნად შეიძლება დაგჭირდეთ რამდენიმე აკადემიური განყოფილების მიერ შემოთავაზებული კურსების კატალოგების გავლა, როგორიცაა კომპიუტერული მეცნიერება, ელექტროტექნიკა, ფილოსოფია და მათემატიკა. ეს ხდება სტატიკური კლასიფიკაციის სქემის გამო, რომელიც მოითხოვს კატეგორიების სუბიექტების სპეციალურ განთავსებას; ეს არ ასახავს რაიმე თანდაყოლილ სისუსტეს თავად საგნების კლასიფიკაციის კონცეფციაში.

ჩვენი მიზნები: ჩვეულებრივი კლასიფიკაციის ამ ხარვეზების დასაძლევად, ახლახან ბევრმა ვებ – საიტმა დაიწყო საიტებზე ორიენტირებული ძებნის შესაძლებლობის დაყენება, რაც მომხმარებელს საშუალებას მისცემს სწრაფად დაადგინონ დაკავშირებული URL, რომელიც შეესაბამება მითითებულ საკვანძო სიტყვებს. ანუ ვებსაიტს აქვს სპეციალური საძიებო სისტემა, რომ იპოვოთ საიტზე შეზღუდული ინფორმაცია. ეს პროექტი მიზნად ისახავს ლოკალიზებული ძიების მიღმა კლასიფიკაციის გაფართოებას, რომელიც დაფუძნებულია შესაბამისი ხე სტრუქტურებზე, ანუ ვებსაიტის შინაარსის ორგანიზებაზე, საიტის შინაარსის სემანტიკური სტრუქტურის ანალიზზე დაყრდნობით. სრულ ტაქსონომიის ხე წარმოიქმნება რეკურსიულად შემდეგნაირად. ინტერესის ვებსაიტის HTML გვერდები შედარდება მათი “სემანტიკური სიახლოვის” დასადგენად. ვებ – გვერდები შედარდება მათ წარმომადგენელთა ვექტორების მსგავსების გაზომვით. ვექტორული კომპონენტები განისაზღვრება ვებსაიტების გვერდებზე მოცემული სიტყვების სიხშირეზე. მსგავსი მნიშვნელობის გვერდების მთელი რიგი კატეგორიზდება ერთ ტაქსონომიაში, ხოლო უფრო მაღალი დონის სემანტიკა ამოღდება სიტყვების საერთო წყობიდან. ჩვენ შევიმუშავეთ ზომები კომერციული საძიებო სისტემების მუშაობის შესაფასებლად და ეს ნამუშევრები ვრცელდება ვებ – გვერდებს შორის მსგავსების გაზომვამდე.

პროექტის მნიშვნელობა: ვებსაიტის სემანტიკური სტრუქტურის ანალიზს წარმოადგენს საფუძველი კლასიფიკაციისთვის. ეს მიდგომა გამოიწვევს კონკრეტული საიტის საძიებო შესაძლებლობების შესაბამისი საკვანძო სიტყვების გაუმჯობესებას. გარდა ამისა, სემანტიკური სტრუქტურა ვებსაიტების შემქმნელებს საშუალებას აძლევს იპოვონ მსგავსი ან/და ზედმეტი ინფორმაცია, რაც თავის მხრივ დაეხმარება მათ საიტის კონფიგურაციაში, გაუმჯობესებული პრეზენტაციისა და ძიების შედეგების მისაღწევად.

© 2001, Akira Kawaguchi and Abbe Mowshowitz, All rights reserved.