WEBVIEW: Інтэрнэт-праграма з выкарыстаннем TAIGA

5 min read
Article updated on:17 Aug 2023

Original article: http://cs.brown.edu/~spr/research/webview.html 

Агляд

WebView - гэта візуалізацыя таго, як у цяперашні час выкарыстоўваецца Інтэрнэт. Ён прызначаны для маніторынгу вэб-сайтаў, якія зараз праглядаюцца, і збору гэтай інфармацыі па катэгорыях у значны (і цікавы) дысплей. Адначасова гэта дэманстрацыя патэнцыялу сістэмы праграмавання ТАЙГА .

Каб зрабіць гэтую візуалізацыю цікавай і эфектыўнай, нам патрэбныя людзі, якія яе выкарыстоўваюць. Такім чынам, мы рэкамендуем вам спампаваць, усталяваць і запусціць праграмнае забеспячэнне.

Дысплей

З пункту гледжання карыстальнікаў, webview - гэта просты скрыпт, які паказвае па катэгорыях тое, што людзі праглядаюць у дадзены момант. Прыклад адлюстравання паказаны ніжэй:

Дысплей складаецца з канцэнтрычных кольцаў, кожнае з якіх адлюстроўвае перыяд часу ад адной хвіліны да некалькіх дзён. Кожнае кольца падзелена на вобласці, якія адлюстроўваюць адну катэгорыю вэб-старонак. (У цяперашні час мы выкарыстоўваем класіфікацыю OpenDirectory, але любая катэгарызацыі будзе працаваць). Катэгорыі размешчаны ў алфавітным парадку супраць гадзіннікавай стрэлкі ад пазіцыі 3 гадзіны (што мае сэнс прынамсі для матэматыкаў). Колеры адвольныя, але выбіраюцца так, каб максімальна павялічыць розніцу паміж магчымымі сумежнымі катэгорыямі. У кожнай вобласці катэгорыі ёсць хвалістая лінія, якая кадуе інфармацыю пра старонкі, якія праглядаюцца ў гэтай катэгорыі. Дысплей абнаўляецца прыкладна кожную хвіліну.

Дысплей дае карыстальніку некалькі відаў інфармацыі. Прамежак дугі для кожнай катэгорыі прапарцыянальны колькасці праглядаў (старонак, запытаных браўзерам) старонак гэтай катэгорыі на працягу перыяду часу. Адценне вобласці абазначае катэгорыю; насычанасць афарбоўкі адлюстроўвае адносную колькасць праглядаў. Такім чынам, калі прамежак мае адносна мала праглядаў (дзе адноснае заснавана на колькасці часу, ахопленага прамежкам, у параўнанні з агульнай гісторыяй), то рэгіён будзе больш светлым; калі пралёт мае шмат праглядаў, пралёт будзе цямней. Сама хвалістая лінія можа кадзіраваць адносную колькасць розных URL-адрасоў на працягу перыяду часу ў частаце лініі. Такім чынам, калі ўсе прагледжаныя старонкі для адной катэгорыі былі з аднаго URL-адраса, лінія будзе роўнай; калі б кожны быў выразным, лінія была б даволі хвалістай. Таўшчыня лініі выкарыстоўваецца для адлюстравання адноснай колькасці карыстальнікаў, якія праглядаюць старонкі гэтай катэгорыі. Калі б увесь прагляд рабіў адзін карыстальнік, мяжа была б даволі тонкай; калі ён адпавядае вялікай колькасці асобных карыстальнікаў, лінія будзе тоўстай.

Дысплей можа таксама кадзіраваць інфармацыю ў яркасці (змяншэнні да чорнага) пралётаў і ў амплітудзе ліній. Карыстальнік мае магчымасць змяняць розныя ўласцівасці адлюстравання праз адпаведныя дыялогавыя вокны. Гэта ўключае ў сябе змяненне статыстыкі, звязанай з кожнай графічнай уласцівасцю, змяненне колераў, звязаных з рознымі катэгорыямі, супастаўленне катэгорый і змяненне розных дыяпазонаў.

Збор інфармацыі

Каб паказаць інфармацыю пра тое, што адбываецца ў сетцы, нам трэба сабраць інфармацыю. Такім чынам, гэтая праграма з'яўляецца шпіёнскай. Ён кантралюе вашу гісторыю прагляду і паведамляе пра старонкі, якія вы праглядаеце, на цэнтральны сервер, дзе яны класіфікуюцца і запісваюцца катэгорыі. Аднак праграма не запісвае ідэнтыфікацыйную або асабістую інфармацыю. "Карыстальнікі" прадстаўлены унікальным выпадковым ідэнтыфікатарам, які выкарыстоўваецца толькі для атрымання колькасці карыстальнікаў. Ідэнтыфікатары адвольныя і не могуць быць прасочаны да крыніцы (наколькі я ведаю). Шпіёнскае ПЗ працуе толькі тады, калі вы запусціце праграму прагляду і толькі для карыстальніка, які робіць запуск. Поўны крыніца прадастаўляецца, калі вы не верыце ў тое, што адбываецца.

Звярніце ўвагу, што наш інструмент працуе ў Windows, Linux і Mac OS/X з safari, mozilla, IE і Opera у розных камбінацыях. Калі вы хочаце ўнесці свой уклад у дадзеныя праекта, але не хочаце запускаць візуалізатар, мы прапануем скрыпт, які запускае толькі манітор гісторыі.

Класіфікацыя

Сістэма ніколі не захоўвае URL або ідэнтыфікатары карыстальнікаў. Замест гэтага, калі ён даведаецца пра старонку, ён знаходзіць адпаведную катэгорыю і перыядычна захоўвае інфармацыю пра колькасць старонак, карыстальнікаў і URL для кожнай катэгорыі. Сістэма не спампоўвае і не звяртаецца да старонкі, каб знайсці яе катэгорыю. Замест гэтага ён спрабуе знайсці катэгорыю толькі з дапамогай URL.

Выкарыстоўваючы структуру TAIGA, мы дазваляем некалькі рэалізацый класіфікатараў. У цяперашні час мы прапануем тры розныя. Наш першы класіфікатар выкарыстаў вэб-сэрвіс Google, папрасіўшы Google шукаць пэўную старонку і прагледзеўшы класіфікацыю Open Directory, якую Google вяртае як частку выніку. Гэта абмежавана як таму, што Google не хоча, каб мы выклікалі вэб-службу больш за 1000 разоў на дзень, так і таму, што яны не заўсёды паведамляюць аб класіфікацыі нават адносна звычайных старонак. Альтэрнатывай з'яўляецца MeURLinпраект. У нас ёсць класіфікатар, які размаўляе з іх дэманстрацыйнай вэб-старонкай (яны яшчэ не наладзілі вэб-службу) і здабывае вынік. Гэта даволі эфектыўна (з рознай ступенню дакладнасці), але ўсё яшчэ занадта павольна для нашых мэтаў. Наш трэці класіфікатар чытае базу дадзеных адкрытага каталога пры запуску і будуе дрэва класіфікацыі для URL. Пасля стварэння дрэва (што займае 15 хвілін і 2 Г памяці) пошук адбываецца даволі хутка. Нягледзячы на ​​тое, што ўсе тры класіфікатары даступныя, і TAIGA можа выбраць лепшы ў дадзены момант часу, найбольш верагодным з іх, які зараз выкарыстоўваецца, з'яўляецца апошні.

Калі ў каго-небудзь ёсць лепшы класіфікатар або той, які ён хацеў бы паспрабаваць, я быў бы рады хутка інтэграваць яго ў сістэму. Taiga дазваляе рэалізацыю быць бібліятэкай, сэрвісам тыпу кліент-сервер або вэб-сэрвісам.

Захоўванне дадзеных

Мы выкарыстоўваем глабальныя ўласцівасці файлавай сістэмы TAIGA для забеспячэння пачатковага сховішча інфармацыі. Назапашаныя вынікі збору інфармацыі перыядычна дадаюцца да бягучага файла даных. Паколькі гэты файл патэнцыйна можа стаць даволі вялікім, мы фактычна падтрымліваем набор файлаў даных, у якіх файлы звязаны адзін з адным. Асобны сервер прадастаўляецца для ідэнтыфікацыі бягучага файла для зададзенага часу пачатку, для стварэння новых файлаў, калі файлы дадзеных становяцца занадта вялікімі, і для звязвання файлаў адзін з адным. Гэтая служба будзе запушчана аўтаматычна (калі яна яшчэ не запушчана) на машыне ў Brown.

Сетка

У аснове гэтага праекта ляжыць сістэма ТАЙГА. Калі вы запускаеце візуалізатар, вы таксама будзеце запускаць ядро ​​TAIGA на вашым кампутары. Taiga выкарыстоўвае аднарангавы пакет JXTA для забеспячэння сувязі паміж рознымі ядрамі і службамі. Пры першапачатковым запуску вы, верагодна, ўбачыце (прынамсі пакуль) дыялогавае акно канфігурацыі JXTA. Калі ўсё працуе, дастаткова націснуць кнопку "ОК". Калі вы знаёмыя з jxta, не саромейцеся змяняць розныя налады. Выкарыстоўваючы JXTA, webview павінен мець магчымасць працаваць у брандмаўэрах і на адвольных машынах. Калі вы хочаце атрымаць журнал ад ядра TAIGA, калі яно працуе на вашым кампутары, усталюйце зменную асяроддзя TAIGASHOW (у Windows) або ўсталюйце для зменнай асяроддзя TAIGALOG поўнае імя шляху адпаведнага файла журнала.

Паперы

Пра гэты праект пакуль нічога не напісана. Мы цэнім любы ваш досвед працы з ім і вітаем любыя водгукі аб тым, калі (і калі) мы пішам справаздачу.

Зваротная сувязь

Гэта праграмнае забеспячэнне (вельмі) эксперыментальнае. Мы паспрабавалі зрабіць мноства розных установак, але ў нас толькі абмежаваны дыяпазон даступных сістэм. Многае можа пайсці не так як у ядры, у дадатку, так і ў сетцы, якая злучае ўсё разам. Мы хочам усё выправіць, але для гэтага нам трэба ведаць, што не працуе (і, магчыма, што працуе). Мы вітаем любыя водгукі, справаздачы аб памылках, прапановы, каментарыі, запыты і г.д. Дасылайце электронны ліст на spr@cs.brown.edu .

праграмнае забеспячэнне

Калі вы займаецеся інфарматыкай Браўна, апошнюю версію праграмнага забеспячэння можна атрымаць у /home/spr/tryview (Y:homespr ryview у Windows).

Калі вы не ўваходзіце ў сетку Brown CS, праграмнае забеспячэнне можна атрымаць з нашага ftp-сервера ў фармаце (tar.gz) або (zip) .

Ўстаноўка простая: загрузіце і разгарніце праграмнае забеспячэнне. Запусціць яго таксама проста: проста запусціце скрыпт runview (або runview.bat у Windows), каб атрымаць візуалізатар. (Каб запусціць толькі праграмнае забеспячэнне для маніторынгу, выкарыстоўвайце скрыпты runspy).

Зноў. Каб спампаваць праграмнае забеспячэнне:

СПАМПАВАЦЬ webview.distrib.tar.gz

СПАМПАВАЦЬ webview.distrib.zip

Article posted on:17 Aug 2023