Мақалада зиянды URL мекенжайы тақырыбы зерттелген. Зиянды URL мекенжайларының түрлері және де оларды анықтаудың қара тізімге енгізу, машиналық оқыту, эвристикалық әдістері талданған.
Кілттік сөздер: URL, Зиянды URL мекенжай, веб-сайт, зиянкелтіруші контент, машиналық оқыту.
В статье изучена тема вредоносного URL. Проанализированы типы вредоносных URL-адресов и методы их обнаружения, такие как: занесение в черный список, машинное обучение, эвристический метод.
Ключевые слова: URL, вредоносный URL-адрес, веб-сайт, вредоносный контент, машинное обучение.
URL — бұл Uniform Resource Locator cөзінен шыққан аббревиатура, ол — ғаламдық құжаттар каталогы және бүкіләлемдік ғаламтордағы басқа ресурстар. Басқаша айтқанда, бұл белгілі бір таңба жолы, ол ғаламтордағы интернет-ресурстың сілтемесі болып табылады [1].
URL мекен-жайы әдетте үш-бес компоненттен тұрады: схема — хост пайдаланатын протоколды анықтайды, IP мекенжайды нұсқайды немесе тіркелген домен атауының жолын көрсетеді, хосттағы белгілі бір ресурстың орнын анықтайды, сонымен қатар порт нөмірін сұрау жолымен, параметрлер мен мәндер жолымен, «?» фрагментінен кейінгі URL мекен-жайының бөлігімен ілесе жүруі мүмкін.
Зиянды URL мекенжайлары термині, әртүрлі, қажетсіз мазмұнды контент орналастырылған веб-сайттарды көрсететін URL мекенжайлары үшін қолданылады. Осы зиянды мазмұнға сүйене отырып, олар әр түрлі кибершабуылдар үшін қолданылады және оларға қауіпсіз деп ойлап кіретін пайдаланушылар үшін өте қауіпті. Бұндай зиянды URL мекен-жайлары қайта құрылу, генерациялану мүмкіндігіне ие, бірақ та олар кейде заңды веб-сайттарды бұзу арқылы да орналастырылады.
Зиянды URL мекен-жайларының түрлеріне тоқтала өтсек.
Зиянды URL мекен-жайларының әр түрін оларға орналастырылған рұқсат етілмеген зиянды мазмұнды контент және олар бағытталған кибершабуыл түріне байланысты ажырата аламыз. Ең көп тараған түрлері — спам, фишинг және дискіден жүктеу. Әр түрдің өзіндік ерекшеліктері болуы мүмкін және оларды анықтауда әртүрлі әдіс сәтті болуы мүмкін.
Веб-спам дегеніміз — жоғары рейтингке ие болу және осындай трафикті арттыру үшін іздеу жүйелерін алдауға тырысатын сайттар. Мұндай веб-сайттарға алып баратын URL мекен-жайларын спам мекенжайлары деп атауға болады. Жоғары рейтингке қарамастан, пайдаланушылар веб-сайттардан өздеріне қажетті, іздеген заңды мазмұнды контент таба алмайды [2].
Жалпы, веб-сілтеме тарату технологиясының ең көп таралған екі түрі бар: мазмұн спамы және сілтеме спамы.
– Мазмұн спамы веб-беттің мазмұнын жоғары деңгейге өзгертетін барлық әдістерді қамтиды. Бұл нақты, заңды контентке танымал сөздерді қосуды, веб-беттің тақырыбы немесе байланыс мәтіні және де веб-беттің басқа да бөліктеріне рейтингте жоғары мәні бар, рейтинг көтеруге көмектесетін бөліктерді қосу болып табылады.
– Сілтемелер бойынша спам сілтемелерге негізделген саралау алгоритмдерінің артықшылықтарын пайдаланады. Бұл алгоритмдер веб-сайттарға сілтеме жасайтын басқа сайттарға қарағанда жоғары рейтинг береді.
Фишингтік сайттар пайдаланушылардан карта нөмірлері, банктік шот нөмірлері немесе құпиясөздер сияқты құпия ақпаратты ұрлауға тырысады, бұл әдіс арқылы қолданушыларға олардың заңды веб-сайтта екендігіне сендіреді. Фишингтік веб-сайттардың URL мекен-жайлары мен мазмұны түпнұсқа мазмұнға ұқсайды, сондықтан жәбірленушіге айырмашылықты тану қиынға соғады. Содан кейін алынған құпия ақпарат, негізінен жәбірленушілердің ақшасын немесе жеке ақпараттарды ұрлау үшін қолданылады.
Дискіден жүктеу — бұзылған веб-сайттарға қолданушы кіргеннен кейін оның құрылғысына зиянды кодты (зиянды бағдарламаны) байқаусызда жүктеуді білдіреді. Жүктеуді бастау үшін жәбірленушіге ештеңе басудың қажеті жоқ. Вирус жұққан веб-сайтқа оңай қолжетімділік, пайдаланушының біліуінсіз, фондық режимде зиянды бағдарламалық қамтама автоматты түрде жүктеуге және орнатуға мүмкіндік береді. Содан кейін орнатылған зиянды бағдарлама бұзылған компьютерді бақылау, құпиясөздерді немесе басқа құпия ақпаратты ұрлау, шантажды төлем немесе басқа қажетсіз әрекеттерді орындау үшін пайдаланылуы мүмкін.
Ал енді зиянды URL мекен-жайларын анықтау әдістеріне тоқталып өтсек.
Қара тізімге енгізу. Қара тізімге енгізу әдісі — зиянды деп анықталған, танылған URL мекен-жайларының мәліметтер базасын құру. Сілтеменің зиянды екенін тексеру үшін, аталмыш сілтеме осы дерекқорда бар болуына тексеріледі. Қара тізімдер үшін ортақ проблема, ол — жаңа URL мекен-жайлары тізімдерінің сенімді көзін табу, сондымен қатар олардың шынымен де зиянды екенін растау әдісі. Әдетте зиянды сілтеме тізімге енуі үшін, онымен әуелде сілтемені зиянды деп тауып, енгізетін белгілі бір қолданушыға кезігуі керек, ал ондай болмаған жағдайда сілтеме қара тізімге ілікпеу қаупі бар.
PhishTank, URLhaus немесе VirusTotal сияқты көптеген қара тізімдер өздерінің URL мекен-жайларын қолданушылардан немесе сыртқы көздерден алады. Кейіннен олар зиянды сілтемені бірнеше антивирустық бағдарламалар немесе басқа URL/Домендерді қара тізімге енгізу қызметтері арқылы тексереді. Екінші жағынан, Google Safe Browsing немесе OpenPhish сыртқы ресурстарға тәуелді емес қара тізімдердің мысалы бола алады және олардың өздерінің талдау алгоритмдері бар.
Эвристикалық тәсіл . Эвристикаға негізделген әдістер веб-сайттардан көп таралған, жалпы зиянды функцияларды анықтайды және оны зиянды URL мекен-жайларын анықтау үшін пайдаланады [3]. Барлық зиянды сілтемелерді толықтай сақтаудың орнына, тек зиянды функциялары ғана сақталады.
Бұл тәсіл қара тізімге енгізуге ұқсас, бірақ жаңа URL мекен-жайларындағы қауіптерді де анықтай алады. Машиналық оқытудың барлық тәсілдері, алдымен жіктеуге әсер ететін белгілерді анықтау үшін эвристикалық тәсілдің қандай да бір түрін қажет ететінін айта кеткен жөн. Эвристикалық ережелерге негізделген әдіске мысал ретінде, Соланки мен Вайшнев қолданған тәсіл [24]:
Сурет 1. Эвристикалық ережелерге негізделген әдіске мысал
Машиналық оқыту. Машиналарды оқыту тәсілдері функциялар жиынтығы ретінде анықталған URL мекен-жайларының тізімін қолданады және олардың негізінде URL мекен-жайын зиянды немесе зиянды емес деп жіктеу үшін болжау моделін үйретуге негізделген. Бұл оларға жаңа, қауіпті болуы мүмкін URL мекен-жайларын анықтауға мүмкіндік береді [4]. Бұл тәсіл әдетте екі кезеңнен тұрады: біріншісі — функцияларды таңдау және сәйкесінше осы функцияларды ұсыну, екіншісі — болжау механизмін оқыту үшін осы функциялар ұсынысын қолдану. Алгоритмнің URL мекен-жайы зиянды немесе зиянды емес екенін анықтап-анықтамайтынына байланысты машиналық оқытуды бақыланатын, бақыланбайтын және жартылай басқарылатын деп жіктеуге болады. Модель оқу деректерін қалай қабылдайтынына және сол арқылы оқтылатынына сүйене отырып, екі негізгі топты бөліп көрсете аламыз: пакеттік оқыту (соңғы деректер тобы бойынша оқыту) және онлайн оқыту (қабылдау және деректер ағындары бойынша оқыту).
Қорытындылай келе сайттарды зиянды контент тұрғысынан талдауда маңызды, бастапқы қадам болып табылатын, веб-сайттардың зиянды URL мекен-жайы ұғымы талданып, олардың түрлеріне сипаттама беріле отырып, олардан қорғау әдістеріне талдау жасалынды. Талданылған әдістер ішінде ең оңтайлысы және дамығаны машиналық оқыту болып табылады.
Әдебиет:
- Шарма А., Сахай С. Полиморфты және метаморфты зиянды бағдарламалардың эволюциясы және ашылуы: шолу // Компьютерлік бағдарламалардың халықаралық журналы. 2014 жыл. № 90 том. — 7-бет.
- Чой Хенсан; Чжу Бин; Ли Хиджо. Зиянды веб-сілтемелерді анықтау және олардың шабуыл түрлерін анықтау. USENIX-тің 2-ші веб-қосымшаларды әзірлеу конференциясының материалдары. 2011 жыл.
- Мf Джастин; Соул Лоуренс; Севедж Стефан; Фолкер Джеффри. Қара тізімдерден басқа: зиянды веб-сайттарды күдікті URL мекен-жайлары арқылы табуды үйрену. В: 2009 жыл, 1245–1254 бет
- Колари Пранам; Финин Тим; Джоши Анупам. Блогосфераға арналған SVM: блогтарды анықтау және сплогтарды анықтау.2006 жыл, 92–99 бет.