Мақолада Data Science йўналиши актуаллиги, унинг қўлланилиш жараёни қараб чиқилган.
Калит сўзлар : data science, big data, python, skicit-learn, machine learning.
В статье рассматривается актуальность направлений Data Science и процесс его применения.
Ключевые слова : data science, big data, python, skicit-learn, machine learning.
Data science — маълумотлар илми ёки даталогия — datalogy, информатика илмининг янги йўналиши бўлиб, рақамли маълумотларни таҳлил қилиш, қайта ишлаш масалаларини ўз ичига олади. Бу йўналиш катта ҳажмдаги маълумотлар (big data), юқори даражадаги параллелизм, статистика усуллари, маълумотларни интеллектуал таҳлил қилиш усуллари, сунъий интеллектнинг маълумотлар билан ишлаш қисми, маълумотлар базасини лойиҳалаш ва ишлаб чиқиш усулларини бирлаштиради. 2010 йилда буён «big data» концепциясининг кенг тарқалиши билан data science йўналиши академик фан сифатида қаралади [1].
Data science бу статистиканинг кенгайтмаси бўлиб катта ҳажмдаги маълумотларни қайта ишлай олади. Йўналиш статистика ва информатика усулларини ўз ичига олади. Бугунги кунда data science йўналиши алоҳида касбга айланган. Data science ва статистика мутахассисининг фарқи шундаки, data science мутахассиси катта ҳажмдаги маълумотлар билан ишлай олади, машина ўқитши усулларини қўллай олади, ҳисоблашни ташкил қилиш ва алгоритмларни реализация қилиш каби вазифаларни ўз ичига олади.
Data science мутахассисларининг қуроллари булар катта маълумотлар билан ишлаш қуроллари Hadoop, Pig, Spark ва дастурлаш тиллари Python, R ни ўз ичига олади. Python дастурлаш тили бугунги кунда сунъий интеллект соҳасида кенг қўлланилиб келмоқда. Сабаби python data science учун зарур бўлган жуда кўп кутубхоналар ишлаб чиқилган.
Data science йўналиши бугунги кунда жуда кўп соҳаларда қўлланилмоқда. Масалан, тавсия берувчи тизимлар, прогноз қилувчи тизимлар. Ривожланган кўп компаниялар ўз фаолиятида data scienceни қўлланиб келмоқда, унинг ёрдамида клиентлар, жараёнлар, товарлар ҳақида маълумотларни йиғиш, таҳлил қилиш ва прогноз қилиш ишлари олиб борилади. Интернет сайтлари, ижтимоий тармоқларда кенг қўлланидиб келинаётган усул бу тавсия бериш тизими. Фойдаланувчи қизиқишлари ҳисобга олиниб улар учун индивидуал рекламалар тавсия қилиб борилади. Масалан Google AdSence хизмати. Бу хизматда ҳар бир индивидуал фойдаланувчининг интернетдаги фаолиятига асосланиб уларнинг қизиқишлари ўрганиб чиқилади ва шу асосида реал вақт режимида персонал реклама тақдим қилиниб борилади.
Data science йўналишини бирор бир лойиҳада қўллаш натижасида минимал талаблар асосида муваффақиятли натижаларга эришиш имкониятини яратади. Data science жараёни асосан олтита босқичдан иборат: тадқиқот мақсадини аниқлаш, маълумотларни йиғиш, маълумотларни тайёрлаш, маълумотларни тадқиқ қилиш, маълумотларни моделлаштириш, маълумотлар визуализацияси ва автоматлаштириш.
Биринчи босқичда тадқиқотнинг аниқ мақсади белгилаб олинади ва лойиҳа вазифаси ишлаб чиқилади. Бу босқич катта аҳамиятга эга бўлиб унинг тўғри бажарилиши бутун лойиҳа натижасининг муваффақиятлигини белгилаб беради. Тадқиқот аниқ мақсади, кутилаётган натижалар, фаолиятнинг календар режаси белгилаб олинади. Лойиҳа вазифаси минимал қуйидагиларни ўз ичига олади: тадқиқотнинг аниқ мақсади, лойиҳанинг вазифаси, таҳлил усуллари, фойдаланиладиган ресурслар, натижаларнинг муваффақиятлик критерияси, календар режа.
Data science жараёнининг иккинчи босқичи бу зарур маълумотларни йиғиш. Тадқиқотни зарур бўлган маълумотлар қанча кўп бўлса унинг натижаси муваффақиятлиги шунча юқори бўлади. Сабаби data science жараёни машина ўқишини ўз ичига олади, ўқиш учун маълумотлар қанча кўп бўлса унинг аниқлиги ҳам шунча юқори бўлади. Бугунги кунда Интернетнингн ривожланиши билан маълумот манбалари жуда кўп. Маълумот манбалари очиқ ёки ёпиқ бўлиши мумкин. Маълумотларни йиғишда уларнинг актуаллиги ва сифати ҳисобга олинади. Маълумотлар ҳар хил турда бўлиши мумкин, масалан, жадвалли, графли, матнли ва ҳоказо. Маълумотлар ҳажмига қараб уларни сақлаш усуллари белгилаб олинади, масалан, катта ҳажмдаги маълумотлар учун Hadoop, Spark тизимлари, кичик ҳажмдаги маълумотлар учун эса Sql маълумотлар базалари бўлиши мумкин.
Кейинги босқичда маълумотлар тайёрланади ва у тозалаш, интеграция ва қайта ўзгартириш амалларини ўз ичига олади. Бу фазада маълумотлар кейинги босқич учун тайёрланади, яъни маълумотлардаги хатоликлар бартараф қилинади, ҳар хил типдаги маълумотлар ягона типга қайта ўзгартирилади. Бу босқичдаги энг биринчи амал бу маълумотларни тозалаш. Бунда маълумотлардаги хатоликлар тўғриланади. Хатоликнинг бир тури бу интерпретация хатоликлари, масалан инсон ёши кўрсатилган майдонда 200 ёки ундан юқори кўрсаткич бўлиши мумкин, албатта бу хатолик. Бундай хатоликларни оддий текшириш усули орқали аниқлаш мумкин. Агар ушбу маълумот лойиҳанинг натижаси учун жуда муҳим ҳисобланилса у ҳолда маълумот умуман базада ўчирилади акс ҳолда у ўртача қиймат билан алмаштирилади. Бошқа тур хатолик бу манбалардаги кўрсаткичларни ҳар хиллиги. Масалан, бир манбада кўрсаткич метрларда бошқа манбада эса сантиметрларда келтирилган бўлиши мумкин. Бу холда улар ягона бир турга ўзгартирилади. Бундан ташқари бўш қолдирилган маълумотлар, имловий хато маълумотлари учраши мумкин. Хатоликларни қидириш ва аниқлашда ҳар хил усуллар қўлланилади, масалан ҳақиқатга яқин бўлмаган маълумотларни нуқтавий граф кўринишида тасвирлаш орқали аниқлаш мумкин.
Data science жараёнининг кейинги босқичида маълумотлар чуқур ўрганиб чиқилади. Маълумотлар график кўринишда содда қабул қилинади, шу сабабли маълумотларга график усуллар қўлланилади. Бу босқичда кенг турдаги визуализация усуллари қўлланилади, оддий устунли диаграммалардан тортиб мураккаб тармоқ диаграммаларигача бўлган усуллар. Шунингдек интерактив диаграммалар қўлланилиши ҳам мумкин.
Бешинчи босқичда маълумотлар модели ишлаб чиқилади. Бу фаза аниқ мақсадга йўналтирилади, бу босқичда натижанинг қандай кўринишда бўлиши аниқланади. Бу босқичдаги қўлланиладиган усуллар машинали ўқиш, маълумотларни таҳлил қилиш ва статистика соҳаларидан олинган. Моделни қуриш итератив жараён бўлиб ҳисобланади. Моделни қуриш жараёни асосан уч фазадан ташкил топади: моделлаштириш усули ва ўзгарувчиларни танлаш, моделни ўринлаш, моделларни солиштириш. Моделга киритиладиган ўзгарувчилар тўртинчи босқичда маълумотларни тадқиқ қилинишида танлаб олинади. Қўйилган масалага мос тўғри моделни танлаш лойиҳанинг натижасини белгилаб беради. Модел танлангандан сўнг уни ўринлаш учун дастур ишлаб чиқилади. Юқорида айтиб ўтилганидек Python дастурлаш тилида бир қанча махсус кутубхоланалар ишлаб чиқилган, масалан, skicit-learn кутубхонаси. skicit-learn пакети орқали чизиқли регрессия, k-means ва бошқа усулларни осон қўлланиш мумкин. Бу пакет орқали моделлаштириш жараёни анча соддалашади. Агар тайёр моделлар орқали натижага эришиб бўлмаса у ҳолда тадқиқотчи ўзининг моделини дастурлашига тўгри келади. Моделлаштириш жараёнида зарур натижаларни олиш учун бир неча моделлар кетма-кет қўлланилиши мумкин.
Моделлаштириш босқичида ҳар хил турдаги моделлар қурилади, кейинги эса уларнинг чида бир неча критерияларга таяниб энг яхшиси танлаб олинади. Назорат танламаси энг эффектив моделни танлашга ёрдам беради. Назорат танламаси бу моделни қуриш жараёнида маълумотларни фойдаланилмаган бир қисми. У кейинчалик моделни баҳолаш учун ишлатилади. Яъни модель таниш бўлмаган маълумотлар билан ишлай олиши зарур. Назорат танламаси маълумотларни яратилган модель орқали текшириб чиқилади, уларнинг кутилган натижалардан қанча фарқ қилиши баҳоланади. Олинган натижалар орқали моделлар орасидан энг эффектив модель танлаб олинади.
Ниҳоят Data science жараёнининг охирги босқичида олинган натижаларни тақдим қилиш учун. Бунинг учун маълумотлар визуализацияси усуллари қўлланилади. Data science жараёнини бир неча марта қайта қўллаш зарур бўлиши мумкин. Таҳлил қилинган маълумотлар тез-тездан янгиланиб бориши мумкин. Бунинг учун амалга оширилган жараёнларни автоматлаштириш талаб қилинади. Жараён тўлиқ автоматлаштирилганда маълумотлар янгиланиши билан натижалар автомат генерация қилиниб борилади.
Адабиёт:
- Vasant Dhar, Data science and prediction / Dhar Vasant. — Текст: непосредственный // Communications of the ACM. — 2013. — № Vol. 56, 12. — С. 64–73.
- Дэви Силен, Основы Data Science и Big Data. Python и наука о данных. / Силен Дэви, Мейсман Арно, Али Мохамед. — Санкт-Петербург: Питер, 2017. — 336 c.