Sunday, January 12, 2020

Бүлэг 1. Компьютерээс өгөгдлийг сурах чадварыг өгөх



Бүлэг 1. Компьютерээс өгөгдлийг сурах чадварыг өгөх

Миний бодлоор, машин сургалт, өгөгдлийн мэдрэмжтэй алгоритмын шинжлэх ухаан, аппликэйшн нь компьютерийн бүх шинжлэх ухааны хамгийн сонирхолтой салбар юм!Бид мэдээлэл элбэг байдаг эрин үед амьдарч байна; машин сургалтын салбараас өөрөө сурах алгоритм ашиглан бид энэ өгөгдлийг мэдлэг болгон хувиргаж чадна. Сүүлийн жилүүдэд хөгжүүлэгдсэн олон тооны хүчирхэг нээлттэй эхийн сангуудын ачаар магадгүй машин сургалтын талбар руу нэвтрэх илүү сайн цаг бөгөөд  хэрхэн өгөгдлийн хэв загварыг цэгцлэх хүчирхэг алгоритмуудыг хэрэглэхийг суралцаж, ирээдүйн үйл явдлын тухайн таамаглалуудыг гаргаж байна.  

Энэ бүлэгт, та машин сургалтын ялгаатай төрлүүдийн үндсэн ойлголтыг суралцана. Холбогдох нэр томъёоны үндсэн танилцуулга болон практик асуудлыг шийдвэрлэхэд машин сургалтын техникийг амжилттай ашиглах үндэс суурийг хамтад нь тавина.

Энэ бүлэгт бид дараахь сэдвүүдийг хамрах болно:

Машин сургалтын ерөнхий ойлголтууд
Сургалтын гурван хэлбэр ба үндсэн нэр томъёо
Машин сургалтын системүүд загварчлалын амжилттай блокуудыг байгуулах
Мэдээллийн дүн шинжилгээ хийх, машин сургалтын зорилгоор Python-ийг суулгаж, тохируулах



Мэдээллийг мэдлэг болгон хувиргах ухаалаг машин бүтээх

Орчин үеийн технологийн эрин зуунд бидэнд асар их нөөцтэй нэг нөөц бий: их хэмжээний бүтэцтэй, бүтэцлэгдээгүй мэдээлэл. Хорьдугаар зууны хоёрдугаар хагаст машин сургалт нь таамаглал дэвшүүлэхийн тулд өгөгдлөөс мэдлэг олж авсан бие даан суралцах алгоритмуудыг хамарсан Хиймэл Оюун ухааны (AI) дэд салбар болж хөгжжээ. Маш олон тооны өгөгдлийг дүн шинжилгээ хийхээс гараар дүрмийг гаргаж, загвар бүтээхийг хүнээс шаардахын оронд машин сургалт нь таамагласан загваруудын гүйцэтгэлийг аажмаар сайжруулж, өгөгдөл дээр суурилсан шийдвэр гаргахын тулд өгөгдөл дэх мэдлэгийг олж авах илүү үр дүнтэй хувилбарыг санал болгодог. Компьютерийн шинжлэх ухааны судалгаанд машин сургалт нь чухал ач холбогдолтой болж байгаа төдийгүй бидний өдөр тутмын амьдралд улам бүр чухал үүрэг гүйцэтгэж байна. Машин сургалтын ачаар бат имэйлийн спам шүүлтүүр, тохиромжтой текст, дуу таних програм хангамж, итгэлтэй вэб хайлтын систем, шатрын тоглоом тоглох програмууд хийж мөн удахгүй найдвартай, аюулгүй, үр ашигтай өөрөө жолоодох машинаар зугаална..




Машин сургалтын ялгаатай гурван хэлбэр


Энэ хэсэгт бид машин сургалтын гурван хэлбэрийг авч үзэх болно: хяналттай суралцаххяналтгүй суралцахбэхжүүлэх сургалтБид гурван өөр сургалтын төрлүүдийн үндсэн ялгааг олж мэдэх бөгөөд концепцийн жишээнүүдийг ашиглан практик асуудлын домэйнүүдийн талаархи зөн совин боловсруулна.





Хяналттай суралцах замаар ирээдүйн талаар таамаглал дэвшүүлэх

Хяналттай сургалтанд хамрагдах гол зорилго нь хараагүй эсвэл ирээдүйн мэдээллийн талаар урьдчилан таамаглах боломжийг олгодог шошго бүхий сургалтын өгөгдлийн загвараас суралцах явдал юм. Энд хяналт тавьдаг нэр томъёо нь хүссэн гаралтын дохио (шошго) аль хэдийн мэдэгдэж байсан дээжийн багцыг хэлдэг.







Имэйлийн спам шүүлтүүрийн жишээг авч үзэхэд, бид хаяглагдсан мэйлүүдийн түүвэрийг хяналттай машин сургалтын алгоритмыг ашиглан сургаж, имэйлүүд спам болон спам биш гэж зөв тэмдэглэгдэж байгаа,  шинж имэйлүүд энэ хоёр ангилллын аль алинд нь хамаарах эсэхийг таамаглана. Өмнөх имэйл спам шүүлтүүрийн жишээ шиг хянаттай сургалтын даалгавар хаягийг бүлгийг салгахыг ангиллалын даалгавар гэж нэрлэдэг. Хяналттай сургалтын өөр нэг дэд катагори бол регресс бөгөөд үр дүнгийн дохио нь тасралтгүй утгууд :



Sunday, January 5, 2020

MACHINE LEARNING COURCE

MACHINE LEARNING

Machine Learning and Artificial Intelligence (AI) are everywhere. The course is aimed to teach business professionals complex theory, algorithms and coding libraries in a simple way.
The topics in this course come from an analysis of real requirements in data scientist job listings from the biggest tech employers.
The course will be structured in the following way:
  • Part 1: Data Preprocessing.
  • Part 2: Regression.
  • Part 3: Classification.
  • Part 4: Clustering (K-Means, Hierarchical Clustering..
  • Part 5: Association Rule Learning (Apriori, Eclat).
  • Part 6: Reinforcement Learning (Upper Confidence Bound, Thompson Sampling).
  • Part 7: Natural Language Processing (Bag-of-words model and algorithms for NLP).
  • Part 8: Deep Learning (Artificial Neural Networks, Convolutional Neural Networks).
  • Part 9: Dimensionality Reduction (PCA, LDA, Kernel PCA).
  • Part 10: Model Selection & Boosting (k-fold Cross Validation, Parameter Tuning, Grid Search, XGBoost).
By the end of the course, business professionals will be able to:
  • Make accurate predictions.
  • Make robust Machine Learning models.
  • Use Machine Learning for personal purposes.
  • Handle advanced techniques like Dimensionality Reduction.
  • Build an army of powerful Machine Learning models and know how to combine them to solve any problem.
  • Have a great intuition of many Machine Learning models.
  • Make powerful analysis.
  • Create strong added value to your business.
  • Handle specific topics like Reinforcement Learning, NLP and Deep Learning.
  • Know which Machine Learning model to choose for each type of problem.

Машины сургалтанд энгийн шугаман регресс

Энгийн шугаман регресс гэдэг нь хамааралтай хувьсагч ба дан бие даасан хувьсагч хоёрын хоорондын хамаарлыг загварчилдаг Regression алгоритмын нэг төрөл юм. Энгийн шугаман регрессийн загвараар үзүүлсэн харилцаа нь шугаман буюу налуу шулуун шугам тул түүнийг энгийн шугаман регресс гэж нэрлэдэг.
Энгийн шугаман регрессийн гол цэг бол хамааралтай хувьсагч нь тасралтгүй / бодит утга байх ёстой . Гэсэн хэдий ч бие даасан хувьсагчийг тасралтгүй эсвэл категори утгуудаар хэмжиж болно.
Энгийн шугаман регресс алгоритм нь үндсэндээ хоёр зорилттой байдаг.
  • Хоёр хувьсагчийн хоорондын хамаарлыг загварчлах. Орлого зарлага, туршлага, цалингийн хоорондын хамаарал гэх мэт.
  • Шинэ ажиглалтуудыг урьдчилан таамаглах. Температурын дагуу цаг агаарын урьдчилсан мэдээ, жилийн хөрөнгө оруулалтын дагуу компанийн орлого гэх мэт.

Шугаман регрессийн энгийн загвар:

Энгийн шугаман регрессийн загварыг дараах томъёогоор ашиглаж болно.
y = a 0 + a 1 x + ε байна 
Хаана,
a0 = Энэ нь Регрессийн шугамын огтлолцол юм (x = 0-ийг оруулаад авч болно)
a1 = Энэ нь шугам нэмэгдэж, буурч байгаа эсэхийг харуулсан регрессийн шугамын налуу юм.
ε = Алдааны нэр томъёо. (Сайн загварын хувьд энэ нь үл тоомсорлох болно)

Python ашиглан энгийн шугаман регрессийн алгоритмыг хэрэгжүүлэх

Энгийн шугаман регрессийн асуудлын талаархи жишээ:
Энд бид цалингийн (хамааралтай хувьсагч) ба туршлага (Бие даасан хувьсагч) гэсэн хоёр хувьсагч бүхий мэдээллийн санг авч байна. Энэ асуудлын зорилго нь:
  • Эдгээр хоёр хувьсагчийн хооронд ямар нэгэн хамаарал байгаа эсэхийг бид мэдэхийг хүсч байна
  • Бид мэдээллийн санд хамгийн тохирох шугамыг олох болно.
  • Хамааралтай хувьсагчийг хэрхэн өөрчлөх замаар хамааралтай хувьсагч хэрхэн өөрчлөгдөж байгааг харуулав.
Энэ хэсэгт бид Энгийн шугаман регрессийн загварыг бий болгож, эдгээр хоёр хувьсагчийн хоорондын хамаарлыг илэрхийлэх хамгийн сайн тохирох шугамыг олох болно.
Python-ыг ашиглан машин сурахад энгийн шугаман регрессийн загварыг хэрэгжүүлэхийн тулд бид дараахь алхамуудыг дагаж мөрдөх шаардлагатай.
Алхам 1: Өгөгдлийг урьдчилан боловсруулах
Энгийн шугаман регрессийн загварыг бий болгох эхний алхам бол өгөгдлийг урьдчилан боловсруулах явдал юм. Үүнийг бид энэ зааварт өмнө нь хийж байсан. Гэхдээ дараах алхмуудад өгөгдсөн зарим өөрчлөлтүүд гарах болно.
  • Нэгдүгээрт, бид мэдээллийн баазыг ачаалах, графикийн схем, Энгийн шугаман регрессийн загварыг бий болгоход туслах гурван чухал номын санг импортлох болно.
  1.  numpy-г nm гэж   импортлох
  2. импортын  MTP гэж matplotlib.pyplot  
  3.  pandas-г pd хэлбэрээр   импортлох
  • Дараа нь бид өгөгдлийн санг манай код руу ачаална.
  1. data_set = pd.read_csv ( 'Salary_Data.csv' )  
Дээрх кодын мөрийг (ctrl + ENTER) ажиллуулснаар Spyder IDE дэлгэц дээрх өгөгдлийн өгөгдлийг хувьсагч хайх сонголтыг дарна уу.
Машины сургалтанд энгийн шугаман регресс
Дээрх үр дүн нь цалингийн болон туршлага гэсэн хоёр хувьсагч бүхий мэдээллийн санг харуулж байна.

Тэмдэглэл: Spyder IDE-д код файлыг агуулсан хавтас нь ажлын директор хэлбэрээр хадгалагдах ёстой бөгөөд мэдээллийн сан эсвэл csv файл нь ижил хавтсанд байх ёстой.

  • Үүний дараа өгөгдсөн мэдээллийн баазаас хамааралтай ба бие даасан хувьсагчдыг гаргаж авах хэрэгтэй. Бие даасан хувьсагч нь олон жилийн туршлага бөгөөд хамааралтай хувьсагч нь цалин юм. Үүний код доор байна:
  1. x = data_set.iloc [:,: - ]. утга  
  2. y = data_set.iloc [:,  ]. утга   
Дээрх код мөрүүд дээр x хувьсагчийн хувьд бид өгөгдлийн сангаас хамгийн сүүлийн баганыг устгахыг хүссэн тул -1 утга авсан. Y хувьсагчийн хувьд бид 2 утгыг параметр болгон авсан, учир нь хоёрдох баганыг гаргаж авах, индексжүүлэх нь тэгээс эхэлнэ.
Дээрх мөрийн мөрийг ажиллуулснаар X ба Y хувьсагчийн гарцыг дараах байдлаар авна.
Машины сургалтанд энгийн шугаман регресс
Дээрх гаралтын зурган дээр X (бие даасан) хувьсагчийг харж болох ба Y (хамааралтай) хувьсагчийг өгөгдсөн мэдээллийн баазаас гаргаж авсан болно.
  • Дараа нь тестийн ба сургалтын багцад хоёр хувьсагчийг хуваана. Бид 30 ажиглалт хийсэн тул сургалтын багцад 20, тестийн багцад 10 ажиглалт хийх болно. Бид сургалтын өгөгдлийн тусламжтайгаар загвараа сурч, дараа нь загвар өгөгдлийн санг ашиглан загварыг туршихын тулд өгөгдлийн санг хувааж байна. Үүний кодыг доор өгөв.
  1. # Сургалтын ба тестийн багцад өгөгдлийн санг хуваах.  
  2. sklearn.model_selection  импортын  галт тэрэг_test_split  
  3. x_train, x_test, y_train, y_test = train_test_split (X, Y, test_size =  3- , random_state = )  
Дээрх кодыг хийснээр бид x-test, x-train, y-test, y-train data-г авах болно. Дараах зургуудыг авч үзье.
Тест-мэдээллийн сан:
Машины сургалтанд энгийн шугаман регресс
Сургалтын мэдээллийн сан:
Машины сургалтанд энгийн шугаман регресс
  • Энгийн шугаман регрессийн хувьд бид Feature Scaling ашиглахгүй. Python номын сангууд зарим тохиолдолд үүнийг анхаардаг тул энд үүнийг хийх шаардлагагүй болно. Одоо манай мэдээллийн сан түүн дээр ажиллахад бэлэн байгаа бөгөөд өгөгдсөн асуудлын энгийн шугаман регрессийн загварыг эхлүүлэх гэж байна.
Алхам-2: Энгийн шугаман регрессийг сургалтын багцад багтаах.
Одоо хоёрдахь алхам бол манай загварыг сургалтын мэдээллийн санд нийцүүлэх явдал юм. Үүний тулд бид scearit learn- аас linear_model номын сангийн LinearRegression ангиудыг импортолно Анги импортлосны дараа регрессор нэртэй нэртэй объектыг үүсгэх гэж байна Үүний кодыг доор өгөв.
  1. # Энгийн шугаман регрессийн загварыг сургалтын мэдээллийн санд оруулах  
  2. sklearn.linear_model-аас  импортын  LinearRegression  
  3. регрессор = LinearRegression ()  
  4. regressor.fit (x_train, y_train)  
Дээрх кодонд бид энгийн (Linear Regression) объектыг сургалтын багцад тааруулахын тулд fit () аргыг ашигласан. Фит () функцийн хувьд бид хамааралтай ба бие даасан хувьсагчдад зориулсан сургалтын өгөгдлийн сан болох x_train ба y_train-ийг дамжуулсан. Загвар нь урьдчилан таамаглагч ба зорилтот хувьсагчдын хоорондын хамаарлыг хялбархан мэдэж сурахын тулд бид регрессийн объектоо сургалтын багцад суурилуулсан. Дээрх кодын мөрүүдийг гүйцэтгэсний дараа бид дараах гаралтыг авна.
Үр дүн:
Гарч байгаа [7]: LinearRegression (copy_X = Үнэн, fit_intercept = Үнэн, n_jobs = Аль нь ч биш, хэвийн болгох = Худал)
Алхам: 3. Туршилтын үр дүнг урьдчилан таамаглах:
хамааралтай (цалин) ба бие даасан хувьсагч (Туршлага). Тиймээс одоо манай загвар шинэ ажиглалтын үр дүнг урьдчилан таамаглахад бэлэн байна. Энэ алхам дээр бид загвар өгөгдлийг туршилтын өгөгдлийн сан (шинэ ажиглалт) өгөх бөгөөд энэ нь зөв гаралтыг урьдчилан таамаглаж чадах эсэхийг шалгах боломжтой болно.
Бид таамаглал вектор бий болгоно y_pred болон x_pred сургалтын багц туршилтын Датасетийн таамаглал болон урьдчилан тус тус агуулсан байдаг болно.
  1. # Туршилт ба Сургалтын багц үр дүнг үнэлэх  
  2. y_pred = regressor.predict (x_test)  
  3. x_pred = regressor.predict (x_train)  
Дээрх код мөрүүдийг ажиллуулахдаа y_pred ба x_pred гэсэн хоёр хувьсагчийг сургалтын багц болон тестийн багцад зориулагдсан цалингийн урьдчилсан тооцоог агуулсан хувьсагч судлаачийн хувилбаруудад бий болгоно.
Үр дүн:
Та IDE дахь хувьсагчийг судлах сонголтыг дарж хувьсагчийг шалгаж, мөн y_pred ба y_test-ийн утгыг харьцуулж үр дүнг харьцуулж болно. Эдгээр утгуудыг харьцуулж үзвэл манай загвар хэр сайн ажиллаж байгааг шалгаж чадна.

Алхам: 4. Сургалтын үр дүнг төсөөлөх:
Одоо энэ алхамаар бид сургалтын үр дүнг төсөөлөх болно. Үүний тулд бид урьдчилан боловсруулалтын шатанд аль хэдийн импортолсон pyplot номын сангийн scatter () функцийг ашиглах болно. Тархалтын () функц нь ажиглалт нь тарсан газрыг бий болгох болно.
X тэнхлэгт бид ажилчдын олон жилийн туршлагыг, ажилчдын цалингийн тухай у-тэнхлэгийг оруулна. Функцээр бид сургалтын багцын бодит утгыг дамжуулж өгөх болно. Энэ нь жилийн туршлага x_train, сургалтын цалин, сургалтын багц, ажиглалтын өнгө гэсэн үг юм. Энд бид ажиглалтад зориулж ногоон өнгийг авч байна, гэхдээ энэ нь тухайн сонголтын дагуу ямар ч өнгө байж болно.
Одоо бид регрессийн шугамыг зурах хэрэгтэй бөгөөд үүний тулд бид pyplot номын сангийн plot () функцийг ашиглана. Энэ функцээр бид сургалтын багц туршлага, сургалтын багц x_pred, мөрний өнгө зэрэг олон жилийн туршлагыг дамжуулах болно.
Дараа нь, бид талбайн нэрийг өгнө. Тиймээс энд бид pyplot номын сангийн гарчиг () функцийг ашиглаж нэрийг нь ("Цалин, туршлага (Сургалтын мэдээллийн сан )") дамжуулна .
Үүний дараа бид xlabel () ба ylabel () функцийг ашиглан x-тэнхлэг ба y тэнхлэгт шошго өгнө .
Эцэст нь бид дээрх бүх зүйлийг show () ашиглан график хэлбэрээр дүрслэх болно. Кодыг дор өгөв
  1. mtp.scatter (x_train, y_train, color = "green" )   
  2. mtp.plot (x_train, x_pred, color = "red" )    
  3. mtp.title ( "Цалин, туршлага (Сургалтын мэдээллийн сан" ))  
  4. mtp.xlabel ( "Олон жилийн туршлага" )  
  5. mtp.ylabel ( "Цалин ( Рупийд )" )  
  6. Mtp.show ()   
Үр дүн:
Дээрх кодын мөрүүдийг гүйцэтгэснээр бид дараахь график схемийг үр дүн болгож авна.
Машины сургалтанд энгийн шугаман регресс
Дээрх зураг дээр бид бодит цэгүүдийн ажиглалтын цэгүүдийг ногоон цэгүүд болон урьдчилан тооцоолсон утгыг улаан регрессийн шугамаар бүрхэж байгааг харж болно. Регрессийн шугам нь хамааралтай ба бие даасан хувьсагчийн хоорондын хамаарлыг харуулж байна.
Шугамын зөв тохирох байдлыг бодит утга ба урьдчилан таамагласан утгуудын хоорондын зөрүүг тооцоолж ажиглаж болно. Гэхдээ дээр дурьдсан зургаас харахад ажиглалтын ихэнх нь регрессийн шугамд ойрхон байгаа тул манай загвар сургалтын багцад тохирсон байдаг.
Алхам: 5. Тестийн үр дүнг төсөөлөх:
Өмнөх алхам дээр бид загварынхаа гүйцэтгэлийг сургалтын багц дээр дүрслэн харуулсан болно. Одоо бид Тестийн багцад зориулж ижил зүйлийг хийх болно. Бүрэн код нь дээрх кодтой адил хэвээр байх болно, үүнээс бусад тохиолдолд бид x_train ба y_train-ийн оронд x_test, y_test-ийг ашиглах болно.
Энд бид ажиглалт, регрессийн шугамын өнгийг хоёр талбайн хооронд ялгахын тулд өөрчилж байгаа боловч энэ нь заавал биш юм.
  1. # Тестийн үр дүнг # үзүүлэх  
  2. mtp.scatter (x_test, y_test, color = "blue" )   
  3. mtp.plot (x_train, x_pred, color = "red" )    
  4. mtp.title ( "Цалин, туршлага (Туршилтын мэдээллийн сан" ))  
  5. mtp.xlabel ( "Олон жилийн туршлага" )  
  6. mtp.ylabel ( "Цалин ( Рупийд )" )  
  7. Mtp.show ()  
Үр дүн:
Дээрх мөрийн мөрийг ажиллуулснаар үр дүнг дараах байдлаар авна.
Машины сургалтанд энгийн шугаман регресс
Дээрх зураг дээр цэнхэр өнгөний талаархи ажиглалтууд байдаг бөгөөд урьдчилсан мэдээг улаан регрессийн шугамаар өгдөг. Бидний харж байгаагаар ажиглалтын ихэнх хэсэг нь регрессийн шугамтай ойрхон тул бидний Энгийн шугаман регресс бол сайн загвар бөгөөд сайн таамаглал гаргах чадвартай гэж хэлж болно.

Машины сургалтанд шугаман регресс

Машины сургалтанд шугаман регресс

Шугаман регресс бол хамгийн хялбар бөгөөд түгээмэл хэрэглэгддэг Machine Learning алгоритмуудын нэг юм. Энэ нь урьдчилан таамаглах дүн шинжилгээ хийхэд ашигладаг статистикийн арга юм. Шугаман регресс нь борлуулалт, цалин, нас, бүтээгдэхүүний үнэ гэх мэт тасралтгүй / бодит эсвэл тоон хувьсагчдын таамаглалыг гаргадаг .
Шугаман регрессийн алгоритм нь хамааралтай (y) ба нэгээс дээш бие даасан (y) хувьсагчдын хоорондох шугаман холбоог харуулдаг тул шугаман регресс гэж нэрлэдэг. Шугаман регресс нь шугаман харьцааг харуулдаг бөгөөд энэ нь хамааралтай хувьсагчийн утга нь бие даасан хувьсагчийн утгын дагуу хэрхэн өөрчлөгдөж байгааг олж мэдэх болно гэсэн үг юм.
Шугаман регрессийн загвар нь хувьсагчдын хоорондын хамаарлыг илэрхийлсэн налуу шулуун шугамыг өгдөг. Доорх зургийг үзье.
Машины сургалтанд шугаман регресс
Математикийн хувьд бид шугаман регрессийг дараах байдлаар илэрхийлж болно.
y = a 0 + a 1 x + ε байна
Энд,
Y = Хараат бус хувьсагч (Зорилтот хувьсагч)
X = Бие даасан хувьсах (урьдчилан таамаглах хувьсагч)
a0 = шугамын огтлолцол (нэмэлт эрх чөлөө өгдөг)
a1 = Шугаман регрессийн коэффициент (оролтын утга тус бүрт масштабтай хүчин зүйл).
ε = санамсаргүй алдаа
X ба y хувьсагчийн утга нь шугаман регрессийн загвар дүрслэлд зориулсан сургалтын мэдээллийн өгөгдөл юм.

Шугаман регрессийн төрлүүд

Шугаман регрессийг алгоритмын хоёр төрөлд хувааж болно.
  • Энгийн шугаман регресс:
    Хэрэв тоон хамааралтай хувьсагчийн утгыг таамаглахын тулд дан ганц бие даасан хувьсагч ашиглавал ийм шугаман регрессийн алгоритмыг энгийн шугаман регресс гэж нэрлэдэг.
  • Олон шугаман регресс:
    Хэрэв тооноос хамааралтай хувьсагчийн утгыг таамаглахын тулд нэгээс олон бие даасан хувьсагч ашигладаг бол Шугаман регрессийн алгоритмыг олон тооны шугаман регресс гэж нэрлэдэг.

Шугаман регрессийн шугам

Хамааралтай ба бие даасан хувьсагчдын хоорондын холбоог харуулсан шугаман шугамыг регрессийн шугам гэж нэрлэдэг Регрессийн шугам нь хоёр төрлийн харилцааг харуулж чадна.
  • Эерэг шугаман харилцаа:
    Хэрэв хамааралтай хувьсагч нь Y тэнхлэгт, бие даасан хувьсагч нь X тэнхлэгт өсөх юм бол ийм харьцааг Эерэг шугаман харилцаа гэж нэрлэнэ.
Машины сургалтанд шугаман регресс
  • Сөрөг шугаман харилцаа:
    Хэрэв хамааралтай хувьсагч нь Y тэнхлэг дээр буурч, X тэнхлэг дээр бие даасан хувьсагч нэмэгдэж байвал ийм харьцааг сөрөг шугаман харилцаа гэж нэрлэдэг.
Машины сургалтанд шугаман регресс

Хамгийн сайн тохирох шугамыг хайж олох:

Шугаман регресстэй ажиллахдаа бидний хамгийн гол зорилго бол хамгийн сайн тохирох шугамыг олох явдал бөгөөд энэ нь урьдчилан тооцоолсон утга ба бодит утгуудын хоорондох алдааг багасгах ёстой гэсэн үг юм. Хамгийн сайн тохирох шугам нь хамгийн бага алдаатай байх болно.
Жингийн өөр өөр утга эсвэл шугамын коэффициент (a 0 , a 1 ) нь регрессийн өөр шугамыг өгдөг тул хамгийн тохиромжтой тохирох шугамыг олохын тулд 0 ба 1- ийн хамгийн сайн утгыг тооцоолох хэрэгтэй. Тиймээс үүнийг бид тооцоолох хэрэгтэй. өртгийн функцийг ашиглах.

Зардлын функц-

  • Жингийн өөр өөр утга эсвэл шугамын коэффициент (a 0 , a 1 ) нь регрессийн өөр өөр мөрийг өгдөг бөгөөд зардлын функц нь хамгийн сайн тохирох шугамын коэффициентийн утгыг тооцоолоход ашиглагддаг.
  • Зардал функц нь регрессийн коэффициент эсвэл жинг оновчтой болгодог. Энэ нь шугаман регрессийн загварыг хэрхэн гүйцэтгэж байгааг хэмждэг.
  • Бид оролтын хувьсагчийг гаралтын хувьсагчтай харьцуулж харуулсан зургийн нарийвчлалыг олохын тулд зардлын функцийг ашиглаж болно Энэхүү зураглалын функцийг Гипотези функц гэж нэрлэдэг .
Шугаман регрессийн хувьд бид дундаж квадрат алдаа (MSE) өртгийн функцийг ашигладаг бөгөөд энэ нь урьдчилан тооцоолсон утга ба бодит утгуудын хооронд гарсан квадрат алдааны дундаж үзүүлэлт юм. Үүнийг дараах байдлаар бичиж болно.
Дээрх шугаман тэгшитгэлийн хувьд MSE-г дараахь байдлаар тооцоолж болно.
Машины сургалтанд шугаман регресс
Хаана,
N = Ажиглалтын нийт тоо
Yi = Бодит утга
(a1x i + a 0 ) = Урьдчилсан утга.
Үлдэгдэл: Бодит утга ба урьдчилан тооцоолсон утгуудын хоорондын зайг үлдэгдэл гэж нэрлэдэг. Хэрэв ажиглагдсан цэгүүд нь регрессийн шугамаас хол байвал үлдэгдэл өндөр байх тул зардлын функц өндөр байх болно. Хэрэв тараагдсан цэгүүд нь регрессийн шугамтай ойрхон байвал үлдэгдэл нь бага байх тул зардлын функцтэй болно.

Градиент үе:

  • Градиент уналт нь өртгийн функцийн градиентийг тооцоолох замаар MSE-г багасгахад ашигладаг.
  • Регрессийн загвар нь зардлын функцийг бууруулж шугамын коэффициентийг шинэчлэх зорилгоор градиент түвшинг ашигладаг.
  • Энэ нь коэффициентийн утгыг санамсаргүй байдлаар сонгох замаар хийгддэг бөгөөд дараа нь хамгийн бага өртөгтэй функцэд хүрэхийн тулд утгуудыг дахин шинэчлэдэг.

Загварын гүйцэтгэл:

Сайхан байдал нь регрессийн шугам нь ажиглалтын багцад хэр зэрэг нийцэхийг тодорхойлдог. Төрөл бүрийн загваруудаас хамгийн сайн загварыг олох үйл явцыг оновчлол гэж нэрлэдэг Үүнд дараахь арга замаар хүрч болно.
1. R-квадрат арга:
  • R-квадрат бол тохирох чанарыг тодорхойлдог статистикийн арга юм.
  • Энэ нь хамааралтай ба бие даасан хувьсагчдын хоорондын харилцааны бат бөх чанарыг 0-100% -ийн масштабаар хэмждэг.
  • R-квадратын өндөр утга нь урьдчилан тооцоолсон утга ба бодит утгуудын хоорондох ялгаа бага байгаа тул сайн загварыг илэрхийлнэ.
  • Үүнийг тодорхойлох коэффициент буюу олон регрессийн хувьд олон тодорхойлох коэффициент гэж нэрлэдэг .
  • Үүнийг дараах томъёогоор тооцоолж болно.
Машины сургалтанд шугаман регресс

Шугаман регрессийн таамаглал

Шугаман регрессийн зарим чухал таамаглалуудыг доор харуулав. Шугаман регрессийн загварыг бий болгохдоо эдгээр нь албан ёсны шалгалтууд бөгөөд өгөгдсөн мэдээллийн сангаас хамгийн сайн үр дүнд хүрэх боломжийг олгодог.
  • Онцлог шинж чанар ба зорилгын хоорондын шугаман хамаарал:
    Шугаман регресс нь хамааралтай ба бие даасан хувьсагчдын шугаман хамаарлыг тооцно.
  • Онцлог шинж чанаруудын хоорондох бага эсвэл огт байдаггүй: Олон
    өнцөгт байдал нь бие даасан хувьсагчдын хоорондох өндөр хамааралтай гэсэн үг юм. Олон өнцөгт байдлаас шалтгаалан урьдчилан таамаглагч ба зорилтот хувьсагчдын хоорондох жинхэнэ харьцааг олоход хэцүү байж болно. Эсвэл бид урьдчилан таамаглаж буй хувьсагч нь зорилтот хувьсагч нөлөөлж буйг нь тодорхойлоход хэцүү байдаг гэж хэлж болно. Тиймээс, загвар нь шинж чанарууд эсвэл бие даасан хувьсагчдын хоорондох бага эсвэл огтгүй олон утгыг агуулдаг гэж үздэг.
  • Хомосцеастикийн таамаглал:
    Хомосцеастик нь алдааны нэр томъёо нь бие даасан хувьсагчдын бүх утгатай ижил байдаг нөхцөл байдал юм. Хососдестикийн хувьд тархалтын талбайд өгөгдлийг тодорхой хуваарилах загвар байх ёсгүй.
  • Алдааны нэр томъёоны хэвийн тархалт:
    Шугаман регресс нь алдааны нэр томъёо нь хэвийн тархалтын хэв маягийг дагаж мөрдөх ёстой гэж үздэг. Хэрэв алдааны нэр томъёог ердийн байдлаар түгээдэггүй бол итгэлцлийн интервал хэт өргөн эсвэл хэт нарийхан байх бөгөөд энэ нь коэффициентийг олоход хүндрэл учруулж болзошгүй юм.
    Үүнийг qq схем ашиглан шалгаж болно Хэрэв хуйвалдаан нь ямар ч хазайлтгүйгээр шулуун шугамыг харуулсан бол алдаа нь хэвийн тархсан гэсэн үг юм.
  • Автокорреляци байхгүй:
    Шугаман регрессийн загвар нь алдааны хувьд автокреляци байхгүй гэж үздэг. Хэрэв алдааны нэр томъёонд ямар нэгэн хамаарал байгаа бол энэ нь загварын нарийвчлалыг эрс бууруулна. Үлдэгдэл алдаануудын хоорондын хамаарал байгаа тохиолдолд автокорреляци ихэвчлэн тохиолддог.

Машины сургалтанд регрессийн шинжилгээ


Регрессийн шинжилгээ нь хамааралтай (зорилтот) ба бие даасан (урьдчилан таамаглах) хувьсагчдын нэг буюу хэд хэдэн бие даасан хувьсагчдын хоорондын хамаарлыг загварчлах статистик арга юм. Тодруулбал, Регрессийн шинжилгээ нь хамааралтай хувьсагчийн утга нь бие даасан хувьсагчтай хэрхэн харьцаж өөрчлөгдөж байгааг ойлгоход тусалдаг. Энэ нь температур, нас, цалин, үнэ гэх мэт тасралтгүй / бодит утгыг урьдчилан таамагладаг .
Бид дараах жишгийг ашиглан регрессийн шинжилгээний ойлголтыг ойлгож чадна.
Жишээ: Жил бүр янз бүрийн сурталчилгаа хийдэг, үүнийхээ дагуу борлуулалт хийдэг маркетингийн компани А байна гэж бодъё. Дараахь жагсаалтад компанийн сүүлийн 5 жилийн хугацаанд хийсэн сурталчилгаа болон холбогдох борлуулалтыг харуулав.
Машины сургалтанд регрессийн шинжилгээ
Одоо тус компани 2019 онд 200 долларын сурталчилгааг хийхийг хүсч, энэ жилийн борлуулалтын талаархи таамаглалыг мэдэхийг хүсч байна . Тиймээс машин сурахад ийм төрлийн урьдчилан таамаглах асуудлыг шийдвэрлэхийн тулд регрессийн шинжилгээ хийх шаардлагатай байна.
Регрессийн нь юм хяналттай сургалтын техник хувьсагчдын хоорондын хамаарлыг олоход нь тусалдаг, тасралтгүй гаралт хувьсагч нэг буюу хэд хэдэн шалгуур Хувьсагчууд дээр үндэслэсэн урьдчилан таамаглах боломжийг бидэнд олгодог. Энэ нь голчлон урьдчилан таамаглах, урьдчилан таамаглах, цаг хугацааны цувралыг загварчлах, хувьсагчдын хоорондын учир шалтгааны нөлөөллийн хамаарлыг тодорхойлоход ашигладаг .
Регрессийн хувьд бид өгөгдсөн өгөгдлийн цэгүүдэд хамгийн сайн тохирох хувьсагчдын хоорондох графикийг байрлуулж, энэ схемийг ашиглан машин сургалтын загвар нь өгөгдлийг урьдчилан таамаглах боломжтой болно. Энгийн үгээр хэлбэл "Регресс нь зорилтот-графикийн график дээрх бүх өгөгдлийн цэгүүдээр дамждаг шугам эсвэл муруйг харуулна. Ингэснээр өгөгдлийн цэгүүд ба регрессийн шугамын хоорондох босоо зай хамгийн бага байх болно." Өгөгдлийн цэгүүд болон шугамын хоорондох зай нь загвар нь хүчтэй харилцааг олж авсан эсэхээс үл хамаарна.
Регрессийн зарим жишээг дурдаж болно.
  • Температур болон бусад хүчин зүйлсийг ашиглан бороо орохыг урьдчилан таамаглах
  • Зах зээлийн чиг хандлагыг тодорхойлох
  • Хурдны жолоодлогын улмаас зам тээврийн ослын урьдчилсан таамаглал.

Регрессийн шинжилгээтэй холбоотой нэр томъёо:

  • Хараат бус хувьсагч: Урьдчилан таамаглах эсвэл ойлгохыг хүсч буй Регрессийн шинжилгээний гол хүчин зүйлийг хамааралтай хувьсагч гэж нэрлэдэг. Үүнийг зорилтот хувьсагч гэж нэрлэдэг .
  • Бие даасан Хувьсах: хамааралтай хувьсагчуудыг нөлөөлж буюу хүчин зүйл хамааралтай хувьсагч бие даасан хувьсагч гэж нэрлэдэг нь мөн гэж нэрлэдэг, утгуудыг урьдчилан таамаглахад ашиглаж байгаа шалгуур .
  • Гаднах компани: Outlier нь ажиглагдсан бусад утгуудтай харьцуулахад маш бага эсвэл маш өндөр утгын аль алиныг нь агуулдаг ажиглалт юм. Гадны худалдаачин үр дүнд нь саад учруулж болзошгүй тул үүнээс зайлсхийх хэрэгтэй.
  • Multicollinearity: Хэрэв бие даасан хувьсагчид бусад хувьсагчдаас бие биетэйгээ маш их хамааралтай бол ийм нөхцөлийг Multicollinearity гэж нэрлэдэг. Энэ нь хамгийн их нөлөөлдөг хувьсагчийг эрэмбэлэх явцад асуудал үүсгэдэг тул энэ нь мэдээллийн санд байх ёсгүй.
  • Дутуу тохирох ба хэт ачаалал: Хэрэв бидний алгоритм нь сургалтын өгөгдлийн сантай сайн ажилладаг боловч тестийн өгөгдлийн системтэй сайн тохирдоггүй бол ийм асуудлыг Overfitting гэж нэрлэдэг Хэрэв бидний алгоритм нь сургалтын мэдээллийн дататай ч сайн ажиллахгүй бол ийм асуудлыг дутуу дулимаг гэж нэрлэдэг .

Бид яагаад Регрессийн шинжилгээг ашигладаг вэ?

Дээр дурдсанчлан, регрессийн шинжилгээ нь тасралтгүй хувьсагчийг урьдчилан таамаглахад тусалдаг. Бодит ертөнцөд цаг агаарын байдал, борлуулалтын таамаглал, маркетингийн чиг хандлага гэх мэт ирээдүйн талаархи урьдчилсан таамаглал хэрэгтэй янз бүрийн хувилбарууд байдаг бөгөөд ийм тохиолдолд таамаглалыг илүү нарийвчлалтай хийх боломжтой технологи хэрэгтэй болно. Ийм тохиолдолд бидэнд статистикийн арга бөгөөд машин сургалт, мэдээллийн шинжлэх ухаанд ашигладаг регресс анализ хэрэгтэй. Регрессийн шинжилгээг ашиглах өөр бусад шалтгааныг доор харуулав.
  • Регресс нь зорилтот болон бие даасан хувьсагч хоёрын хоорондын хамаарлыг тооцдог.
  • Энэ нь өгөгдлийн чиг хандлагыг олоход ашиглагддаг.
  • Энэ нь бодит / тасралтгүй утгыг урьдчилан таамаглахад тусална.
  • Регрессийг хийснээр бид хамгийн чухал хүчин зүйл, хамгийн бага чухал хүчин зүйл, бусад хүчин зүйл тус бүр хэрхэн нөлөөлж байгааг найдвартай тодорхойлж чадна .

Регрессийн төрлүүд

Мэдээллийн шинжлэх ухаан, машин судлалд ашигладаг төрөл бүрийн регрессүүд байдаг. Төрөл бүр нь өөр өөр хувилбарууд дээр өөрийн гэсэн ач холбогдолтой байдаг боловч үндсэндээ бүх регрессийн аргууд нь бие даасан хувьсагчийн хараат бус хувьсагчийн нөлөөнд дүн шинжилгээ хийдэг. Доор үзүүлсэн зарим чухал регрессийн төрлүүдийг авч үзье.
  • Шугаман регресс
  • Логистик регресс
  • Полиномын регресс
  • Вектор регрессийг дэмжинэ
  • Шийдлийн модны регресс
  • Санамсаргүй ойн нөхөн сэргээлт
  • Мөрний регресс
  • Лассо регресс:
Машины сургалтанд регрессийн шинжилгээ

Шугаман регресс:

  • Шугаман регресс гэдэг нь урьдчилан таамаглах шинжилгээ хийхэд ашигладаг статистик регрессийн арга юм.
  • Энэ нь регресс дээр ажилладаг, тасралтгүй хувьсагчдын хоорондын холбоог харуулдаг маш энгийн бөгөөд хялбар алгоритмуудын нэг юм.
  • Машины сургалтанд регрессийн асуудлыг шийдвэрлэхэд ашигладаг.
  • Шугаман регресс нь бие даасан хувьсагч (X тэнхлэг) ба хамааралтай хувьсагч (Y тэнхлэг) хоорондын шугаман холбоог харуулдаг тул шугаман регресс гэж нэрлэдэг.
  • Хэрэв зөвхөн нэг оролтын хувьсагч (x) байгаа бол ийм шугаман регрессийг энгийн шугаман регресс гэж нэрлэдэг Хэрэв нэгээс олон оролтын хувьсагч байгаа бол ийм шугаман регрессийг олон шугаман регресс гэж нэрлэдэг .
  • Шугаман регрессийн загвар дахь хувьсагчдын хоорондын хамаарлыг доорх зургийг ашиглан тайлбарлаж болно. Энд бид тухайн ажилтны жилийн цалин хөлсийг тухайн жилийн туршлагаас хамаарч урьдчилан тооцдог .
Машины сургалтанд регрессийн шинжилгээ
  • Шугаман регрессийн математикийн тэгшитгэлийг доор харуулав.
  1. Y = aX + b  
Энд Y = хамааралтай хувьсагчууд (зорилтот хувьсагчид),
X = Бие даасан хувьсагчид (таамаглах хувьсагчууд),
а ба b нь шугаман коэффициент
Шугаман регрессийн зарим түгээмэл хэрэглээ нь:
  • Хандлага, борлуулалтын тооцоонд дүн шинжилгээ хийх
  • Цалингийн урьдчилсан мэдээ
  • Үл хөдлөх хөрөнгийн урьдчилсан таамаглал
  • Замын хөдөлгөөнд оролцож буй ETA-д ирэх.

Логистикийн регресс:

  • Логистик регресс бол ангиллын асуудлыг шийдвэрлэхэд ашигладаг өөр нэг хяналттай сурах алгоритм юм. Онд ангилал асуудал , бид ийм 0 эсвэл 1 зэрэг хоёртын эсвэл салангид хэлбэрээр хамааралтай хувьсагчуудыг байна.
  • Логистик регрессийн алгоритм нь 0 эсвэл 1, Тийм эсвэл Үгүй, үнэн эсвэл худал, спам эсвэл спам биш гэх мэт категори хувьсагчтай ажилладаг.
  • Энэ нь магадлалын тухай ойлголт дээр ажилладаг урьдчилсан таамаглах алгоритм юм.
  • Логистик регресс нь регрессийн нэг төрөл боловч тэдгээрийг хэрхэн ашиглах нэр томъёоны шугаман регрессийн алгоритмаар ялгаатай.
  • Логистик регресс нь өртгийн нарийн төвөгтэй функц болох сигмоид функц эсвэл логистик функцийг ашигладаг Энэхүү сигмоид функцийг логистик регресс дэх өгөгдлийг загварчлахад ашигладаг. Функцыг дараах байдлаар илэрхийлж болно.
Машины сургалтанд регрессийн шинжилгээ
  • f (x) = 0 ба 1-ийн хоорондох гарц.
  • x = функцэд оруулах
  • e = байгалийн логарифмын суурь.
Функцэд оролтын утгыг (өгөгдөл) өгөхөд S-муруйг дараах байдлаар өгнө.
Машины сургалтанд регрессийн шинжилгээ
  • Энэ нь босго түвшний тухай ойлголтыг ашигладаг бөгөөд босго түвшнээс дээш утгууд нь 1 хүртэлх хэмжээтэй, босго түвшнээс доогуур утгууд 0 хүртэлх хэмжээтэй байна.
Логистик регрессийн гурван төрөл байдаг.
  • Хоёртын тоо (0/1, дамжуулалт / амжилтгүй)
  • Олон (муур, нохой, арслан)
  • Ординаль (бага, дунд, өндөр)

Полиномын регресс:

  • Полиномын регресс бол шугаман бус өгөгдлийн санг шугаман загвар ашиглан загварчилсан регрессийн нэг төрөл юм .
  • Энэ нь олон шугаман регресстэй төстэй боловч x-ийн утга ба y-ийн харгалзах нөхцлийн утгуудын хоорондох шугаман бус муруйтай таарна.
  • Шугаман бус байдлаар байрладаг өгөгдлийн цэгүүдээс бүрдэх мэдээллийн сан байдаг гэж үзье, ийм тохиолдолд шугаман регресс нь тэдгээр мэдээллийн цэгүүдэд тохирохгүй байх болно. Ийм мэдээллийн цэгүүдийг нөхөхийн тулд бидэнд Полиномын регресс хэрэгтэй.
  • n Полиномын регресс, анхны шинж чанаруудыг өгөгдсөн градусын полином шинж чанар болгон хувиргаж дараа нь шугаман загвар ашиглан загварчилдаг. Энэ нь тоон цэгүүдийг полиномын шугамыг ашиглан хамгийн сайн тохируулна гэсэн үг юм.
Машины сургалтанд регрессийн шинжилгээ
  • Y = b 0 + b 1 x шугаман регрессийн тэгшитгэлийг илэрхийлсэн шугаман регрессийн тэгшитгэлээс гаргаж авсан полиномын регрессийн тэгшитгэлийг Y = b 0 + b 1 x + b 2 x 2 + b 3 x 3 + болгон хувиргасан . .... + b n x n байна.
  • Энд Y нь урьдчилан тооцоолсон / зорилтот гаралт, b 0 , b 1 , ... b n нь регрессийн коэффициент юм. x нь бидний бие даасан / оролтын хувьсагч юм.
  • Коэффициентууд квадраттай шугаман хэвээр байгаа тул загвар нь шугаман хэвээр байна

Тэмдэглэл: Энэ нь олон шугаман регрессээс ялгаатай нь Полиномын регрессийн үед нэг элемент ижил градус бүхий олон хувьсагчийн оронд өөр өөр градустай байдаг.

Вектор регрессийг дэмжинэ:

Дэмжлэгийн вектор машин нь регресс, ангиллын асуудалд ашиглах боломжтой хяналттай сурах алгоритм юм. Тиймээс бид үүнийг регрессийн асуудалд ашигладаг бол үүнийг дэмжих векторын регресс гэж нэрлэдэг.
Дэмжлэгийн векторын регресс бол тасралтгүй хувьсагчуудад ажилладаг регресс алгоритм юм. Доорх хэрэглэгддэг зарим нэг түлхүүр нь дэмжлэг үзүүлэх Вектор регрессийн :
  • Цөм: Энэ нь доод хэмжээст өгөгдлийг илүү өндөр хэмжээтэй өгөгдөл рүү оруулахад ашигладаг функц юм.
  • Гиперплантер: Ер нь SVM, энэ нь хоёр ангийн хоорондох тусгаарлах шугам боловч SVR-ийн хувьд энэ нь тасралтгүй хувьсагчдыг урьдчилан тооцоолоход тусалдаг бөгөөд мэдээллийн цэгүүдийн ихэнх хэсгийг хамардаг.
  • Хилийн шугам: Хилийн шугамууд нь гиперплэйгээс гадна хоёр шугам бөгөөд энэ нь мэдээллийн цэгүүдэд марж үүсгэдэг.
  • Дэмжлэгийн векторууд: Дэмжлэгийн векторууд нь гиперплан ба эсрэг анги руу хамгийн ойр байрлах өгөгдлийн цэгүүд юм.
SVR дээр бид хамгийн дээд тал нь гипер онгоцыг тодорхойлохыг хичээдэг бөгөөд ингэснээр тухайн цэг дээр хамгийн их тооны өгөгдлийн цэгүүд хамрагдана. SVR-ийн гол зорилго бол хилийн шугам дахь хамгийн их өгөгдлийн цэгийг тооцох явдал юм. Гиперплантер (хамгийн тохиромжтой шугам) нь хамгийн их тооны мэдээллийн цэгийг агуулсан байх ёстой . Доорх зургийг үзье.
Машины сургалтанд регрессийн шинжилгээ
Энд цэнхэр шугамыг гиперплип гэж нэрлэдэг бөгөөд нөгөө хоёр шугамыг хил хязгаар гэж нэрлэдэг.

Шийдвэрлэх модны регресс:

  • Шийдвэрлэх мод нь ангилсан болон регрессийн асуудлыг хоёуланг нь шийдвэрлэхэд ашиглаж болох хяналттай сурах алгоритм юм.
  • Энэ нь категорийн болон тоон өгөгдлийн аль алинд нь асуудлыг шийдвэрлэх боломжтой
  • Шийдлийн модны регресс нь дотоод зангилаа бүр нь шинж чанарын "туршилтыг", салбар бүр нь туршилтын үр дүнг, навчны зангилаа бүр нь эцсийн шийдвэр эсвэл үр дүнг илэрхийлдэг модтой төстэй бүтцийг бий болгодог.
  • Шийдвэрийн мод нь зүүн ба баруун хүүхдийн зангилаанд (өгөгдлийн дэд хэсэг) хуваагддаг эх зангилаанаас / эцэг эхийн зангилаанаас (өгөгдлийн сан) үүсдэг. Эдгээр хүүхдийн зангилаа нь цаашид хүүхдийнхээ зангилаанд хуваагддаг бөгөөд өөрсдөө эдгээр зангилааны эцэг эхийн зангилаа болдог. Доорх зургийг үзье.
Машины сургалтанд регрессийн шинжилгээ
Шийдлийн Tee регрессийн жишээг харуулсан зураг дээрхи энд загвар нь Спорт машин эсвэл Тансаг зэрэглэлийн автомашины хоорондох хүний ​​сонголтыг урьдчилан таамаглахыг оролдож байна.
  • Санамсаргүй ой бол хамгийн хүчирхэг хяналттай сурах алгоритмуудын нэг бөгөөд регресс болон ангилах даалгавруудыг гүйцэтгэх чадвартай юм.
  • Санамсаргүй ойд тохиолддог регресс нь олон тооны шийдвэрийн модыг нэгтгэдэг ансамблийн сургалтын арга бөгөөд модны гарц бүрийн дундаж дээр үндэслэн эцсийн гарцыг урьдчилан таамаглах болно. Хосолсон шийдвэрийн модыг суурь загвар гэж нэрлэдэг бөгөөд үүнийг дараах байдлаар албан ёсоор төлөөлж болно.
g (x) = f 0 (x) + f 1 (x) + f 2 (x) + .... байна.
  • Санамсаргүй ой нь нэгтгэсэн шийдвэрийн модыг зэрэгцээ ажиллуулж, бие биетэйгээ харьцахгүй байх ансамблийн сургалтыг Багцлах буюу Ботстрап нэгтгэх аргыг ашигладаг .
  • Санамсаргүй ойн регрессийн тусламжтайгаар бид өгөгдлийн сангийн санамсаргүй дэд хэсгийг бий болгосноор загварыг хэт халахаас сэргийлж чадна.
Машины сургалтанд регрессийн шинжилгээ

Мөрний сэргэлтийн регресс:

  • Мөрний регресс нь шугаман регрессийн хамгийн бат бөх хувилбаруудын нэг бөгөөд бага зэргийн хэвийсэн утгыг нэвтрүүлдэг бөгөөд ингэснээр бид урт хугацааны таамаглал сайжирна.
  • Загвар дээр нэмэгдсэн хэвийсэн хэмжээг Ridge Regression торгууль гэж нэрлэдэг Бид энэ торгуулийн хугацааг lambda-тай үржүүлгийн онцлог тус бүрийн квадрат жинд үржүүлж тооцоолж болно.
  • Мөрний регрессийн тэгшитгэл нь:
Машины сургалтанд регрессийн шинжилгээ
  • Бие даасан хувьсагчдын хоорондох өндөр уялдаа холбоо байгаа тохиолдолд ерөнхий шугаман буюу полиномын регресс амжилтгүй болох тул ийм асуудлыг шийдэхийн тулд Ridge регрессийг ашиглаж болно.
  • Ridge регресс нь загварчлалын нарийн төвөгтэй байдлыг багасгахад ашигладаг тогтмолжуулалтын арга юм. Үүнийг L2 тогтмолжуулалт гэж нэрлэдэг .
  • Хэрэв бид дээжээс илүү олон параметртэй бол асуудлыг шийдэхэд тусална.

Лассо регресс:

  • Лассо регресс бол загварын нарийн төвөгтэй байдлыг багасгах өөр нэг тогтмолжуулалтын арга юм.
  • Энэ нь торгуулийн нэр томъёо нь дөрвөлжин жингийн оронд зөвхөн туйлын жинг агуулдаг байдгаас бусад нь Риджийн регресстэй төстэй юм.
  • Энэ нь үнэмлэхүй утгыг авдаг тул налууг 0 болгож багасгаж болох бол Ridge Regression нь үүнийг зөвхөн 0 болгож багасгаж чадна.
  • Үүнийг L1 тогтмолжуулалт гэж нэрлэдэг Лассо регрессийн тэгшитгэл нь:
Машины сургалтанд регрессийн шинжилгээ