2023. 9. 30. 19:45ใArtificialIntelligence/2023GoogleMLBootcamp
Carrying Out Error Analysis
error ์ค dog๊ฐ ์ฐจ์งํ๋ ๋น์จ์ด ํฌ์ง ์์ ๋
๊ฐ์์ง๊ฐ ์ฐพ์ดํ๋ ๋น์จ์ด 50%์๋ค๋ฉด,
dog์ focus๋ฅผ ๋ง์ถ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ด ํจ๊ณผ์ ์ผ ์ ์๋ค
๋ค์ํ ์นดํ ๊ณ ๋ฆฌ์ ์๋ฌ ์์ธ์ด ์๋ค
๋์ ๋น์จ์ ์์ธ (great cats์ blurry์ focusํ์ฌ ํด๊ฒฐํ ์ ์๋ค.)
-> error์ ์ฃผ ์์ธ์ ๋ถ์ํ ์ ์๋ค.
Cleaning Up Incorrectly Labeled Data
๋ฅ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์
1) random error์๋ ๊ฐ์ธํ์ง๋ง
2) system error์๋ ์ทจ์ฝํ๋ค
๋ง์ฝ incorrectly labeled error๊ฐ ํฐ ์ํฅ๋ ฅ์ ์ค๋ค๋ฉด -> ๊ณ ์ณ๋ผ
์๋๋ผ๋ฉด? (์ ์ ๋น์จ์ด๋ผ๋ฉด) ์ถ์ฒํ์ง ์์
์ด๋ฐ ์ํฉ์์๋?
์๋ชป ๋ ์ด๋ธ ๋ ์๋ฌ๋ ๋ฌด์ํ๊ณ
๋ค๋ฅธ ์ค๋ฅ ์์ธ๋ค์ ์ง์ค
dev set์ ๋ชฉ์ ์ ์ฌ๋ฌ ๋ถ๋ฅ๊ธฐ(๋ชจ๋ธ) ์ค ๋ ๋์ ๊ฒ์ ์ฐพ๋ ๊ฒ
๋๋ฒ์งธ ์ฌ๋ก์ ๊ฐ์ด incorrect labels๋ก ์ธํ ๋น์จ์ด ๋๋ค๋ฉด, ์ด์ focus
train์ด dev/test์ ์ฝ๊ฐ ๋ค๋ฅธ ๋ถํฌ๋ฅผ ๊ฐ์ ธ๋ ๊ด์ฐฎ๋ค (๋ค์ week์ ์ด์ด์ ์๊ฐ๋ ๋ด์ฉ)
Build your First System Quickly, then Iterate
์ด๋ค ๋ฌธ์ ์ focus๋ฅผ ๋ง์ถ ๊ฒ์ธ์ง ์ ํ๋ ๊ฒ์ ์ด๋ ต๋ค
-> ๋น ๋ฅด๊ฒ ํ๊ฒ์ ์ค์ ํ๊ณ , ML system์ ๊ตฌ์ถํ๊ณ (๋น ๋ฅด๊ฒ) -> ๋ฐ๋ณตํ๋ผ
Training and Testing on Different Distributions
๊ฐ์ง ์ด๋ฏธ์ง์ ๋๋ถ๋ถ์ด ๊ณ ํ์ง์ ์น ์ฌ์ง
ํ์ง๋ง ์ฐ๋ฆฌ๊ฐ ๋ง์ถ์ด์ผ ํ ๋์์ ํ๋ฆฐ ๋ชจ๋ฐ์ผ ์ฌ์ง (๋ช ์ฅ ์๋ค)
์ด๋ฌํ ๊ฒฝ์ฐ ์ฒซ๋ฒ์งธ ์ต์ ์ผ๋ก ๋์ ํฉ์น๋ค์์ ๋๋๋ค
๋จ์ : ๋๋ถ๋ถ์ ๋น์จ์ด Web์ ๋ง์ถ์ด ์ต์ ํ -> ์ฐ๋ฆฌ๊ฐ ์ ์ ์ง์คํด์ผํ ๋์์ธ ๋ชจ๋ฐ์ผ์, ์ ์ ๋น์จ๋ก dev set์ ๋๋๊ฒ ๋จ
-> ๋ฐ๋ผ์ ์ถ์ฒํ๋ ๋ฐฉ๋ฒ X
๋๋ฒ์งธ ์ต์
web์ train์๋ง / ์ฐ๋ฆฌ์ ๋ชฉ์ ์ dev, test, ์ผ๋ถ train -> mobile
์ฐ๋ฆฌ๊ฐ ํด๊ฒฐํด์ผํ๋ ๋ฌธ์ ๊ฐ mobile์ธ ๊ฒ์ ํํํ ์ ์์ง๋ง,
์ด์ train๊ณผ dev/test์ distribution์ด ๋ฌ๋ผ์ ธ๋ฒ๋ ธ๋ค!
dev / test๋ฅผ ๋ค๋ฅธ ๋ถํฌ์์!
Bias and Variance with Mismatched Data Distributions
dev - test๊ฐ ๋์ผํ ๋ถํฌ๋ฅผ ๊ฐ๋ ๊ฒ์ฒ๋ผ,
train๊ณผ ๋์ผํ ๋ถํฌ๋ฅผ ๊ฐ๋ train-dev set์ ๋ง๋ ๋ค
(ํ์ง๋ง ๋ชจ๋ธ ํ์ต์๋ ์ฌ์ฉ๋์ง X)
train-dev์ train์ ์ฐจ์ด๊ฐ ๋ง์ด ๋๋ค?
๋ชจ๋ธ์ด ์ค๋ฒํผํ ๋ ์ํ
train-dev์ test์ ์ฐจ์ด๊ฐ ๋ง์ด ๋๋ค?
๋ฐ์ดํฐ ๋ถํฌ์ mismatch์ ์ํ ์ค๋ฅ
+ human error (bayes error)์ training error์ ์ฐจ์ด -> avoidable error (๋ชจ๋ธ์ด ๋ ํ์ต๋ ์ํ)
์ค , , ,
๋ hierarchicalํ ๊ตฌ์กฐ๋ก ์ ๋ฆฌ๋ ๊ฒ ๊ฐ๋ค! :)
data mismatch -> ์ด๋ป๊ฒ ํด๊ฒฐ?
๋ค์ ๋น๋์ค์์ ๋ฐฐ์๋ณด์! :)
Addressing Data Mismatch
์ธ์์ ์ธ ๋ฐ์ดํฐ ํฉ์ฑ ๋ฐฉ์์ ํ์ฉํ ์ ์๋ค
artificial data systhesis
๋ค์ํ, ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํฉ์ฑํ ์ ์๋ค
car noise ๋ฐ์ดํฐ ์์ด ํฌ๋ฐํ ๊ฒฝ์ฐ, ์ค๋ฒํผํ ๋ฐ์ ๊ฐ๋ฅ
'ArtificialIntelligence > 2023GoogleMLBootcamp' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[GoogleML] Structuring Machine Learning Projects ์๋ฃ (0) | 2023.10.01 |
---|---|
[GoogleML] Transfer Learning & End-to-end Deep Learning (0) | 2023.09.30 |
[GoogleML] ML workflow by implementing strategy, avoidable bias (0) | 2023.09.29 |
[GoogleML] Multi-class Classification (0) | 2023.09.23 |
[GoogleML] Hyperparameter Tuning, Regularization and Optimization ์๋ฃ (0) | 2023.09.22 |