딥러닝 모델 훈련 - dibleoning model hunlyeon

머신 러닝 모델

용어집으로 돌아가기

딥러닝 모델 훈련 - dibleoning model hunlyeon

머신 러닝 모델이란 무엇입니까?

머신 러닝 모델이란 이전에 접한 적 없는 데이터 세트에서 패턴을 찾거나 이를 근거로 결정을 내릴 수 있는 프로그램입니다. 예를 들어 자연어 처리의 경우, 머신 러닝 모델은 파싱을 통해 이전에 접한 적 없는 문장이나 단어 조합의 배후 의도를 올바로 인식할 수 있습니다. 이미지 인식의 경우, 머신 러닝 모델이 자동차나 개 등 사물을 인식하도록 교육할 수 있습니다. 머신 러닝 모델은 대규모 데이터 세트로 '교육'하면 이러한 작업을 수행할 수 있게 됩니다. 교육을 하면서 머신 러닝 알고리즘이 데이터 세트에서 특정 패턴이나 출력(작업 종류에 따라)을 찾아내게 최적화합니다. 이 프로세스의 출력물은 대개 특정 규칙과 데이터 구조를 포함한 컴퓨터 프로그램의 형태를 띠는데, 이것을 머신 러닝 모델이라고 합니다.

머신 러닝 알고리즘이란 무엇입니까?

머신 러닝 알고리즘은 일련의 데이터에서 패턴을 찾기 위한 수학적인 방식입니다. 머신 러닝 알고리즘은 대개 통계, 미적분, 선형 대수에서 도출합니다. 머신 러닝의 보편적인 예를 들자면 선형 회귀, 결정 트리, 랜덤 포레스트와 XGBoost 등이 있습니다.

머신 러닝에서 모델 훈련이란 무엇입니까? 

어느 데이터 세트(이를 교육 데이터라 함)에서 머신 러닝 알고리즘을 수행하고 이 알고리즘을 특정 패턴이나 출력을 찾게 최적화하는 프로세스를 모델 훈련이라고 합니다. 그 결과로 도출된, 규칙과 데이터 구조를 포함한 함수를 훈련된 머신 러닝 모델이라고 합니다.

머신 러닝의 여러 가지 유형으로는 어떤 것이 있습니까? 

전반적으로, 대부분의 머신 러닝 기법은 지도학습, 비지도학습과 강화학습으로 분류할 수 있습니다.

지도학습 머신 러닝이란 무엇입니까?

지도학습 머신 러닝의 경우, 알고리즘에 입력 데이터 세트가 제공되며 특정 출력 세트에 부합하도록 보상이 주어지거나 최적화됩니다. 예를 들어 지도학습 머신 러닝은 이미지 인식에 광범위하게 활용되는데, 이 경우 분류라는 기법을 활용합니다. 지도학습 머신 러닝은 인구 성장이나 건강 지표와 같은 인구통계 예측에도 쓰이며, 이 경우 회귀라는 기법을 활용합니다.

비지도학습 머신 러닝이란 무엇입니까? 

지도학습 머신 러닝의 경우, 알고리즘에 입력 데이터 세트는 제공하지만 특정 출력으로 보상되거나 최적화되지는 않고, 그 대신 공통된 특징에 따라 개체를 그룹으로 묶도록 교육합니다. 예컨대 온라인 매장의 추천 엔진은 비지도학습 머신 러닝, 그중에서도 특히 클러스터링이라는 기법을 주로 이용합니다.

강화학습 머신 러닝이란 무엇입니까?

강화학습(reinforcement learning)의 경우, 알고리즘이 수많은 시행착오 실험을 통해 자체적으로 훈련하도록 설정됩니다. 강화학습은 알고리즘이 훈련 데이터에 의존하는 것이 아니라 주변 환경과 계속 상호작용을 주고받을 때 일어납니다. 강화학습의 가장 보편적인 예시가 바로 자율 주행입니다.

여러 가지 머신 러닝 모델의 예를 들면 어떤 것이 있습니까?

머신 러닝 모델에도 여러 가지 종류가 있으며, 거의 전부가 특정 머신 러닝 알고리즘 기반입니다. 보편적인 분류와 회귀 알고리즘은 지도학습(Supervised) 머신 러닝에 속하며, 클러스터링 알고리즘은 대개 비지도학습(unsupervised) 머신 러닝 시나리오로 배포됩니다.

지도학습 머신 러닝

  • 로지스틱 회귀: 로지스틱 회귀(Logistic Regression)는 어느 입력이 특정 그룹에 속하는지 아닌지 판단하는 데 쓰임
  • SVM: SVM, 즉 서포트 벡터 머신(Support Vector Machine)은 n차원 공간에서 각 개체의 좌표를 만들고, 초평면을 사용해 여러 개체를 공통된 특징에 따라 그룹으로 묶음
  • Naive Bayes: Naive Bayes는 변수 간에 비종속성이 성립한다고 가정하고 확률을 사용해 기능에 따라 개체를 분류하는 알고리즘
  • 결정 트리: 결정 트리(Decision Tree)도 분류자의 일종으로, 트리의 잎과 노드를 횡단 이동하여 주어진 입력이 어느 카테고리에 속하는지 판단하는 데 쓰임
  • 선형 회귀: 선형 회귀는 관심사와 입력 변수 사이의 관계를 파악하고, 입력 변수 값에 따라 그 값을 예측하는 데 쓰입니다.
  • kNN: k Nearest Neighbors 기법은 가장 가까운 개체를 하나의 데이터 세트로 그룹화한 다음 개체 중에서 가장 자주 나타나거나 평균적인 특징을 찾아내는 것 위주입니다.
  • 랜덤 포레스트(Random Forest): 랜덤 포레스트(Random forest)는 무작위 데이터 하위 집합에서 가져온 수많은 결정 트리를 모은 컬렉션입니다. 따라서 결정 트리 하나만 사용할 때보다 좀 더 정확한 예측을 내놓을 수 있는 트리 조합이 생깁니다.
  • Boosting 알고리즘: Gradient Boosting Machine, XGBoost와 LightGBM 등의 Boosting 알고리즘은 앙상블 학습을 사용합니다. 이 알고리즘은 여러 알고리즘(예: 결정 트리)에서 가져온 예측을 조합하되, 이전 알고리즘에서 발생한 오류를 고려합니다.

비지도학습 머신 러닝

  • K-Means: K-Means 알고리즘은 여러 개체의 유사상을 찾아 이를 K개의 서로 다른 클러스터로 그룹화합니다.
  • 계층적 클러스터링: 계층적 클러스터링의 경우 클러스터 수를 지정할 필요 없이 중첩된 클러스터 트리를 구축합니다.

머신 러닝(ML)에서 결정 트리란 무엇입니까? 

A Decision Tree is a predictive approach in ML to determine what class an object belongs to. As the name suggests, a decision tree is a tree-like flow chart where the class of an object is determined step-by-step using certain known conditions.
딥러닝 모델 훈련 - dibleoning model hunlyeon
A decision tree visualized in the Databricks Lakehouse.  Source: https://www.databricks.com/blog/2019/05/02/detecting-financial-fraud-at-scale-with-decision-trees-and-mlflow-on-databricks.html

머신 러닝에서 회귀란 무엇입니까? 

Regression in data science and machine learning is a statistical method that enables predicting outcomes based on a set of input variables. The outcome is often a variable that depends on a combination of the input variables.
딥러닝 모델 훈련 - dibleoning model hunlyeon
A linear regression model performed on the Databricks Lakehouse.  Source: https://www.databricks.com/blog/2015/06/04/simplify-machine-learning-on-spark-with-databricks.html

머신 러닝에서 분류자란 무엇입니까? 

분류자란 어느 개체를 카테고리나 그룹의 구성원으로 할당하는 머신 러닝 알고리즘입니다. 예를 들어 분류자를 사용하여 이메일이 스팸인지 아닌지, 트랜잭션이 사기 행위인지 아닌지 탐지할 수 있습니다.

머신 러닝 모델은 몇 개나 됩니까?

많습니다! 머신 러닝은 지금도 발전 중인 분야이며, 개발 중인 머신 러닝 모델은 계속 늘어나고 있습니다.

머신 러닝에 가장 좋은 모델은 무엇입니까?

특정 상황에 가장 적합한 머신 러닝 모델은 바람직한 결과가 무엇이냐에 따라 다릅니다. 예를 들어 어느 도시에서 과거 데이터를 바탕으로 차량 구매 수를 예측하려 하는 경우, 선형 회귀와 같은 지도학습 기법이 가장 유용할 수 있습니다. 반면 이 도시의 어느 잠재 고객이 차량을 구매할지 그 고객의 소득과 통근 기록에 따라 결과를 알아보고자 하는 경우, 결정 트리가 가장 효과적일 수 있습니다.

머신 러닝(ML)에서 모델 배포란 무엇입니까? 

Model deployment is the process of making a machine learning model available for use on a target environment—for testing or production. The model is usually integrated with other applications in the environment (such as databases and UI) through APIs. Deployment is the stage after which an organization can actually make a return on the heavy investment made in model development.
딥러닝 모델 훈련 - dibleoning model hunlyeon
A full machine learning model lifecycle on the Databricks Lakehouse.  Source: https://www.databricks.com/blog/2019/09/18/productionizing-machine-learning-from-deployment-to-drift-detection.html

딥러닝 모델이란 무엇입니까? 

Deep learning models are a class of ML models that imitate the way humans process information. The model consists of several layers of processing (hence the term ‘deep’) to extract high-level features from the data provided. Each processing layer passes on a more abstract representation of the data to the next layer, with the final layer providing a more human-like insight. Unlike traditional ML models which require data to be labeled, deep learning models can ingest large amounts of unstructured data. They are used to perform more human-like functions such as facial recognition and natural language processing.
딥러닝 모델 훈련 - dibleoning model hunlyeon
A simplified representation of deep learning.  Source: https://www.databricks.com/discover/pages/the-democratization-of-artificial-intelligence-and-deep-learning

시계열 머신 러닝이란 무엇입니까? 

시계열 머신 러닝 모델의 경우, 독립된 변수 중 하나가 연속된 시간 길이(분, 일, 년 등)이며 이것이 종속된 변수나 예측된 변수에 의미를 지니는 모델입니다. 시계열 머신 러닝 모델은 다가오는 어느 주의 날씨, 다음 어느 달의 예상 고객 수, 다음 어느 해 매출 지표 등 시간이 제한된 이벤트를 예측하는 데 쓰입니다.

머신 러닝에 관해 더 자세히 알고 싶으면 어디를 참조해야 합니까? 

  • 이 무료 eBook 에서 전 세계 기업에서 효율적으로 사용 중인 흥미로운 머신 러닝 사용 사례를 확인할 수 있습니다.
  • 전문가로부터 머신 러닝에 관한 심층적인 정보를 알아보려면 Databricks 머신 러닝 블로그를 참조하시기 바랍니다.

기타 리소스


용어집으로 돌아가기