인텔 AI 교육

인텔 AI 교육 - Module-16(AI 기술)

Regain 2023. 7. 28. 16:40

(해당 자료들은 인텔 AI for Future Workforce내용을 학습하고 가공한 내용입니다.)

 

< Module - 16 >

  AI의 주요한 3가지 도메인 '통계 데이터', '자연어 처리', '컴퓨터 비전'에 대해 팀과제로 진행하였습니다. 개인별로 주제를 선정하여 조사하였고 직접 조사한 '자연어 처리'와 나머지 조사를 참고하여 작성하였습니다.

#자연어 처리(Natural Language Processing, NLP)

1. 정의

  인공지능의 한 분야로 머신러닝을 사용해 텍스트와 데이터를 처리하고 해석한다. 구조화되지 않은 텍스트 기반 데이터로부터 유용한 정보를 얻기 위해 사용되며, 사용자가 추출한 정보에 접근하여 해당 데이터에 대해 새로운 이해를 생성할 수 있게 해 준다.

 

2. 자연어 처리가 어려운 이유

  (1) 모호성

    문장 내 정보의 부족으로 인한 모호성 발생

  (2) 다양한 표현

    사진 한 장, 행동 하나를 보더라도 다양한 문장으로 표현해 낼 수 있다.

  (3) 불연속적인 데이터

    딥러닝에 적용하기 위해 연속적인 값으로 바꾸어야 한다.

  (4) 노이즈와 정규화

    데이터가 사람 눈에 보이지 않을 정도로 작은 변화가 생겨도 의미의 변화가 크다. 그로 인해 단어가 바뀌면 전체의 의미 또한 달라진다.

 

3. 한국어 자연어처리가 어려운 이유

  (1)교착어

    어근 + 접사로 이루어지며 다양한 형태로 결합한다.

  (2) 띄어쓰기

    띄어쓰기의 표준이 계속 변화되고 있다.

  (3) 유사한 문장 구조

    평서문과 의문문이 같은 형태의 문장 구조를 가진다. (ex. 점심 먹었어. / 점심 먹었어?)

  (4) 주어 생략

    한국어에선 동사의 역할을 중요시하여 주어가 자주 생략된다.

 

4. NLP의 실패 사례

  20년 발표된 챗봇 Meena는 기존보다 많은 학습과 시간을 투자하여 발전시켰다. 하지만 이런 대화형 챗봇 사용 경험이 키워드 검색과 유사하다면 사람들은 챗봇과 상호작용할 필요성을 느끼지 못했다.

 

 

#통계 데이터

1. 정의

  학생들의 시험 성적이나 가게 물건의 가격 등 수치적 계산을 할 수 있는 데이터를 의미한다.

 

2. 통계 데이터의 문제

  (1) 데이터의 효율적 관리가 어렵다.

    기관의 지원을 받지 않는다면 대량의 데이터셋을 보존하는 데 인적, 경제적 문제가 발생한다.

  (2) 데이터수집이 연구설계보다 우선된다.

  (3) 빅데이터 분석에 특수한 도구가 필요하다.

    일반적인 소프트웨어 기술로는 빅데이터를 분석할 때 많은 시간이 걸려 특수한 도구(MS 알고리즘 FaST- LMN)들이 필요하다.

  (4) 데이터의 홍수 때문에 해석이 어렵다.

    다양한 출처에서 데이터들이 나오기 때문에 해석이 어렵다.

  (5) 데이터에서 패턴을 찾으려는 경향이 위험할 수도 있다.

    많은 경우 불필요한 데이터를 삭제하는 대신 데이터로부터 생각한 아이디어를 증명할 수 있을 때까지 반복 하여 결과를 도출해내려 한다. 이 경우 올바른 답이 도출되기 어려울 수 있다.

 

3. 통계 데이터의 실패 사례

  19대 대선에서 네이버트렌드의 검색어 통계에 따르면 검색 순위 1위는 홍준표 후보였으므로 결과 역시 홍준표 후보의 당선이어야 할 것이다. 하지만 실제 득표율은 41(문재인 후보) : 24(홍준표 후보) : 21(안철수 후보)로 트래픽과는 달랐다. 미 대선도 마찬가지로 검색 순위와 반대로 결과가 나왔었다.

 

 

#컴퓨터 비전

1. 정의

  컴퓨터 비전은 인공지능의 눈이라고 할 수 있다. 사람이 눈으로 보고 판단하는 것을 카메라 등으로 확인한 시각 정보로 대체해 AI가 분석한다.

 

2. 컴퓨터 비전의 문제

  (1) 학습 오류

    숫자를 구분하는 문제에서 숫자가 아닌 배경색 등으로 학습을 할 수도 있다. 학습 이후 다른 종류(배경)의 데이터가 들어올 경우 높은 확률로 틀린 결과를 낸다.

  (2) 학습 데이터의 문제

    전혀 연필깎이처럼 생기지 않았는데도 연필 깎기를 정답으로 하여 예측이 더 그럴듯하더라도 이상한 정답을 학습하는 문제가 있다.

  배의 영역을 돛대까지 지정하는지, 메인 프레임만 지정하는지에 대해 정답을 말하기 어련다.

  구글의 데이터셋에서 꽃 데이터는 매우 많지만 식기세척기, 팩스 등 매우 적은 데이터군이 존재한다.

 

  (3) 설명 불가능

    정답을 맞히더라도 왜 정답인지를 알 수 없다.

 

  (4) 공격에 취약

    이미지에 사람이 인식하지 못하는 노이즈를 삽입하면 해당 이미지를 잘 판별하지 못하게 된다.

 

  (5) 지구온난화

    하나의 딥러닝을 학습하는데 gpu를 많이 사용하므로 굉장히 많은 전기를 소모한다. 그 결과 많은 이산화탄소가 발생한다.

 

3. 컴퓨터 비전의 실패 사례

  2019년 벤처비트 조사 결과 양산 공정에 이르지 못하고 PoC 단계에서 실패하는 AI 도입 비율이 87%이다. 하지만 AI 솔루션이 제대로 적용되지 않거나, 기존의 레거시 설계를 사용하는 경우가 많았다. 실패 원인은 아래와 같다.

  (1) 공정 환경에 맞춘 솔루션의 부재(35.8%)

  (2) 비싼 도입 및 운영비용(20.6%)

  (3) AI기술력과 인력 부족(15.7%)

  이를 해결하기 위해 부족한 양질의 데이터 해결이 필요하다. 제조 환경에서는 정상 데이터가 비정상 데이터에 비해 압도적으로 많이 존재하기 때문에 데이터가 편향성을 가지게 된다. 또한 인공지능 기술을 사용하더라도 왜 잘못된 판단을 내렸는지 설명이 가능하도록 설명 가능한 인공지능(XAI) 기술이 필요하다. 

 

 

참고 자료

-NLP부분

https://cloud.google.com/learn/what-is-natural-language-processing?hl=ko

https://velog.io/@jyong0719/%EB%94%A5%EB%9F%AC%EB%8B%9D%EC%9D%84-%ED%99%9C%EC%9A%A9%ED%95%9C-%EC%9E%90%EC%97%B0%EC%96%B4%EC%B2%98%EB%A6%AC-%EA%B0%9C%EC%9A%94

https://www.samsungsds.com/kr/insights/chatbot1.html

-통계 데이터

https://www.editage.co.kr/insights/does-big-data-spell-good-data-5-challenges-researchers-face-while-handling-big-data-sets

http://sti.kostat.go.kr/window/2020a/main/2020_sum_05.html

-컴퓨터 비전

https://www.hellot.net/mobile/article.html?no=78612