본문 바로가기

콘텐츠/나만 몰랐던 IT

[IT 웹툰] 8화 텍스트 마이닝이 뭐에요?

8화 텍스트 마이닝이란?😢

텍스트 마이닝이란 비정형 텍스트 데이터에서 가치와 의미가 있는 정보를 찾아내는(Mining)기술이라고 할 수 있습니다. 쉽게 말하면, 데이터 광산에서 보물 데이터를 캐내는 기술입니다. 텍스트마이닝 기술을 통해 방대한 양의 말뭉치에서 의미 있는 정보를 추출해 내고, 다른 정보와의 연계성을 파악하며, 텍스트가 가진 맥락을 찾아내는 등 단순한 정보 검색 그 이상의 의미를 추출할 수 있습니다.
텍스트마이닝은 크게 크롤링, 자연어처리, 시각화의 과정을 거칩니다.

우선 크롤링이란, 데이터를 수집하고 분류하는 것을 의미합니다. 주로 인터넷 상의 웹페이지(html,문서 등)를 수집해서 분류하고 저장하는 것을 뜻합니다. 크롤링은 여러 웹페이지를 돌아다닌다는 뜻이 강하며,데이터가 어디에 저장되어 있는지 위치에 대한 분류 작업이 크롤링의 주요 목적이라 할 수 있습니다.
스크랩핑(혹은 웹 스크랩핑)은 인터넷에서 존재하는 데이터를 컴퓨터 프로그램을 통하여 자동화된 방법으로 웹에서 데이터를 수집하는 작업을 말하는데, 크롤링한 데이터에서 원하는 데이터를 가져오는 것을 의미합니다.
파싱은 프로그램 언어를 문법에 맞게 분석해 내는것인데, 어떤 웹페이지의 데이터를 사용자가 원하는 형식,즉 일정한 패턴으로 추출해 어떠한 정보를 만들어 내는 것을 의미합니다. 이러한 과정을 통해 우리가 필요한 정보를 가져오게 됩니다.

둘째로 자연어처리란 우리가 일상적으로 사용하는 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 말합니다. 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류), 질의 응답 시스템, 챗봇과 같은 곳에서 사용되는 분야입니다. 자연어 처리는 기계에게 인간의 언어를 이해시킨다는 점에서 인공지능에 있어서 가장 중요한 영역 중 하나입니다.

이렇게 정제된 데이터를 그림이나 그래프로 만드는 것이 시각화 과정입니다. 대표적인 시각화 방식으로는 워드클라우드가 있습니다. 이러한 과정을 통해 우리는 텍스트를 정제하고, 의미 있는 정보들을 시각화하거나 논문의 유사도 검색, 스팸 메일 분류, 토픽 추출 등에 사용할 수 있습니다.

#텍스트마이닝 #텍스트 #데이터분석 #나만몰랐던it #위데이터랩 #IT #프로그래밍 #아이티 #컷툰  #동물툰 #하리 #곰쌤 #코딩 #wedatalab #chick #bear  #캐릭터  #일상툰 #illurst #illustration #character  #drawing #drawings #doodle #그림쟁이 #레몬하마 #イラスト #소통해요