데이터분석Python교안제작

[교안 제작] 내가 좋아하는 연예인 수상소감 시각화로 확인하기

Chae-hyeon Kim
2023년 8월 2일

프로젝트명

**내가 좋아하는 연예인 수상소감 시각화로 확인하기(**연예인 수상소감 워드클라우드)

프로젝트 소개

청소년 대상 데이터 분석 강의를 준비하면서, 흥미를 끌 수 있는 주제를 고민했습니다. 그 결과 자신이 좋아하는 연예인의 수상소감을 활용한 실습이 적합하다고 판단했습니다. 아이브(IVE)의 수상소감을 기반으로 워드클라우드를 구현해보았으며, 이후에는 학생들이 스스로 좋아하는 연예인의 수상소감을 수집해 시각화할 수 있도록 교안을 제작했습니다.

교안 내용

  • 100% 외부 공유가 불가능하여, 일부 교안과 코드만 공유합니다.
  • 총 81쪽 분량의 교안으로 구성되어 있습니다.

교안 일부 내용

image.png

image.png

image.png


일부 코드

image.png

image.png


사용 기술 및 기술 스택

  • Python 환경: Google Colab
  • 자연어 처리: KoNLPy
  • 데이터 처리: pandas, numpy, collections.Counter
  • 시각화:
    • matplotlib, seaborn, koreanize-matplotlib
    • plotly.express
    • WordCloud
  • 기타: re(정규식으로 텍스트 정제)

주요 특징

  • 텍스트 데이터 수집 및 전처리
    • 연예인 수상 소감 텍스트 파일(IVE_22.txt) 불러오기
    • 정규식으로 특수문자 제거 후 한글만 추출
    • 형태소 분석(Okt) 적용 후 불용어(stopwords) 제거
  • 단어 빈도 분석
    • 토큰화된 단어 리스트에서 빈도수 계산
    • Counter 객체를 이용해 상위 단어 도출
  • 시각화
    • 단어 빈도 상위 결과를 막대그래프/히트맵으로 시각화
    • WordCloud로 단어 빈도 기반 시각적 요약 제공
    • plotly로 인터랙티브 히스토그램/분포 확인
  • 분석 및 저장
    • 전처리된 텍스트 파일을 새로 저장해 결과 검증
    • 여러 시각화 기법을 통해 텍스트 데이터의 핵심 키워드와 경향성을 직관적으로 확인