분석의 첫 단계로, CSV 파일에서 텍스트 데이터를 불러옵니다. 이 데이터는 데이터의 텍스트와 각 문서의 날짜 정보로 구성됩니다.
불러온 데이터를 분석에 적합한 형태로 변환하고, 그룹화하는 과정입니다. 이 단계에서는 다음과 같은 작업이 이루어집니다:
텍스트 데이터에서 빈도가 높은 단어들을 추출하여 키워드로 지정합니다. 이 과정에서 다음 작업이 포함됩니다:
단어 빈도(기간) = 해당 기간에 등장한 특정 단어의 총 횟수
각 기간별로 키워드의 중요성을 분석합니다. 주요 분석 단계는 다음과 같습니다:
TF (Term Frequency)
로 정의되며, 특정 기간에 해당
단어가 얼마나 자주 등장했는지를 나타냅니다.DF (Document Frequency)
로 정의합니다. 이 값은 해당 기간 동안
얼마나 많은 문서에서 해당 키워드가 언급되었는지를 보여줍니다.
DOV (Degree of Visibility)
로 정의되며, 특정 기간에 해당 단어의 시인성을 나타냅니다. 수식은 다음과 같습니다DoV = (TF / 전체 문서 수) × (1 - 가중치 × 시간 지수)
DOD (Degree of Diffusion)
로 정의되며, 특정 기간에 해당 단어의 확산성을 나타냅니다.DoD = (DF / 전체 문서 수) × (1 - 가중치 × 시간 지수)
CAGR (Compound Annual Growth Rate)
공식을 사용하여 계산됩니다.분석된 데이터를 그래프로 시각화하고, 결과를 다양한 형식으로 저장합니다. 주요 단계는 다음과 같습니다:
KEM (Keyword Emergence Map)
: 좌표의 X값은 두 Period의 TF 평균, Y축은 두 Period 간의 DOV 증가율을 나타냅니다
KIM (Keyword Issue Map)
: 좌표의 X값은 두 Period의 DF 평균, Y축은 두 Period 간의 DOD 증가율을 나타냅니다.강한 신호(Strong Signal)
: 높은 단어 빈도와 높은 증가율을 가진 키워드입니다.약한 신호(Weak Signal)
: 낮은 단어 빈도와 높은 증가율을 가진 키워드입니다.잠재 신호(Latent Signal)
: 낮은 단어 빈도와 낮은 증가율을 가진 키워드입니다.잘 알려진 신호(Well-Known Signal)
: 높은 단어 빈도와 낮은 증가율을 가진 키워드입니다.전체 KEM KIM 분석 기간에 대해서 미시적 분석을 진행합니다. 예를 들어 2010~2024년 기간의 KEM KIM 분석 시, (2010~2011), (2011~2012), ... , (2023~2024)의 KEM KIM 분석을 통해 키워드별로 기간을 따라 신호 변화를 추적합니다. 이 과정은 각 키워드의 시계열적 시그널 변화를 파악하는 데 중점을 둡니다:
추적된 데이터에서 시계 방향으로 Signal 이동이 일어나지 않은 키워드를 걸러내고, 해당 키워드 제외 사전에 추가합니다:
최종적으로 필터링된 데이터를 기반으로 KEM KIM 분석 결과를 생성하고, 결과를 저장합니다:
1. 최상위 폴더: kemkim_folder_path
최종 분석 결과가 저장되는 최상위 폴더로, 폴더명은 분석 대상 CSV 파일 이름과 분석 기간, 분석 시간에 기반하여 생성됩니다.
2. Data
폴더
주기별로 계산된 TF, DF, DoV, DoD 데이터를 저장합니다.
TF/YYYY_TF.csv
: 각 기간에 대해 키워드의 단어 빈도(Term Frequency) 데이터가 저장됩니다.DF/YYYY_DF.csv
: 각 기간에 대해 키워드의 문서 빈도(Document Frequency) 데이터가 저장됩니다.DoV/YYYY_DoV.csv
: 각 기간에 대해 키워드의 DoV(Time-Weighted 증가율) 데이터가 저장됩니다.DoD/YYYY_DoD.csv
: 각 기간에 대해 키워드의 DoD(Time-Weighted 증가율) 데이터가 저장됩니다.3. Result
폴더
최종 분석 결과와 시각화 자료를 저장합니다.
Graph
: 최종 분석 결과를 바탕으로 생성된 그래프 이미지 파일이 저장됩니다.Signal
: 최종 Signal 분석 결과가 CSV 파일로 저장됩니다.4. Trace
폴더
추적 분석을 위한 중간 결과와 최종 결과를 저장합니다.
Trace_Result
: 각 기간별로 Signal 분석 결과와 그래프 이미지 파일이 저장됩니다.Trace_Data
: 추적 분석을 위해 사용된 DoV 및 DoD 데이터가 저장됩니다.DoV
: 각 기간별로 키워드의 DoV 데이터가 저장됩니다.DoD
: 각 기간별로 키워드의 DoD 데이터가 저장됩니다.데이터 양: 데이터의 양(Period의 수)이 많을 경우, 분석 시간이 길어질 수 있습니다. 이 과정에서 프로그램이 응답하지 않는 것처럼 보일 수 있으나, 이는 정상적인 동작입니다.
제외 단어: 분석에서 제외할 단어들을 지정할 수 있으며, 이들은 필터링된 단어와 함께filtered_words.csv
파일에
기록됩니다. 이는 분석의 정확성을 높이기 위한 과정입니다.
결과 해석: 최종 결과는 키워드의 등장 빈도와 시간에 따른 중요성 변화를 나타냅니다. 이를 통해 특정 키워드가 특정 기간에 급격히 Signal 중요도가 높아졌다면, 해당 기간에 관련된 중요한 사건이 있었음을 추정할 수 있습니다.