LLM을 위한 표 데이터 활용: 기계적 증류 접근 방식
2025-05-09

대규모 언어 모델(LLM)은 텍스트와 이미지 데이터 처리에 뛰어나지만, 표 형식 데이터 처리에는 어려움을 겪습니다. 현재로서는 LLM은 공개된 통계 요약에 주로 의존하며, 설문 조사 데이터와 같은 표 형식 데이터 세트에 포함된 지식을 충분히 활용하지 못하고 있습니다. 본 논문에서는 기계적 증류 기술을 사용하여 단변량, 이변량 및 다변량 요약을 생성하는 새로운 접근 방식을 제안합니다. 이는 LLM에 관련 질문을 제안하고 데이터로부터 학습시킴으로써 강화됩니다. 3단계 파이프라인에는 데이터 구조 이해, 질문 유형 식별, 기계적 요약 및 시각화 생성이 포함됩니다. 저자들은 이러한 접근 방식이 검색 증강 생성(RAG) 시스템 개선 및 잠재적으로 편향된 "세계 데이터" 보완에 도움이 될 수 있다고 제안하며, 검증을 위해 과학 논문 저장소(Harvard Dataverse 등) 및 관리 데이터부터 시작할 것을 권장합니다.