덧없는 웹: 디지털 유산 보존하기

2025-02-25
덧없는 웹: 디지털 유산 보존하기

온라인 콘텐츠는 덧없습니다. 이 글은 디지털 정보 보존의 중요성을 강조하고, 강력한 해결책으로 일반 텍스트 Markdown 파일을 사용할 것을 제안합니다. Markdown의 가독성, 크로스 플랫폼 호환성, 장기적인 접근성은 주요 장점입니다. 저자는 Obsidian을 이용한 노트 관리, 정적 사이트 생성기를 이용한 블로그 작성, 콘텐츠 변환을 위한 자동화된 Python 스크립트 사용 등 개인적인 전략을 공유합니다. 정기적인 백업과 데이터 다운로드가 강조되며, 더 나은 소셜 미디어 데이터 내보내기 도구 개발의 필요성도 제기됩니다.

더 보기
기타

코사인 유사도를 함부로 사용하지 마세요!

2025-01-14
코사인 유사도를 함부로 사용하지 마세요!

이 글에서는 데이터 과학에서 벡터 비교에 코사인 유사도를 과도하게 사용하는 위험성을 다룹니다. 저자는 코사인 유사도는 계산이 간편하지만 종종 의미론적 유사성을 포착하지 못하고, 문체나 오타와 같은 표면적인 패턴에 쉽게 현혹될 수 있다고 주장합니다. 이 글에서는 이 문제를 예시로 설명하고, 몇 가지 개선된 방법을 제안합니다. 구체적으로는, LLM을 직접 비교에 사용하는 것, 작업별 임베딩을 생성하기 위한 미세 조정이나 전이 학습, 프롬프트 엔지니어링, 텍스트 전처리 등입니다. 저자는 코사인 유사도를 무분별하게 사용하는 대신 특정 요구 사항에 따라 적절한 유사도 측정 방법을 선택하는 것이 중요하다고 강조합니다.

더 보기