Webtagr - 기술 뉴스 다이제스트

SIMD 함수: 컴파일러 자동 벡터화의 장점과 위험

2025-07-05

이 글에서는 SIMD 함수와 컴파일러 자동 벡터화에서의 역할에 대해 자세히 설명합니다. 여러 데이터 포인트를 동시에 처리할 수 있는 SIMD 함수는 성능을 크게 향상시킬 수 있습니다. 그러나 컴파일러의 SIMD 함수 지원은 불균일하며 생성된 벡터화 코드는 놀라울 정도로 비효율적일 수 있습니다. 이 글에서는 OpenMP pragma와 컴파일러 특정 속성을 사용하여 SIMD 함수를 선언 및 정의하는 방법을 자세히 설명하고 다양한 매개변수 유형(변수, 균일, 선형)이 벡터화 효율에 미치는 영향을 분석합니다. 또한 함수 인라이닝 처리 및 컴파일러의 특성을 다루는 방법에 대해서도 설명합니다. 성능 향상이라는 큰 가능성을 가지고 있지만 SIMD 함수의 실제 적용에는 상당한 어려움이 있습니다.

(johnnysswlab.com)

개발

LLVM-MCA 성능 분석: 벡터화 최적화의 함정

2025-06-29

저자는 ARM NEON을 사용한 벡터화 최적화에서 성능 저하 문제를 경험했습니다. 초기 코드는 5개의 로드 명령어(5L)를 사용했지만, 최적화된 버전은 메모리 접근을 줄이기 위해 2개의 로드 명령어와 3개의 확장 명령어(2L3E)를 사용했습니다. 놀랍게도 2L3E 버전이 더 느렸습니다. LLVM-MCA를 사용한 성능 분석 결과, 2L3E는 CPU 실행 유닛에 병목 현상을 일으키고, 리소스 사용이 불균형적이며, 명령어 의존성이 강화되어 성능 저하로 이어지는 것으로 나타났습니다. 5L 버전은 리소스 사용이 더 균형적이고 로드 명령어가 독립적이기 때문에 더 나은 성능을 보였습니다. 이 사례 연구는 CPU 리소스 경합과 명령어 의존성을 고려하지 않으면, 보기에 적절해 보이는 최적화라도 성능 저하로 이어질 수 있음을 보여줍니다. LLVM-MCA는 이러한 문제를 분석하는 데 유용한 도구입니다.

(johnnysswlab.com)

개발

메모리 바운드 코드에 대한 컴파일러 최적화의 영향: -O3이 항상 최선은 아니다

2025-06-01

조니 소프트웨어 랩의 연구에 따르면 메모리 바운드 코드에서 컴파일러 최적화(GCC의 -O3 등)의 이점이 항상 두드러지는 것은 아닙니다. 연구팀은 명령어 레벨 병렬 처리(ILP)가 높은 커널과 낮은 커널 두 가지를 테스트했습니다. 결과적으로 ILP가 높은 커널에서는 -O3 최적화를 통해 3배의 속도 향상을 얻었지만, ILP가 낮은 커널에서는 메모리 접근이 병목 현상을 일으켜 최적화 효과가 미미했습니다. 이는 메모리 바운드 성향이 높은 시나리오에서는 명령어 수가 줄어들더라도 ILP가 낮기 때문에 성능 향상이 제한되며, 코드 특성에 맞게 최적화 전략을 조정해야 함을 보여줍니다.

(johnnysswlab.com)

개발 메모리 병목 현상 명령어 레벨 병렬 처리

링크 시점 최적화(LTO): 컴파일러 최적화의 다음 단계?

2025-05-21

이 글에서는 링크 시점 최적화(LTO) 기술을 다룹니다. LTO는 링크 단계에서 최적화를 수행하여 프로그램 성능을 향상시키는 기술입니다. 기존 컴파일러는 개별 파일 내에서 최적화를 수행하는 반면, LTO는 여러 파일을 통합하여 함수 인라이닝 및 코드 지역성 개선과 같은 보다 포괄적인 최적화를 수행할 수 있습니다. LTO는 상당한 성능 향상을 가져올 수 있지만(ProjectX 프로젝트 테스트 결과 실행 시간 9.2% 단축, 바이너리 크기 평균 20% 감소), 컴파일 및 링크 시간이 더 오래 걸리고 더 많은 메모리가 필요하다는 단점이 있습니다. 저자는 ProjectX와 ffmpeg 두 프로젝트에 대한 실험 결과를 비교하여 LTO의 장단점을 보여주고, 공격적으로 속도 최적화되지 않은 프로젝트에서는 LTO를 시도해 볼 것을 제안합니다. 최종 성능 향상은 프로젝트마다 다르다는 결론을 내립니다.

(johnnysswlab.com)

개발 링크 시점 최적화

데이터 복사 회피: C++에서 효율적인 버퍼 크기 조정 탐색

2025-04-04

Johnny's Software Lab은 C++에서 비용이 많이 드는 데이터 복사를 피하는 방법을 탐구합니다. 이 글에서는 `mmap`(Linux) 및 `VirtualAlloc`(Windows)과 같은 운영 체제 호출을 사용하여 버퍼 크기를 동적으로 조정하고 데이터 복사를 피하는 방법을 자세히 설명합니다. `mremap`, `xallocx`(jemalloc), 사용자 지정 메모리 할당 전략 등 다양한 접근 방식의 성능 차이를 비교합니다. 실험 결과 복사를 피함으로써 성능이 크게 향상됨을 보여주지만, 운영 체제 간의 차이점과 잠재적인 메모리 단편화 문제에 유의해야 합니다.

(johnnysswlab.com)

개발