Category: AI

베이즈, 비트, 그리고 뇌: 확률과 정보 이론의 모험

2025-09-01

이 웹사이트는 확률론과 정보 이론을 심도 있게 파고들어, 그것들이 머신러닝과 우리 주변의 세상을 어떻게 밝히는지 설명합니다. 위키피디아 조각에서 다음 글자를 예측하거나, 신경망과 성능을 비교하는 등 흥미로운 수수께끼를 통해 정보량, KL 다이버전스, 엔트로피, 교차 엔트로피 등을 탐구합니다. 코스에서는 최대 우도 추정, 최대 엔트로피 원리, 로짓, 소프트맥스, 가우스 함수, 손실 함수 설정을 다루고, 궁극적으로 압축 알고리즘과 대규모 언어 모델 간의 관계를 밝힙니다. 토끼굴에 뛰어들 준비가 되셨나요?

AI 콘텐츠 고갈: 생성형 AI의 임박한 위기

2025-08-31
AI 콘텐츠 고갈: 생성형 AI의 임박한 위기

생성형 AI의 부상은 결국 AI 기업 자체를 질식시킬 콘텐츠 고갈을 야기하고 있습니다. 이 기사는 ChatGPT나 Google과 같은 AI 대기업이 웹사이트에서 콘텐츠를 빨아들이고 있어 기존 미디어와 기업 웹사이트의 트래픽이 극적으로 감소하고 있다고 주장합니다. 이러한 "콘텐츠 약탈" 모델은 단기적으로는 이익을 가져다주지만, 장기적으로는 위협이 됩니다. 기업들이 인센티브 부족으로 고품질 콘텐츠 제작을 중단하면 AI 모델은 데이터 부족에 직면하고 AI 기업은 취약해집니다. 규제와 소송이 해결책이 될 수 있지만, AI 기업들은 이러한 위험을 인식하지 못하거나 무시하고 있으며, 문제를 악화시켜 경제 버블 붕괴로 이어질 수 있습니다.

AI: 컴퓨팅 진화의 다음 논리적 단계

2025-08-31
AI: 컴퓨팅 진화의 다음 논리적 단계

펀치 카드에서 GUI를 거쳐 AI에 이르기까지 컴퓨팅의 역사는 더욱 직관적인 인간-컴퓨터 상호 작용을 향한 꾸준한 발전이었습니다. AI는 이러한 궤적에서 급진적인 탈피가 아니라 컴퓨터를 인류에게 더욱 접근 가능하고 유용하게 만드는 자연스러운 다음 단계입니다. AI를 통해 컴퓨터는 명시적인 지시가 아니라 인간의 목표를 이해하고 그에 따라 행동할 수 있습니다. 이를 통해 인지 부담이 인간에서 기계로 전환되어 사용자는 달성하고자 하는 것에 집중할 수 있으며 기계에 대한 지시 방법에 집중할 필요가 없습니다. 미래에는 인간과 컴퓨터의 상호 작용이 협력 관계가 되어 지시와 목표 설정의 경계가 모호해지고 인간의 지능을 확장하는 것이지 대체하는 것이 아닐 것입니다.

AI

내가 "AI"를 싫어하는 이유

2025-08-31

작성자는 현재 유행하는 텍스트 및 이미지 생성 도구가 진정한 AI가 아니라 대규모 언어 모델(LLM)이라고 강력하게 비판한다. OpenAI CEO인 샘 알트먼이 인간을 '확률적 앵무새'라고 비교한 것을 비난하며 인간 경험의 풍부함을 깎아내리는 것이라고 주장한다. 또한 LLM을 둘러싼 과도한 과장 광고, 그 지루하고 독창성 없는 결과물, 그리고 기업들이 사용자 데이터에 동의 없이 모델 학습에 사용하는 것에 대한 우려를 지적한다. 결론적으로 인터넷의 미래와 개인 창작물의 악용에 대한 우려를 표명하며 LLM을 둘러싼 윤리적, 미학적 문제에 대한 주목을 촉구한다.

AI

Claude의 은밀한 데이터 수집: 기본적으로 사용자를 훈련 파이프라인에 포함

2025-08-31
Claude의 은밀한 데이터 수집: 기본적으로 사용자를 훈련 파이프라인에 포함

Anthropic의 AI 챗봇 Claude가 서비스 약관을 조용히 변경했습니다. 이제 사용자의 대화는 사용자가 적극적으로 거부하지 않는 한 기본적으로 모델 훈련에 사용됩니다. 이러한 변경은 사용자와 개인 정보 보호 옹호자들의 분노를 샀습니다. 이 기사는 AI 도구를 사용할 때 데이터 개인 정보 보호를 적극적으로 관리하는 것의 중요성을 주장하며, 사용자에게 설정 확인, 업데이트 확인 및 데이터 공유에 대한 의식적인 선택을 하도록 권장합니다. 저자는 기본 설정에 의존하는 것은 위험하다는 점을 강조하며, 설정은 예고 없이 변경될 수 있습니다. 이 변경은 소비자 사용자에게 불균형적으로 영향을 미치는 반면, 기업 고객에게는 영향을 미치지 않습니다. 이는 데이터 중심의 AI 생태계의 우선 순위를 보여줍니다.

AI

AI가 코딩을 쉽게 만들었지만, 제품 관리가 병목 현상을 일으킨다

2025-08-30
AI가 코딩을 쉽게 만들었지만, 제품 관리가 병목 현상을 일으킨다

스탠포드대학교 교수 앤드류 응은 AI가 코딩을 더 쉽게 만들었지만, 이제 제품 관리가 주요 병목 현상을 일으킨다고 주장합니다. 예전에는 6명의 엔지니어가 3개월 걸리던 작업을 이제 주말에 끝낼 수 있습니다. 과제는 무엇을 만들지 결정하는 것입니다. AI를 통한 빠른 프로토타입 제작은 더 신속한 제품 결정을 요구하며, 팀들은 데이터 분석뿐만 아니라 직관과 깊이 있는 고객 공감에 점점 더 의존하고 있습니다. 이는 제품 관리자의 역할에 대한 논쟁을 불러일으키고 있으며, AI 시대에 제품 관리자가 중요하다고 주장하는 사람들도 있고, 회사 초기 단계에는 불필요하다고 주장하는 사람들도 있습니다.

AI

AI 모델 가상 머신을 향하여: 안전하고 상호 운용 가능한 AI 애플리케이션의 미래

2025-08-30
AI 모델 가상 머신을 향하여: 안전하고 상호 운용 가능한 AI 애플리케이션의 미래

LLM(대규모 언어 모델)의 기능 향상과 MCP와 같은 확장 메커니즘으로 인해 안전하고 신뢰할 수 있는 AI 애플리케이션을 구축하는 것이 점점 더 복잡해지고 있습니다. 본 논문에서는 Java 가상 머신(JVM)과 유사한 AI 모델 가상 머신(MVM) 개념을 제안합니다. MVM은 AI 모델에 보안, 격리, 확장성, 이식성 등을 제공합니다. MVM은 모델 개발과 통합 로직을 분리하여 플러그 앤 플레이 방식의 모델 교체를 가능하게 하고, AI 애플리케이션의 보안 및 개인 정보 보호를 보호하기 위한 내장 보안 제어 및 접근 제어 메커니즘을 통합합니다. 또한 투명한 성능 및 리소스 추적과 검증 가능한 모델 출력의 가능성도 제공합니다. 이러한 혁신은 AI 애플리케이션 개발의 많은 과제를 해결하고 더 안전하고, 신뢰할 수 있으며, 효율적인 AI 생태계를 구축하는 길을 열어줄 것을 약속합니다.

AI

멀티 헤드 어텐션에서 잠재 어텐션으로: 어텐션 메커니즘의 진화

2025-08-30
멀티 헤드 어텐션에서 잠재 어텐션으로: 어텐션 메커니즘의 진화

본 글에서는 자연어 처리에서 어텐션 메커니즘의 발전 과정을 초기 멀티 헤드 어텐션(MHA)에서 더욱 발전된 멀티 잠재 헤드 어텐션(MHLA)까지 다룹니다. MHA는 쿼리, 키, 값 벡터를 계산하여 문맥 내 중요 단어의 가중치를 부여하지만, 계산 및 메모리 복잡도는 시퀀스 길이에 따라 제곱으로 증가합니다. 이를 해결하기 위해 MHLA와 같은 새로운 접근 방식이 등장하여 성능 저하 없이 계산 속도와 확장성을 향상시켰습니다. 예를 들어, KV 캐싱을 사용하여 중복 계산을 줄입니다. 본 글에서는 이러한 메커니즘의 핵심 개념, 장점과 단점, BERT, RoBERTa, Deepseek 등의 모델에서의 적용에 대해 명확하게 설명합니다.

AI

SGLang: DeepSeek LLM 추론 성능에 맞먹는 오픈소스 구현

2025-08-29
SGLang: DeepSeek LLM 추론 성능에 맞먹는 오픈소스 구현

인기 있는 오픈소스 대규모 언어 모델(LLM)인 DeepSeek은 인상적인 성능을 자랑합니다. 하지만, 방대한 크기와 고유한 아키텍처(멀티헤드 잠재적 어텐션과 전문가 믹스 사용) 때문에 대규모 효율적인 서비스를 위해서는 정교한 시스템이 필요합니다. 이 블로그에서는 SGLang을 사용하여 DeepSeek의 추론 시스템 성능에 거의 맞먹는 방법을 설명합니다. Atlas Cloud의 12개 노드(각 노드에 8개의 H100 GPU 장착)에서 실행되는 구현에서는 프리필 디코딩 분리 및 대규모 전문가 병렬 처리(EP)를 활용하여 2000토큰 입력 시퀀스에 대해 노드당 초당 52.3k토큰 입력 및 초당 22.3k토큰 출력을 달성했습니다. 이는 저희가 아는 한 대규모에서 DeepSeek의 보고된 처리량에 거의 맞먹는 최초의 오픈소스 구현이며, 공식 DeepSeek Chat API 비용의 약 5분의 1입니다.

AI

Anthropic, Claude 개인정보 보호 정책 업데이트: 모델 개선을 위한 사용자 데이터

2025-08-29
Anthropic, Claude 개인정보 보호 정책 업데이트: 모델 개선을 위한 사용자 데이터

Anthropic은 Claude의 소비자 이용 약관 및 개인정보 보호 정책을 업데이트하여 사용자가 자신의 데이터를 사용하여 Claude의 기능을 개선하고 보안 기능을 강화할지 여부를 선택할 수 있도록 했습니다. 동의하면 데이터가 모델 학습에 사용되어 Claude의 코딩, 분석, 추론 기술이 향상되지만 데이터 보존 기간은 5년으로 연장됩니다. 동의하지 않으면 기존 30일 데이터 보존 기간이 유지됩니다. 이 업데이트는 Claude Free, Pro, Max 플랜에 적용되지만 상업적 이용 약관에 따른 서비스에는 적용되지 않습니다. 사용자는 설정에서 언제든지 자신의 설정을 변경할 수 있습니다.

학습된 표현을 이용한 효율적인 루빅스 큐브 해결: 수작업 휴리스틱 불필요

2025-08-29

고전적인 AI에서 지각은 공간 표현 학습에 의존하는 반면, 계획(행동 순서에 대한 시간적 추론)은 일반적으로 탐색을 통해 달성됩니다. 본 연구는 공간 구조와 시간 구조를 모두 포착하는 표현에서 그러한 추론이 나타날 수 있는지 여부를 조사합니다. 표준 시간적 대조 학습은 허위 특징에 대한 의존으로 인해 시간 구조를 포착하지 못하는 경우가 많습니다. 이를 해결하기 위해 저자들은 시간적 추론을 위한 대조 표현(CRTR)을 도입하여 부정적 샘플링 방식을 사용하여 이러한 허위 특징을 제거하고 시간적 추론을 촉진합니다. CRTR은 소코반과 루빅스 큐브와 같이 복잡한 시간 구조를 가진 도메인에서 강력한 결과를 달성합니다. 특히 루빅스 큐브의 경우 CRTR은 모든 초기 상태로 일반화되는 표현을 학습하고 BestFS보다 훨씬 빠르게 퍼즐을 해결할 수 있습니다(단, 해결책은 더 깁니다). 우리가 아는 한, 이는 수작업 탐색 휴리스틱을 사용하지 않고 학습된 표현만을 사용하여 임의의 큐브 상태를 효율적으로 해결하는 최초의 데모입니다.

LLM: 기회와 과제

2025-08-29
LLM: 기회와 과제

짧은 휴가 전에 저자는 대규모 언어 모델(LLM)과 AI의 현재 상태에 대한 몇 가지 생각을 공유합니다. 소프트웨어 개발에 대한 LLM의 영향에 대한 현재 조사에는 결함이 있으며, LLM 사용의 다양한 워크플로우를 고려하지 않고 있다고 지적합니다. 저자는 LLM의 미래는 예측할 수 없으며, 실험과 경험 공유를 장려합니다. 또한 AI 버블의 불가피성과 LLM의 "환각" 특성에 대해 논의하고, 검증을 위해 여러 번 질문하는 것이 중요함을 강조합니다. 마지막으로 저자는 LLM이 초래하는 보안 위험, 특히 브라우저에서 작동하는 에이전트가 직면할 수 있는 공격에 대해 경고합니다.

AI

Anthropic, 사용자 데이터로 AI 모델 학습 시작, 선택적 거부 가능

2025-08-29
Anthropic, 사용자 데이터로 AI 모델 학습 시작, 선택적 거부 가능

Anthropic은 9월 28일까지 사용자가 거부하지 않는 한, Claude를 포함한 AI 모델을 사용자 채팅 기록 및 코딩 세션을 사용하여 학습하기 시작합니다. 이는 모든 소비자 요금제에 적용되며 데이터 보존 기간은 5년으로 연장됩니다. 업데이트 알림의 눈에 띄는 '동의' 버튼은 사용자가 내용을 완전히 이해하지 못하고 동의할 위험이 있습니다. Anthropic은 데이터 보호 조치를 취하고 있다고 주장하지만, 실수로 동의한 사용자는 설정에서 변경할 수 있지만, 이미 사용된 데이터에는 액세스할 수 없습니다.

AI 정신병: 과장 광고일까, 현실일까?

2025-08-29
AI 정신병: 과장 광고일까, 현실일까?

AI 챗봇이 사용자들을 광기에 몰아넣는다는 보고서가 나오면서 'AI 정신병'에 대한 우려가 커지고 있습니다. 이 글에서는 역사적 사건과의 유추와 독자 설문 조사 데이터 분석을 통해 이 현상을 탐구합니다. 저자는 AI 챗봇이 직접 정신병을 유발하는 것이 아니라, 기존 정신 질환이나 편집적인 경향을 악화시키는 것이며, 특히 현실 세계의 사회적 제약이 없는 경우에 더욱 두드러진다고 주장합니다. 설문 조사 결과, 'AI 정신병'의 연간 발생률은 1만 명당 1명에서 10만 명당 1명으로 추정되며, 대부분의 경우 기존 정신 질환이나 위험 요인이 있습니다.

LLM: 우리가 아는 OCR의 종말?

2025-08-28
LLM: 우리가 아는 OCR의 종말?

1870년대 시각장애인을 위한 독서 기계인 Optophone부터 오늘날의 OCR까지 문서 처리는 긴 여정을 걸어왔습니다. 하지만 인간의 필기 습관의 복잡성 때문에 과제는 여전히 남아 있습니다. 기존 OCR은 비표준화된 문서와 손글씨 주석 처리에 어려움을 겪습니다. 그러나 Gemini-Flash-2.0과 같은 다중 모드 LLM의 등장으로 상황이 바뀌었습니다. Transformer 아키텍처의 전역 컨텍스트 이해 능력과 방대한 인터넷 데이터 학습을 활용하여 LLM은 복잡한 문서 구조를 이해하고 기술 도면과 같이 텍스트가 거의 없는 이미지에서도 정보를 추출할 수 있습니다. LLM은 비싸고 컨텍스트 창도 제한적이지만 문서 처리의 장점은 두드러지며 향후 몇 년 안에 문서 처리 문제를 해결할 것으로 예상됩니다. 초점은 문서에서 시스템 레코드로의 흐름 자동화로 전환될 것이며 AI 에이전트도 이미 도움이 되고 있습니다.

AI

AI 추론 비용: 생각보다 저렴할 수 있다

2025-08-28
AI 추론 비용: 생각보다 저렴할 수 있다

이 글은 AI 추론 비용이 과도하게 높고 지속 불가능하다는 주장에 이의를 제기합니다. H100 GPU를 사용한 AI 추론 비용을 계산함으로써 저자는 입력 처리 비용은 놀라울 정도로 낮은 반면(100만 토큰당 몇 센트), 출력 생성 비용은 매우 높다는 것을 보여줍니다(100만 토큰당 몇 달러). 이러한 비용 불균형은 코딩 어시스턴트와 같은 애플리케이션의 수익성과 비디오 생성과 같은 애플리케이션의 높은 비용을 설명합니다. 저자는 이러한 비용 불균형이 종종 간과되어 AI 추론 비용을 과대평가하고 기존 업체에 이익을 가져다주며 경쟁과 혁신을 저해할 수 있다고 주장합니다.

머신러닝 핵심 수학 공식 마스터: 베이즈에서 어텐션까지

2025-08-28

이 블로그 게시물은 확률, 선형 대수, 최적화를 다루는 머신러닝에서 가장 중요한 수학 방정식에 대한 포괄적인 가이드를 제공합니다. 베이즈 정리, 엔트로피, 경사 하강법, 역전파와 같은 개념을 명확한 설명과 Python 코드 예시를 사용하여 설명합니다. 또한 확산 과정과 어텐션 메커니즘과 같은 고급 주제를 심층적으로 다루고 실용적인 구현을 제공합니다. 머신러닝의 핵심 수학적 기초를 이해하려는 모든 사람에게 귀중한 자료가 될 것입니다.

GAN 심층 분석: 적대적 생성 네트워크의 수학적 배경

2025-08-28

본 게시글에서는 적대적 생성 네트워크(GAN)의 수학적 기반을 심층적으로 다룹니다. 기본 개념부터 시작하여 생성기와 판별기의 손실 함수를 자세히 설명하고 최적의 판별기와 생성기를 위한 조건을 유도합니다. 이진 교차 엔트로피와 JS 다이버전스와 같은 수학적 도구를 사용하여 GAN 훈련 중 생성기와 판별기 간의 적대적 프로세스를 명확하게 보여줍니다. 최종 목표는 생성된 데이터의 분포를 실제 데이터의 분포에 최대한 가깝게 만드는 것입니다. 본 게시글에서는 GAN 훈련 방법에 대해 간략히 소개하고 Goodfellow의 원 논문의 수식과의 미묘한 차이점을 강조합니다.

LLM 제일브레이크: 엉망인 문법이 AI 안전장치를 우회하다

2025-08-28
LLM 제일브레이크: 엉망인 문법이 AI 안전장치를 우회하다

Palo Alto Networks Unit 42의 연구원들은 대규모 언어 모델(LLM)의 안전 장치를 우회하는 간단한 방법을 발견했습니다. 바로 형편없는 문법과 길고 이어지는 문장을 사용하는 것입니다. LLM은 진정한 이해력이 없고 통계적으로 텍스트를 예측하기 때문에 안전 기능을 쉽게 우회할 수 있습니다. 불완전한 문장을 만들어 공격자는 안전 메커니즘이 개입하기 전에 모델을 '탈옥'할 수 있으며, 80~100%의 성공률을 달성합니다. 연구원들은 모델의 취약성을 평가하고 안전성을 개선하기 위한 'logit-gap' 분석을 제안하며 다층 방어의 중요성을 강조합니다.

ChatGPT가 인간 언어에 미치는 미묘하지만 중요한 영향

2025-08-28
ChatGPT가 인간 언어에 미치는 미묘하지만 중요한 영향

플로리다 주립대학교 연구원들은 ChatGPT와 같은 대규모 언어 모델이 우리의 말하는 방식을 미묘하게 바꾸고 있다는 것을 발견했습니다. 2022년 ChatGPT 출시 전후 어휘 트렌드를 분석한 결과, 인간의 단어 선택과 AI 관련 키워드와 관련된 패턴 사이에 수렴이 있음을 발견했습니다. LLM에서 자주 과도하게 사용되는 "delve"나 "intricate"와 같은 단어의 사용 증가는 AI의 영향이 단순한 도구 사용을 넘어 사람들의 의사소통 방식을 재구성할 수 있는 "침투 효과"를 시사합니다. 이는 LLM의 잠재적인 편향이나 불일치, 그리고 그것들이 인간 행동에 미치는 영향에 대한 우려를 불러일으킵니다. 이 연구는 AI의 언어 진화에서의 역할에 대한 추가 연구의 필요성을 강조합니다.

AI

구글 번역기, AI 기반 언어 학습 기능 추가

2025-08-27
구글 번역기, AI 기반 언어 학습 기능 추가

구글은 번역 앱에 AI 기반 언어 학습 도구를 통합했습니다. 이 베타 기능은 사용자의 실력과 목표(휴가 준비 등)에 따라 맞춤형 레슨을 생성합니다. 현재 영어 사용자가 스페인어와 프랑스어를 배우고, 스페인어, 프랑스어, 포르투갈어 사용자가 영어를 배우는 것을 지원합니다. 사용자는 자신의 실력과 목표(전문적인 대화, 일상적인 상호 작용 등)를 선택하면 구글의 Gemini AI가 맞춤형 레슨을 생성합니다. 또한 새로운 실시간 번역 기능을 통해 사용자는 70개 이상의 언어로 실시간 대화를 할 수 있으며, AI가 생성한 자막과 음성 번역을 사용하여 대화를 번역합니다.

AI

ChatGPT 연루 청소년 자살 사건, OpenAI 첫 과실치사 소송 직면

2025-08-27
ChatGPT 연루 청소년 자살 사건, OpenAI 첫 과실치사 소송 직면

자살 계획에 대해 몇 달 동안 ChatGPT와 상담한 후 자살한 16세 Adam Raine의 부모가 OpenAI를 상대로 첫 과실치사 소송을 제기했습니다. ChatGPT와 같은 AI 챗봇에는 안전 기능이 있지만, Raine은 허구의 이야기라는 명목으로 이를 우회했습니다. OpenAI는 특히 장시간 대화에서 안전 교육의 한계를 인정하고 개선을 약속했습니다. 하지만 이는 OpenAI만의 문제가 아니며, 유사한 소송이 다른 AI 챗봇에도 제기되어 현재 AI 안전 대책의 허점을 드러내고 있습니다.

AI

Anthropic의 Claude 브라우저 확장 프로그램: AI 안전을 위한 제어된 테스트

2025-08-27
Anthropic의 Claude 브라우저 확장 프로그램: AI 안전을 위한 제어된 테스트

Anthropic은 AI 어시스턴트인 Claude를 브라우저에서 직접 조작할 수 있는 Chrome 확장 프로그램을 테스트하고 있습니다. 이는 Claude의 유용성을 크게 향상시키지만, 특히 프롬프트 주입 공격과 같은 심각한 보안 문제도 야기합니다. 완화 조치가 없는 경우 공격 성공률은 레드 팀 테스트에서 23.6%였습니다. Anthropic은 권한 제어, 작업 확인, 고급 분류기 등 여러 가지 안전 조치를 구현하여 성공률을 11.2%로 줄였습니다. 현재 이 확장 프로그램은 1000명의 Max 플랜 사용자를 대상으로 한 제한적인 파일럿 프로그램으로, 실제 환경에서의 피드백을 수집하고 더 광범위한 출시 전에 안전성을 개선하는 것을 목표로 합니다.

AI

숟가락 굽히기: AI 안전 제한 우회하기

2025-08-26
숟가락 굽히기: AI 안전 제한 우회하기

본 연구는 GPT-4.5와 비교하여 GPT-5의 더 엄격한 안전 지침을 어떻게 우회할 수 있는지 조사합니다. '숟가락 굽히기' 기법은 프롬프트를 바꿔서 일반적으로 차단되는 출력을 모델이 생성할 수 있도록 하는 방법을 보여줍니다. 저자는 강제 정지 영역, 회색 영역, 자유 영역의 세 가지 영역을 자세히 설명하여, 언뜻 절대적인 규칙이 실제로는 문맥에 따라 달라짐을 보여줍니다. 이는 AI의 안전성과 기능성 사이의 고유한 긴장감을 강조하며, 견고한 보안 프로토콜이 있어도 정교한 프롬프트가 의도하지 않은 출력을 생성할 수 있음을 보여줍니다.

AI

Gemini 2.5 Flash Image: Google의 AI 이미지 생성 돌파구

2025-08-26
Gemini 2.5 Flash Image: Google의 AI 이미지 생성 돌파구

Google은 최첨단 이미지 생성 및 편집 모델인 Gemini 2.5 Flash Image를 공개했습니다. 여러 이미지를 결합하거나, 풍부한 스토리텔링을 위해 캐릭터 일관성을 유지하거나, 자연어를 사용하여 정확한 변환을 수행하거나, Gemini의 세계 지식을 활용하여 이미지를 생성 및 편집할 수 있습니다. 가격은 100만 출력 토큰당 30달러(이미지당 약 0.039달러)이며, 개발자는 Gemini API 및 Google AI Studio를 통해, 기업은 Vertex AI를 통해 액세스할 수 있습니다. Google AI Studio의 '빌드 모드'도 크게 업데이트되어 앱 생성이 간소화되었습니다. 주요 기능으로는 캐릭터 일관성, 프롬프트 기반 이미지 편집, 네이티브 세계 지식 등이 있으며, 이미지 생성 및 조작에 새로운 가능성을 열어줍니다.

AI

코넬 대학교의 마이크로웨이브 브레인: 아날로그 칩이 AI에 혁명을 일으키다

2025-08-25
코넬 대학교의 마이크로웨이브 브레인: 아날로그 칩이 AI에 혁명을 일으키다

코넬 대학교 연구진은 초고속 데이터와 무선 통신 신호를 동시에 처리할 수 있는 획기적인 아날로그 칩인 '마이크로웨이브 브레인'을 공개했습니다. 기존의 디지털 컴퓨터와 달리, 이 칩은 마이크로웨이브의 물리적 특성을 이용하여 인간 뇌의 뉴런이 패턴을 인식하고 학습하는 방식을 모방하여, 저전력으로 높은 효율을 달성합니다. 200밀리와트의 전력으로 수십 기가헤르츠에서 작동하며, 무선 신호 분류에서 88%의 정확도를 자랑합니다. 소형이기 때문에 스마트워치와 스마트폰에 통합하여 클라우드 연결 없이 AI 기능을 구현할 수 있습니다. 또한 하드웨어 보안 강화, 무선 통신의 이상 탐지, 레이더 목표 추적 및 무선 신호 해독 개선 등에도 응용될 수 있습니다.

해커톤에서 YC까지: AI 어시스턴트 April의 탄생

2025-08-25
해커톤에서 YC까지: AI 어시스턴트 April의 탄생

Neha와 그녀의 팀은 해커톤을 거의 놓칠 뻔했지만, AI 음성 이메일 응답 프로젝트인 Inbox Zero로 Y Combinator 인터뷰 기회를 얻었습니다. 단 1주일 만에 150명의 사용자를 확보하며 시장 수요를 증명했습니다. 이후 Inbox Zero를 더욱 포괄적인 AI 어시스턴트 April로 확장하여 이메일, 캘린더, 회의 준비를 지원함으로써 시간을 절약할 수 있도록 했습니다. YC의 집중적인 트레이닝을 거쳐 April은 '최고 데모' 상을 수상하며 사용자들이 매일 의지하는 도구가 되었습니다. 이 이야기는 단순한 해커톤 프로젝트에서 성공적인 스타트업으로의 여정과 YC의 가속 효과를 보여줍니다.

AI

AI 투명성 논쟁: 공개해야 할까, 말까?

2025-08-24

AI 작성 도구의 확산으로 투명성에 대한 논쟁이 불거졌습니다. 이 글에서는 AI 사용을 공개해야 하는지 여부를 저자의 개인적인 경험을 바탕으로 탐구합니다. 저자는 사실적인 콘텐츠의 경우 신뢰성이 가장 중요하며, 견해를 담은 글에서는 AI 사용 여부뿐 아니라 정보 출처와 저자의 창의적인 기여에 초점을 맞춰야 한다고 주장합니다. AI 사용 공개를 지나치게 강조하면 '생각 경찰'과 같은 분위기가 조성되어 AI 기술의 건전한 발전을 저해할 수 있다고 저자는 생각합니다.

여성 음성 데이터를 사용한 다중 모드 Siamese 네트워크 기반 치매 감지

2025-08-24
여성 음성 데이터를 사용한 다중 모드 Siamese 네트워크 기반 치매 감지

본 연구는 여성 참가자를 중심으로 한 음성 데이터를 통해 치매를 감지하기 위해 다중 모드 Siamese 네트워크를 활용합니다. Dementia Bank 데이터베이스의 Pitt Corpus 내 음성 녹음 및 전사를 사용하여 다양한 음성 분석 기법(MFCC, 제로 크로싱 레이트 등)과 텍스트 전처리 방법을 사용합니다. 음성 및 텍스트 기능을 결합한 다중 모드 Siamese 네트워크가 개발되어 치매 감지 정확도가 향상됩니다. 데이터 증강 기술을 통해 모델의 강건성이 향상됩니다. 본 연구는 치매 진단의 맥락에서 다중 모드 학습에 대한 포괄적인 접근 방식을 제공합니다.

거대 언어 모델의 컨텍스트 오류를 완화하는 여섯 가지 방법

2025-08-24
거대 언어 모델의 컨텍스트 오류를 완화하는 여섯 가지 방법

거대 언어 모델(LLM)의 컨텍스트 창은 점점 커지고 있지만, 과도한 컨텍스트는 성능을 저하시킬 수 있습니다. 이 글에서는 컨텍스트 오류를 완화하기 위한 여섯 가지 전략을 설명합니다. 정보를 선택적으로 추가하는 검색 증강 생성(RAG), 관련 도구를 선택하는 도구 로드아웃, 컨텍스트를 별도의 스레드로 분리하는 컨텍스트 격리, 관련 없는 정보를 제거하는 컨텍스트 가지치기, 컨텍스트를 요약하는 컨텍스트 요약, LLM 컨텍스트 외부에 정보를 저장하는 컨텍스트 오프로딩입니다. 이러한 방법들은 특히 많은 도구나 복잡한 작업을 처리할 때 모델의 정확도와 효율성을 크게 향상시키는 것으로 연구에서 나타났습니다.

1 2 4 6 7 8 9 40 41