2023년 11월 Albert Gu와 Tri Dao의 논문 "Mamba: Linear-Time Sequence Modeling with Selective State Spaces"는 AI 커뮤니티를 흔들어놓았습니다.지난 12년간 절대 표준이었던 Transformer 아키텍처의 치명적 한계인 O(N²) 이차 복잡도(Quadratic Bottleneck)를 O(N) 선형 복잡도로 해결했기 때문입니다.실제로
doyouknow.kr/690/mamba-st...
2023년 11월 Albert Gu와 Tri Dao의 논문 "Mamba: Linear-Time Sequence Modeling with Selective State Spaces"는 AI 커뮤니티를 흔들어놓았습니다.지난 12년간 절대 표준이었던 Transformer 아키텍처의 치명적 한계인 O(N²) 이차 복잡도(Quadratic Bottleneck)를 O(N) 선형 복잡도로 해결했기 때문입니다.실제로
doyouknow.kr/690/mamba-st...
Anthropic의 혁신적 연구 결과, 희소 오토인코더(Sparse Autoencoder, SAE)라는 기술로 신경망 내 수백만 개의 뉴런 활성화를 단 몇 개의 해석 가능한 "개념(concept)"으로 변환할 수 있음이 증명되었습니다.놀랍게도,
doyouknow.kr/686/mechanis...
Anthropic의 혁신적 연구 결과, 희소 오토인코더(Sparse Autoencoder, SAE)라는 기술로 신경망 내 수백만 개의 뉴런 활성화를 단 몇 개의 해석 가능한 "개념(concept)"으로 변환할 수 있음이 증명되었습니다.놀랍게도,
doyouknow.kr/686/mechanis...
같은 모델인데 평가 지표만 바꿨더니 최고에서 최악으로 추락하는 충격적인 현실!
doyouknow.kr/810/ai-model...
같은 모델인데 평가 지표만 바꿨더니 최고에서 최악으로 추락하는 충격적인 현실!
doyouknow.kr/810/ai-model...
2012년 AlexNet이 어떻게 ImageNet 대회를 압도적으로 제패하며 딥러닝 혁명을 촉발했는지 완벽 분석.
doyouknow.kr/726/alexnet-...
2012년 AlexNet이 어떻게 ImageNet 대회를 압도적으로 제패하며 딥러닝 혁명을 촉발했는지 완벽 분석.
doyouknow.kr/726/alexnet-...
하지만 Constitutional AI는 AI에게 명확한 원칙(헌법)을
doyouknow.kr/679/constitu...
하지만 Constitutional AI는 AI에게 명확한 원칙(헌법)을
doyouknow.kr/679/constitu...
Test-Time Compute & Scaling Laws 완벽 가이드! 7B+TTC vs 140B 모델 FLOPs 기준 성능. Chinchilla 함정: 훈련 최적≠추론 최적. Sequential vs Parallel Scaling 비교, 자기수정 능력 부재 분석. Compute-Optimal 난이도별 할당. 수학 성능 6배 향상, IOI 금메달 달성! 미래 아키텍처 최적화까지!
#ChainofThought
doyouknow.kr/652/test-tim...
Test-Time Compute & Scaling Laws 완벽 가이드! 7B+TTC vs 140B 모델 FLOPs 기준 성능. Chinchilla 함정: 훈련 최적≠추론 최적. Sequential vs Parallel Scaling 비교, 자기수정 능력 부재 분석. Compute-Optimal 난이도별 할당. 수학 성능 6배 향상, IOI 금메달 달성! 미래 아키텍처 최적화까지!
#ChainofThought
doyouknow.kr/652/test-tim...
#ChainofThought #CoT #DeepSeekR1 #LLM #o1
doyouknow.kr/644/reasonin...
#ChainofThought #CoT #DeepSeekR1 #LLM #o1
doyouknow.kr/644/reasonin...
#AugMix #AutoAugment #BackTranslation #CutMix #Cutout #DataAugmentation #EDA
doyouknow.kr/631/data-aug...
#AugMix #AutoAugment #BackTranslation #CutMix #Cutout #DataAugmentation #EDA
doyouknow.kr/631/data-aug...
#AWQ #FP8 #GGUF #GPTQ #INT4 #INT8 #KnowledgeDistillation #Llama3 #llamacpp
doyouknow.kr/618/llm-quan...
#AWQ #FP8 #GGUF #GPTQ #INT4 #INT8 #KnowledgeDistillation #Llama3 #llamacpp
doyouknow.kr/618/llm-quan...
#AgenticRAG #Chroma #Finetuning
doyouknow.kr/622/rag-adva...
#AgenticRAG #Chroma #Finetuning
doyouknow.kr/622/rag-adva...
#CLIP #CNN #EfficientNet #InductiveBias #ResNet #SAM
doyouknow.kr/602/vision-t...
#CLIP #CNN #EfficientNet #InductiveBias #ResNet #SAM
doyouknow.kr/602/vision-t...