Data

'Data' 태그의 모든 글

총 32개의 글
시간순 정렬
빅데이터 교육 실습 종합 보고서

빅데이터 교육 실습 종합 보고서

종합 분석: 빅데이터 교육 실습 보고서 1. 연구 개요와 방법론 본 연구는 빅데이터 프로젝트의 통합적 접근 방식을 취하며, 세 가지 사례를 통해 다양한 데이터 유형과 규모에 대한 분석 기법을 다룹니다. Epsilon 데이터셋 : 이진 분류 문제를 해결하기 위해 MLP 모델을 사용하여 2000개의 특징과 100,000개의 인스턴스로 훈련되었습니다. PyTorch와 GPU 가속(CUDA)을 활용해 88.98%의 정확도를 달성했습니다. Rest Mex 데이터셋 : 멕시코 관광 리뷰 데이터셋에 대해 감정 분석 파이프라인을 구현하였습니다.

Data Learning
독일 최고법원 보도자료 생성 데이터셋과 LLM 벤치마크

독일 최고법원 보도자료 생성 데이터셋과 LLM 벤치마크

본 논문은 법률 분야에서 일반 대중에게 판결을 전달하는 ‘보도자료’라는 특수한 텍스트 장르에 초점을 맞춘 최초의 대규모 데이터셋과 벤치마크를 제시한다는 점에서 학술적·실용적 의의가 크다. 기존 NLP 연구는 주로 판결문 자체의 구조적 요약이나 법률용어 추출 등에 머물렀으며, 시민이 이해하기 쉬운 형태의 커뮤니케이션을 다루지는 않았다. 따라서 CourtPressGER은 ‘판결문‑보도자료‑프롬프트’라는 삼중 트리플 구조를 통해, 원문과 인간이 만든 요약(보도자료) 사이의 정밀한 정렬을 제공한다. 이는 LLM이 단순히 요약을 넘어, 법적

Data
고밀도 레이스트랙 메모리를 위한 압축 기반 다중비트 오류 정정 기법

고밀도 레이스트랙 메모리를 위한 압축 기반 다중비트 오류 정정 기법

본 연구는 차세대 고밀도 비휘발성 메모리인 레이스트랙 메모리(RTM)의 신뢰성 문제를 근본적으로 해결하고자 하는 시도이다. RTM은 전통적인 SRAM에 비해 10배 이상 높은 집적도를 제공하면서도 읽기·쓰기 지연이 짧아 캐시 메모리 교체 후보로 적합하지만, 전류 흐름을 제어하기 위한 도메인 이동 과정에서 발생하는 스토캐스틱한 오류와 데이터 셔플링 오류가 다중 비트 오류를 초래한다. 이러한 오류는 기존의 단일 비트 ECC(예: SEC)나 2비트 정정 ECC(예: DECTED)로는 충분히 방어할 수 없으며, 다중 비트 정정을 위해서는

Data
큰 각도 감마선 데이터 분석을 위한 혁신적 Disp 방법

큰 각도 감마선 데이터 분석을 위한 혁신적 Disp 방법

1. 동기와 배경 Disp 방법은 단일 망원경 관측에서 주 감마선 방향 재구성의 기본 알고리즘으로 널리 사용되어 왔습니다(예: Lessard et al., 2001; Kranich & Stark, 2003; Domingo Santamaría et al., 2005). 그러나 새로운 세대의 지표 기반 감마선 망원경은 배열 모드로 여러 개의 망원경을 사용하여 동시 관측이 가능하게 되면서 보다 정교한 방향 재구성 기법이 필요해졌습니다. 특히, 큰 각도(LZA)에서 이러한 기법들은 성능 저하를 겪게 됩니다. 이는 공기 샤워가 IACT 배열

Data Astrophysics
No Image

야쿠츠크 배열을 통한 코스믹 레이 스펙트럼 및 질량 구성 분석

: 1. 야쿠츠크 배열의 독특한 역할 야쿠츠크 배열은 코스믹 레이(CR) 스펙트럼과 질량 구성 분석에 있어 중요한 도구로 작용한다. 이 배열은 광범위한 에너지 범위 (10^15 10^19 eV)에서 CR 흐름을 효과적으로 측정할 수 있으며, 특히 3 × (10^15 10^18) eV의 에너지 영역에서는 이전까지 상세하게 연구되지 않았던 중요한 정보를 제공한다. 이러한 배열은 모델 독립적 기법을 사용하여 광범위한 공기 샤워(EAS)의 에너지를 추정하고, 체렌코프 빛 방출 감지로 EAS의 장거리 발달을 추적할 수 있다. 2. 코스믹 레

HEP-EX Data Astrophysics
Astro WISE processing of wide field images and other data

Astro WISE processing of wide field images and other data

Catchy Title KO: 천문학의 데이터 처리 혁신, Astro WISE Abstract KO: 본 논문은 유럽 천문학자들이 개발한 대규모 천문 관측 데이터를 효율적으로 처리하기 위한 과학 정보 시스템인 Astro WISE 에 대해 소개하고 있습니다. Astro WISE는 다양한 천문 기기로부터 생성되는 방대한 양의 데이터를 효과적으로 관리하고 분석할 수 있도록 설계되었습니다. 이 시스템은 객체 지향 데이터 모델을 기반으로 하며, 사용자는 파이프라인에서 레시피(처리 단계)를 조합하여 원하는 최종 데이터 제품을 얻을 수 있습니다

Digital Libraries Data Computer Science Astrophysics
감마선 천문학의 새로운 지평: GammaLib 프레임워크

감마선 천문학의 새로운 지평: GammaLib 프레임워크

: GammaLib 프레임워크는 감마선 천문학의 데이터 분석에 혁신적인 접근법을 제시하고 있습니다. 이 논문은 GammaLib이 어떻게 다양한 감마선 관측 기기와 데이터 형식을 통합하여 고급 과학적 분석을 가능하게 하는지 설명합니다. 1. 감마선 천문학의 현재 상태 감마선 천문학은 에너지 범위가 넓고 다양한 감마선 망원경으로 구성되어 있습니다. 이러한 다양성에도 불구하고, 데이터는 대부분 개별 이벤트로 구성되며, 도착 시간, 방향, 그리고 에너지를 포함합니다. FITS와 OGIP 표준은 많은 우주 기반 망원경에 구현되었지만, 지상

Analysis Framework Astrophysics Data
대질량 별의 비열적 라디오 방출: Cyg OB2 No. 9를 중심으로

대질량 별의 비열적 라디오 방출: Cyg OB2 No. 9를 중심으로

본 논문은 대질량 별, 특히 Wolf Rayet 및 OB 유형의 별들이 비열적 라디오 방출을 나타내는 현상을 다루고 있다. 이 비열적 복사는 충돌 없는 충격에서 상대론적 전자가 가속되어 생성되는 페르미 메커니즘에 의해 발생한다. 이론 모델(Eichler & Usov, 1993)은 이러한 충격이 방사력적으로 주도되는 바람이 쌍성 또는 다중 시스템에서 충돌하여 발생한다는 것을 제시하고 있다. Cyg OB2 No. 9는 O5 + O6 7 쌍성으로, Van Loo 등 (2008)은 이 별의 라디오 복사 데이터가 약 2.355년의 주기로 변

Model Astrophysics Data
불일치 데이터에서 최적 측정값 찾기: 플랑크 상수 예시

불일치 데이터에서 최적 측정값 찾기: 플랑크 상수 예시

이 논문은 가우스 마코프 정리(Gauss Markov Theorem)를 기반으로, 일관되지 않은 측정 데이터에서 최적의 추정치를 찾는 방법에 대해 깊게 탐구하고 있습니다. 이 연구는 특히 플랑크 상수(h) 값을 예시로 들어, 불일치 데이터에서 최적의 측정값을 선택하는 방법을 설명합니다. 가우스 마코프 정리와 그 한계 가우스 마코프 정리는 일정한 값의 측정값과 관련된 불확실성을 주어진 경우, 편향이 없는 최소 분산 추정치는 가중 평균이라는 것을 명시합니다. 그러나 실제 데이터에서는 이 가정이 자주 틀리며, χ² 또는 버지 비율(Bir

Physics Data
GNU 데이터 언어(GDL)의 현황과 미래

GNU 데이터 언어(GDL)의 현황과 미래

: GDL은 천문학 분야에서 IDL의 무료 대체 소프트웨어로 널리 사용되고 있으며, 다양한 데이터 분석과 시각화 작업에 활용됩니다. GDL의 주요 특징 중 하나는 IDL과의 완벽한 문법 호환성으로, 기존 IDL 코드를 쉽게 GDL에서 실행할 수 있다는 점입니다. 이로 인해 천문학자들은 비용 부담 없이 고급 데이터 분석 및 시각화 작업을 수행할 수 있습니다. GDL은 다양한 플랫폼에서 실행 가능하며, Linux, BSD, Mac OSX, OpenSolaris 등 주요 운영 체제를 지원합니다. 또한, 여러 운영 체제에 대한 사전 컴파일

Computer Science Data Computational Engineering Astrophysics
데이터 복잡도 인식 딥 모델 성능 예측

데이터 복잡도 인식 딥 모델 성능 예측

이 논문은 “데이터 복잡도 인식 딥 모델 성능 예측”이라는 주제로, 모델 설계 단계에서 사전적으로 성능을 추정할 수 있는 경량화된 두 단계 프레임워크를 제시한다. 첫 번째 단계는 데이터 자체의 통계적·구조적 특성을 기반으로 베이스라인 성능을 예측한다. 여기에는 데이터 분산, 클래스 불균형, 이미지 해상도, 텍스트 길이 등 다양한 메트릭이 포함되며, 이러한 특성은 기존 연구에서 모델 복잡도와 직접적인 상관관계를 보인 바 있다. 두 번째 단계는 모델 아키텍처(예: 레이어 수, 파라미터 규모, 연산량)와 주요 하이퍼파라미터(학습률, 배치

Computer Science Data Machine Learning Model
에셔버스 물리·동역학·의도 기반 텔레오스페이셜 인텔리전스 오픈월드 벤치마크

에셔버스 물리·동역학·의도 기반 텔레오스페이셜 인텔리전스 오픈월드 벤치마크

본 논문은 인공지능·로보틱스 분야에서 최근 주목받고 있는 “텔레오‑스페이셜 인텔리전스(TSI)”라는 새로운 개념을 제시한다. 기존의 대부분 연구는 물체‑중심(object‑centric) 접근을 취해, 물리‑동역학(Physical‑Dynamic) 모델링에 집중한다. 예컨대, 물체의 질량·마찰·충돌 법칙을 이용해 시뮬레이션하거나, 비전 기반 트래킹을 통해 움직임을 예측한다. 이러한 방법은 정량적 정확도에서는 뛰어나지만, 인간이 물체를 조작하거나 배치하는 근본적인 ‘의도’를 파악하지 못한다는 한계가 있다. TSI는 이러한 한계를 극복하기

Computer Vision Computer Science Data
데이터 변동 상황에서 병리 비전‑언어 모델 성능 저하 탐지

데이터 변동 상황에서 병리 비전‑언어 모델 성능 저하 탐지

본 논문은 최근 의료 영상 분야에서 각광받고 있는 비전‑언어 모델(VLM)의 실제 운영 단계에서 발생할 수 있는 ‘데이터 시프트(data shift)’ 문제에 초점을 맞추었다. 데이터 시프트는 크게 두 가지 차원으로 나뉜다. 첫 번째는 입력 데이터 자체가 훈련 시와 다른 분포를 보이는 경우이며, 두 번째는 모델이 출력하는 예측값이나 신뢰도(confidence)가 변하는 경우이다. 기존 연구들은 주로 입력 차원의 통계적 변화를 탐지하는 방법에 의존했지만, 이러한 변동이 반드시 모델 성능 저하와 직결되지 않는다는 점을 간과하고 있었다.

Computer Science Model Data Computer Vision
LLM으로 라벨링된 룩셈부르크어 NER 품질 평가

LLM으로 라벨링된 룩셈부르크어 NER 품질 평가

judgeWEL 논문은 저자원 언어인 룩셈부르크어에 대한 NER 데이터 구축이라는 실질적인 문제에 대해 창의적인 해결책을 제시한다. 가장 큰 강점은 두 가지 측면에서 약한 감독을 활용한다는 점이다. 첫째, 위키피디아 내부 링크와 위키데이터의 구조화된 메타데이터를 연결함으로써 엔터티 유형을 자동으로 추론한다는 아이디어는 기존의 규칙 기반 혹은 사전 매핑 방식보다 확장성이 뛰어나다. 위키피디아는 지속적으로 업데이트되며 다양한 도메인을 포괄하므로, 이 접근법은 새로운 엔터티가 등장해도 비교적 쉽게 반영될 수 있다. 둘째, 자동 라벨링 단

Computer Science NLP Data
고성능 머신러닝 스트림 컴퓨팅을 위한 데이터플로우 프레임워크

고성능 머신러닝 스트림 컴퓨팅을 위한 데이터플로우 프레임워크

본 논문은 데이터 과학 실무에서 가장 빈번히 마주치는 ‘데이터는 유한하고 완전하다’는 가정을 근본적으로 뒤흔든다. 전통적인 배치 기반 워크플로우는 고정된 데이터셋을 한 번에 메모리로 로드하거나 단일 패스로 처리한다는 전제하에 설계되었으며, 이는 센서 스트림, 금융 거래 로그, 시스템 이벤트와 같이 시간에 따라 지속적으로 생성되는 데이터와는 근본적으로 맞지 않는다. 저자는 이러한 불일치를 해결하기 위해 Causify DataFlow라는 통합 컴퓨테이셔널 모델을 제안한다. 첫째, 프레임워크는 DAG를 선언적으로 정의하고, 동일한 정의를

Framework Machine Learning Computer Science Learning Data
위성 데이터 처리의 혁신: 회전 모드에서의 SPIPI 알고리즘

위성 데이터 처리의 혁신: 회전 모드에서의 SPIPI 알고리즘

본 논문은 현대 위성 실험의 복잡성을 고려한 데이터 처리 시스템 개발 방법론에 초점을 맞추고 있다. 특히, 회전 모드에서의 데이터 처리를 위한 SPIPI 알고리즘을 제안하고, 이를 통해 위성 기반 실험에서 발생하는 다양한 자원 관련 제약 조건을 해결하려는 의도가 명확히 드러난다. 1. 시스템 개요 및 문제 인식 현대 위성 실험은 비행 및 지상 세그먼트로 구성된 복잡한 실시간 시스템으로, 크기, 무게, 전력 소비, 실시간 응답 요구사항, 고장 내성 등의 자원 관련 제약 조건을 가진다. 이러한 시스템은 높은 수준의 보증이 필요하며, 하

Software Engineering System Data Computer Science Astrophysics
No Image

실리콘 장벽을 넘어서: 인간 유전체 데이터베이스의 오염 문제

: 이 논문은 생명정보학 분야에서 중요한 이슈 중 하나인 데이터베이스 오염에 대해 깊게 다룹니다. 특히, 인간 유전체 서열 데이터의 정확성과 신뢰성이 중요함에도 불구하고, 이러한 데이터가 곰팡이 DNA로 오염되어 있다는 사실을 발견한 연구진은 이 문제를 심각하게 받아들입니다. 1. 데이터베이스 오염의 배경 인간 유전체 서열이 처음 출판되었을 때부터, 데이터 정화 문제가 논의되었습니다. 그러나 이러한 논의는 주로 기술적 측면에 초점을 맞추었으며, 실제 데이터 오염 문제를 완전히 해결하지 못했습니다. 최근 연구에서는 인간 유전체 서열이

Quantitative Biology Data
데이터 주도적 접근을 통한 콘크리트 혼합물 조성의 염화물 수송에 대한 영향 분석

데이터 주도적 접근을 통한 콘크리트 혼합물 조성의 염화물 수송에 대한 영향 분석

이 논문은 콘크리트 구조물 내에서 염화물의 시간 경과 변화에 미치는 혼합물 조성의 영향을 분석하는데 초점을 맞추고 있다. 이를 위해 다양한 머신러닝 알고리즘을 사용하여 데이터 주도적 접근법을 적용한다. 연구 방법론은 간단한 선형 회귀, k 최근접 이웃 회귀, 커널 리지 회귀와 복잡한 서포트 벡터 회귀, 가우시안 프로세스 회귀, 다층 퍼셉트론(MLP), 게이트 순환 유닛(GRU)을 포함한다. 각 알고리즘의 성능은 다양한 지표를 통해 평가되며, 특히 GPR 모델은 명확하고 설명 가능한 추세를 제공하여 숨겨진 상관관계를 드러내는 데 효과

Computer Science Learning Data Machine Learning
No Image

인공지능 생성 이미지 탐지를 위한 대규모 COCO 기반 데이터셋 공개

본 논문이 제시하는 MS COCOAI 데이터셋은 현재 이미지 진위 탐지 연구에서 가장 시급히 요구되는 ‘다양성’과 ‘규모’를 동시에 만족한다는 점에서 큰 의미를 가진다. 첫째, 기존 데이터셋들은 주로 단일 생성 모델이나 제한된 프롬프트 세트를 사용해 만든 이미지에 국한돼 있었으며, 이는 실제 현장에서 마주치는 다양한 AI 툴과의 격차를 초래한다. 반면 본 데이터셋은 Stable Diffusion 3·2.1·SDXL, DALL‑E 3, MidJourney v6 등 최신 모델을 모두 포함함으로써, 현재 시장에서 널리 사용되는 주요 생성

Computer Science Data Detection Computer Vision
가중치 이상치 완화를 위한 데이터프리 회전 최적화 OptRot

가중치 이상치 완화를 위한 데이터프리 회전 최적화 OptRot

대형 언어 모델(LLM)은 수억에서 수조 개의 파라미터를 보유하고 있어, 실제 서비스 환경에서 메모리와 연산 비용을 크게 절감하기 위해 사후 양자화(post‑training quantization, PTQ)가 필수적이다. 그러나 LLM의 가중치와 활성값에는 “이상치(outlier)”라 불리는 극단적인 값들이 존재한다. 이러한 이상치는 양자화 단계에서 스케일링을 크게 잡아야 하므로, 전체 분포가 과도하게 압축되고 결과적으로 정밀도가 크게 떨어진다. 기존 연구는 이 문제를 해결하기 위해 회전(rotation) 기법을 도입했는데, 회전은

Computer Science Data Machine Learning
대규모 사전학습 비전 모델을 위한 클러스터 어텐션 어댑터

대규모 사전학습 비전 모델을 위한 클러스터 어텐션 어댑터

본 연구는 현재 컴퓨터 비전 분야에서 가장 큰 도전 과제 중 하나인 “대규모 사전 학습 모델을 데이터가 부족한 특수 도메인에 효과적으로 전이시키는 방법”을 해결하고자 한다. 기존의 파인튜닝 방식은 사전 학습된 가중치를 그대로 사용하거나, 전체 네트워크를 미세조정하는 방식에 머물러 있어, 도메인 간 분포 차이가 클 경우 과적합이나 표현 손실이 발생한다. CLAdapter는 이러한 한계를 극복하기 위해 두 가지 핵심 아이디어를 결합한다. 첫째, 클러스터 중심을 활용해 입력 특징 공간을 여러 개의 의미론적 그룹으로 나누고, 각 클러스터에

Data Model
시각 인지 기반 가짜 색채가 ECG 딥러닝의 원샷 학습과 해석성을 크게 향상시킨다

시각 인지 기반 가짜 색채가 ECG 딥러닝의 원샷 학습과 해석성을 크게 향상시킨다

이 논문은 현대 의료 인공지능이 직면한 두 가지 핵심 문제—데이터 부족과 블랙박스 현상—에 대한 혁신적인 해결책을 제시한다. 먼저, ‘가짜 색채(pseudo‑colouring)’라는 개념은 원래 인간 전문가가 ECG를 시각적으로 해석할 때 중요한 시간적 특징, 예컨대 QT 간격을 색상으로 강조함으로써 인지 부하를 낮추는 방법으로 알려져 있다. 이를 디지털 이미지에 그대로 적용하면, 신경망이 원시 전압 파형 대신 색상 채널을 통해 의미 있는 정보를 직접 받아들일 수 있다. 색상은 3차원(RGB) 공간에서 서로 다른 시간 구간을 구분하

Network Data Learning
관상동맥 조영술 기반 데이터 구동 관상동맥 미세혈관 기능 지수 추정 프레임워크

관상동맥 조영술 기반 데이터 구동 관상동맥 미세혈관 기능 지수 추정 프레임워크

관상동맥 미세혈관 기능장애(CMD)는 전통적인 관상동맥 질환 진단에서 간과되기 쉬운 중요한 병리학적 현상이다. 기존에 CMD를 평가하기 위해서는 압력 와이어를 이용해 미세관 저항 지수(IMR)와 관상동맥 혈류 예비율(CFR)을 직접 측정해야 하는데, 이러한 침습적 방법은 비용이 높고 시술 시간이 길며, 환자에게 출혈·혈관 손상 등 부작용 위험을 동반한다. 따라서 임상 현장에서 CMD를 체계적으로 파악하기는 현실적으로 어려운 점이 있다. 본 연구는 이러한 한계를 극복하고자, 이미 임상에서 널리 사용되는 관상동맥 조영술 영상을 활용해

Data
대규모 암 데이터 자동 추출을 위한 에이전트 기반 LLM 프레임워크

대규모 암 데이터 자동 추출을 위한 에이전트 기반 LLM 프레임워크

본 논문은 전자 건강 기록(EHR) 내에 산재해 있는 비구조화 텍스트를 활용해 암 환자에 대한 정밀한 임상 정보를 자동으로 구조화하는 문제에 접근한다. 기존 연구들은 크게 두 가지 한계에 봉착한다. 첫째, 합성 데이터셋을 이용하거나 제한된 실제 데이터에만 의존함으로써 실제 임상 현장의 복잡성을 충분히 반영하지 못한다는 점이다. 합성 데이터는 용어 다양성, 문서 형식 변이, 그리고 환자 간 정보 충돌을 재현하기 어렵다. 둘째, 대부분의 자동화 방법이 문서 수준에서 특정 변수만을 추출하도록 설계돼, 환자 전체 기록을 통합해 일관된 프로

Data
터널 결함 자동 검사 위한 새로운 데이터셋 소개

터널 결함 자동 검사 위한 새로운 데이터셋 소개

본 논문은 터널 결함 검사를 위한 새로운 데이터셋을 소개하며, 이는 딥러닝 모델의 학습과 성능 개선에 중요한 역할을 합니다. 터널은 교통 인프라의 주요 구성 요소로, 안전성을 유지하기 위해 정기적인 점검이 필수적입니다. 하지만 전통적인 수동 검사 방법은 시간 소모가 많고 비용이 높으며 주관적이어서 제한점이 있습니다. 모바일 매핑 시스템과 딥러닝의 발전으로 자동화된 시각 검사가 가능해졌지만, 이를 위한 충분한 데이터셋이 부족하여 그 효과가 제한되어 왔습니다. 본 논문에서 소개하는 새로운 데이터셋은 세 가지 다른 종류의 터널 라이닝에

Learning Data Detection
No Image

changning지역의 고해상도 지진파 배열을 활용한 소규모 지진 파열 과정 연구

이 논문은 중국 시촨 분지 changning 지역에서 수집된 고밀도 노드 지진계 배열 데이터를 활용하여, 소규모 지진의 파열 과정을 정교하게 분석하는 데 초점을 맞추고 있습니다. 연구팀은 PhaseNet+와 SKHASH라는 알고리즘을 사용해 1<M<4 범위의 여진들의 포커스 메커니즘 카탈로그를 향상시켰습니다. 이를 통해, 두 개의 M3 여진에서 방향성에 따른 코너 주파수를 관찰하고 Brune 모델을 사용한 스펙트럼 피팅으로 일방적 파열이 확인되었습니다. 특히, 이 연구는 changning 지역의 복잡한 단면 구조와 지하 유체 주입과

Data
메타데이터 강화로 기업용 RAG 검색 성능 극대화

메타데이터 강화로 기업용 RAG 검색 성능 극대화

본 논문은 기업용 지식 관리 시스템에서 흔히 겪는 “정보 검색 병목” 문제를 해결하기 위해 메타데이터를 자동으로 생성·활용하는 새로운 파이프라인을 제안한다. 먼저, 대형 언어 모델을 이용해 각 문서 조각에 대해 주제, 키워드, 요약, 관계 등 다차원 메타데이터를 추출한다. 이러한 메타데이터는 기존 텍스트 임베딩에 추가적인 시그널을 제공함으로써, 동일한 의미를 공유하는 문서 간의 거리 계산을 보다 정교하게 만든다. 청킹 전략은 세 가지로 구분된다. ① 의미 기반 청킹은 문맥적 유사성을 기준으로 문서를 동적으로 분할해 의미 단위가 보존

Framework Data System
단답형 구성형 질문 자동 채점 근접 데이터 활용 프레임워크

단답형 구성형 질문 자동 채점 근접 데이터 활용 프레임워크

본 연구가 다루는 핵심 문제는 ‘구성형 짧은 답변 채점’이라는 교육 현장의 난제이다. 전통적인 자동 채점 시스템은 객관식처럼 정답이 명확히 정의된 경우에만 높은 정확도를 보이며, 자유 서술형 답변은 표현 다양성, 어휘 선택, 문맥적 의미 등 복합적인 변수를 포함한다. 따라서 사전 정의된 루브릭 없이도 정확히 채점하려면 방대한 학습 데이터와 정교한 의미 이해가 필요하다. 저자들은 이러한 난점을 극복하기 위해 ‘근접 데이터(near‑domain data)’라는 개념을 도입한다. 이는 동일하거나 유사한 주제·난이도의 과거 시험 문항과 학

Data
시뮬레이션‑실측 격차를 메우는 얕은 순환 디코더 기반 데이터 동화 프레임워크

시뮬레이션‑실측 격차를 메우는 얕은 순환 디코더 기반 데이터 동화 프레임워크

본 논문은 현대 센서 네트워크가 직면한 두 가지 근본적인 한계, 즉 측정 포인트의 희소성 및 시뮬레이션 모델의 불완전성을 동시에 해결하려는 시도로서, 머신러닝 기반 데이터 동화 프레임워크 DA‑SHRED 를 제시한다. 기존 데이터 동화 기법은 주로 칼만 필터, 변분 동화, 혹은 최근의 딥러닝 기반 접근법에 의존해 왔으며, 이들은 고차원 상태 공간을 직접 다루는 경우 계산 비용이 급격히 증가하거나, 물리적 제약을 충분히 반영하지 못한다는 문제점을 안고 있다. DA‑SHRED 는 이러한 문제점을 회피하기 위해 먼저 SHRED 라는 얕은

Data Model
No Image

인도 에모스피치 명령 데이터셋: 야외에서 감정 기반 음성 인식을 위한 데이터셋

This paper introduces the Indian EmoSpeech Command Dataset, a new dataset for speech emotion analysis that takes into account both verbal and non verbal components of speech in real life scenarios. The research addresses the challenge faced by traditional models which often operate under controlled

Multimedia Electrical Engineering and Systems Science Computer Science Sound Audio Processing Data
우주선과 암흑물질의 충돌: PAMELA와 ATIC 데이터에서 관찰된 피크 현상 분석

우주선과 암흑물질의 충돌: PAMELA와 ATIC 데이터에서 관찰된 피크 현상 분석

: 1. 서론 분석 암흑물질은 주로 중력에 의해만 드러나는 것으로 알려져 있지만, 빛나는 중성미자 암흑물질의 경우, 가벼운 중성미자(mₙ ≤ 10⁻³ GeV)로 구성될 때에는 약한 상호작용에도 참여할 수 있다. 본 연구에서는 우주선 양성자와 중성미자 암흑물질 간의 충돌을 분석한다. 이 과정은 차기(chargino) 생성과 레프톤 붕괴를 동반하며, 최종적으로 전자 반중성미자 쌍이 생성된다. 2. 과정 분석 논문에서는 에너지 및 운동량 보존 법칙을 사용하여 중성미자와 차기의 에너지를 계산한다. 이는 다음과 같은 방정식으로 표현된다: 중

Astrophysics Data

< 분야별 논문 현황 (Total: 770) >

Electrical Engineering and Systems Science
7
General
273
General Relativity
9
HEP-EX
7
HEP-PH
12
HEP-TH
7
MATH-PH
4
NUCL-TH
1
Quantum Physics
10

검색 시작

검색어를 입력하세요

↑↓
ESC
⌘K 단축키