데이터 수집 방법

2026. 4. 21. 13:17·🤖​AI Tools/AI 리뷰 분석

데이터 수집 방법

데이터를 구하는 방법은 크게 3 가지가 있다.


공개 데이터셋

이미 누군가 모아놓은 데이터

  • Kaggle : 데이터와 경진대회 플랫폼
  • HugginFace : AI 모델과 데이터를 공유하는 플랫폼
  • 공공데이터포털

 

장점

수집과 정제가 이미 끝난 상태라 바로 사용할 수 있다.

비용도 들지 않는다.

 

단점

내가 원하는 데이터가 없을 수도 있다.

특히 최신 데이터는 없는 경우가 많다.

데이터가 어떻게 수집 되었는지 모를 수도 있다.

품질 검증이 필요하다.


공개 API

어떤 서비스에서 공식적으로 제공하는 통로

  • Steam API
  • Youtube API
  • Naver API

 

장점

서비스 제공자가 공식적으로 허락한 방법이라 제일 안전하다.

법적인 리스크가 거의 없다.

 

단점

제공하는 데이터만 받을 수 있다.


웹 스크래핑

웹 페이지에서 데이터를 직접 긁어오는 방법

브라우저에서 보이는 건 무엇이든 가져올 수 있다.

  • BeautifulSoup
  • Selenium
  • Scrapy

 

장점

자유도가 높다.

 

단점

법적 리스크가 있다.

이용약관 위반 , 업무방해 등으로 큰 문제가 될 수 있다.


API 호출 과정

1. 게임 ID 입력

스팀 기준으로 스팀 사이트에는 각각의 게임이 있고 게임 별로 고유의 ID 가 존재한다.

 

 

2. API 주소 생성

게임 별 고유의 ID 로 URL 을 생성한다.

스팀 리뷰 API 주소로 요청을 보내면 스팀 서버가 그 게임의 리뷰 데이터를 준다.
 
 
 
3. 응답 수신
 

서버가 응답을 보내주면 보통 JSON 형식으로 데이터를 보내준다.

JSON은 웹에서 데이터를 보내줄때 표준 형식이다.

중괄호 안에 키와 값이 쌍으로 들어있다.

Success : 1 은 요청이 성공했다는 뜻이다.

total_reviews : 5847 은 이 게임의 총 리뷰 수를 말한다.


API 응답 데이터 구조

{
  "recommendationid": "12345678",
  "author": {
    "steamid": "76561198...",
    "playtime_forever": 2520
  },
  "review": "진짜로 게임이라기보단 놀이터에 가깝지만 놀수도 있고 친구도 사귀고...",
  "voted_up": true,
  "timestamp_created": 1609459200,
  "votes_up": 15,
  "language": "korean"
}
  1. review : 리뷰 텍스트
  2. voted_up : true 는 추천, false 는 비추천
  3. playtime_forever : 플레이 시간 ( 분 단위 , ÷ 60 = 시간 )
  4. language : 리뷰 언어

'🤖​AI Tools > AI 리뷰 분석' 카테고리의 다른 글

Hades 리뷰 분석  (0) 2026.04.22
API 로 데이터 수집 2  (0) 2026.04.22
API 로 데이터 수집하기  (0) 2026.04.22
Python 정리  (0) 2026.04.21
텍스트 리뷰 분석  (0) 2026.04.14
'🤖​AI Tools/AI 리뷰 분석' 카테고리의 다른 글
  • API 로 데이터 수집 2
  • API 로 데이터 수집하기
  • Python 정리
  • 텍스트 리뷰 분석
DevHoChan
DevHoChan
맨땅에서 시작하는 코딩 도전
  • DevHoChan
    Debugging Life
    DevHoChan
  • 전체
    오늘
    어제
    • 분류 전체보기 (374)
      • 🕹️Game Life (1)
      • 🖥️Computer Science (5)
      • 📖TIL (141)
        • 🔥Projects (16)
        • 💡DevTips (5)
        • 🤔발생한 문제와 해결 (5)
        • 🔮Unity Graphics (5)
        • 🎤Interview (3)
        • ✅CodingTest (9)
      • 🚀Game Release (4)
      • 🧊Unity Basic (58)
        • 📌용어 사전 (1)
        • 에디터&인터페이스 (3)
        • 디버그 (1)
        • 라이프사이클 (4)
        • 게임오브젝트 (4)
        • 프리팹 (1)
        • 오브젝트풀링 (4)
        • 애트리뷰트 (2)
        • 트랜스폼 (4)
        • 물리&충돌 (1)
        • 프레임&델타타임 (4)
        • 코루틴&이벤트 (7)
        • 수학&보정함수 (3)
        • 디자인패턴 (9)
        • UGUI (3)
        • 벡터 ( Vector ) (3)
        • 씬 ( Scene ) (2)
        • 데이터 관리 (2)
      • ⭐C Sharp (99)
        • 📌용어 사전 (1)
        • 📌문법 사전 (6)
        • 메모리 관리 (3)
        • 00. 문법 (17)
        • 01. 변수 (3)
        • 02. 자료형 (2)
        • 03. 연산자 (6)
        • 04. 조건문 (2)
        • 05. 반복문 (2)
        • 06. 배열 (3)
        • 07. 메서드(함수) (7)
        • 08. 열거형 (3)
        • 09. 구조체 (2)
        • 10. 참조 (2)
        • 11. 객체 지향 (11)
        • 12. 델리게이트 (3)
        • 13. 디자인 패턴 (7)
        • 14. LINQ (1)
        • 📂▼자료구조 (2)
        • 15-1. 제네릭 (3)
        • 15-2. 배열 (4)
        • 15-3. 리스트 (2)
        • 15-4. 스택과 큐 (2)
        • 15-5. 딕셔너리 해시테이블 (2)
        • 15-6. 트리와 그래프 (3)
      • 📊Algorithm (16)
        • BigO (2)
        • 정렬 (4)
        • 셔플 (2)
        • 탐색 (6)
        • 최적화 (1)
      • 📝Game Design (16)
      • 🤖​AI Tools (12)
        • AI 리뷰 분석 (6)
        • Player2 (0)
        • 3D 모델링 (1)
        • 2D 스프라이트 (0)
        • 이미지 (2)
        • 사운드 (1)
        • 동영상 (1)
        • 문서 (1)
      • 🌍Network (6)
      • 🌱Github (11)
        • 기본 개념 (7)
        • 명령어 (1)
        • 도구 활용 (1)
      • ⚙️Visual Studio (5)
        • 🔧설치 및 환경설정 (2)
        • ⌨️HotKey (1)
        • 🚨디버깅 (1)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    til
    객체지향
    gamedesign
    디자인패턴
    부트캠프
    유니티
    GitHub
    unity
    c#
    OOP
    CodingTest
    자료구조
    게임기획
    메모리관리
    자료형
    csharp
    기획
    algorithm
    게임디자인
    문법
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.4
DevHoChan
데이터 수집 방법
상단으로

티스토리툴바