공부/노가다

RSS, feed를 알아보자

농사꾼개발자 2022. 7. 1. 01:47

RSS와 feed에 대해서 알아보고 단순 반복 작업을 하지 않아도 되도록 자료수집 페이지를 만들어 보자

RSS는 무엇????

RSS(Really Simple Syndication, Rich Site Summary)란 블로그처럼 컨텐츠 업데이트가 자주 일어나는 웹사이트에서, 업데이트된 정보를 쉽게 구독자들에게 제공하기 위해 XML을 기초로 만들어진 데이터 형식

출처 : RSS 서비스 안내 (weather.go.kr)

RSS리더기에 원하는 정보의 RSS주소를 추가하여 실시간으로 업데이트 데이터를 확인 할수 있다.

Feed43는 무엇????

Feed43은 RSS 를 추출 해주는 사이트
Feed43 : Convert web pages into professionally looking RSS feeds

 

Feed43: Convert web pages into professionally looking RSS feeds.

Offer your customers a convenient way to follow your news. Use Feed43 as a powerful information aggregation platform for your business. Or use Feed43 to streamline the way you read the news from websites you care about.

feed43.com

 

Feedly는 무엇????

Feedly는 RSS 리더
https://feedly.com/

 

Feedly – More signal, less noise

Keep up with the topics and trends you care about, without the overwhelm. Make your research workflow efficient and enjoyable. Experience the power of RSS.

feedly.com

 

Feed43을 이용하여 내가 원하는 정보를 RSS로 만들고 Feedly에 등록하여 실시간 자료수집을 해보자

1. 대상선정

토지이음 사이트에서 택지정보의 새로운 고시문에 대해 실시간 자료 수집이 가능하게끔 해보자

feed43으로 rss를 생성할 대상

feed43.com에 접속하여 제일 아래쪽에 위치한 create your first feed 버튼을 클릭

사이트 이용 약관에 대해서 동의를 하고 수집 대상 URL 주소를 입력

이용약관 동의..보감
수집 대상 URL 기입
고시정보 결정고시에 대한 URL주소를 복사
위에서 복사한 URL 정보를 기입하고 Reload 버튼을 클릭

URL 주소를 입력하고 Reload 버튼을 클릭하면 PageSource가 나온다

RSS 생성 대상이 될 '고시정보 테이블'이 보인다

수집 대상 정보는 고시정보 테이블에서 고시명과 해당 고시문 링크주소를 수집할 예정

2. 수집대상 데이터 추출

추출한 데이터의 패턴을 정의

STEP2의 설명을 읽어보면 추출할 데이터에 대한 패턴을 어떻게 생성할 수 있는지 자세히 나옴

고시문 링크 및 타이틀 구조 확인

먼저 Item (repeatable) Search Pattern*을 정의

<a href='{%}' title='{%}' >

정의한 패턴에 해당되는 결과값이 출력

 

3. RSS 정의 및 생성

생성할 RSS의 Title, Description Item 정보를 입력
{%1} 인 링크주소 {%2)는 title 이기 때문에 위와 같이 설정
preview 결과
RSS 주소가 생성되었다!!!!! 브라우저 새창을 열어 호출을 해보자

Feed URL:  https://feed43.com/0428603582231024.xml ?

Point your feed reader to this URL or click to open it.

Edit URL: https://feed43.com/feed.html?name=0428603582231024 ?

Please save this link for future use.

잘 나온당!!!

눈이 아프지만 Feedly에 방금 생성한 RSS를 넣어보자

4. Feedly 연동

Feedly 사이트에 접속해서 계정을 생성하자
공짜니까 안심하고 생성하자

사용할 이름 입력
Personal 선택
feedly 이용 목적을 선택하자... 우리는 첫번째
뉴스를 선택해서 자동으로 websites에 추가가 되는듯???

좌측에 CREATE A FOLDER를 선택하여 NEW_GOSI라고 하나 생성하자

토지이음 고시문 생성!!

 

문제 발생

※ feedly에 생성한 rss주소를 넣으면 URL주소가 node2.feed43.com으로 변경이 되면서 접속이 안되는 현상이 발생함

이것저것 찾다 보니

 

HSTS(HTTP Strict Transport Security)

HSTS(HTTP Strict Transport Security)는, Web Site에 접속할 때, 강제적으로 HTTPS Protocol로만 접속하게 하는 기능. HTTPS Protocol을 지원하는 Web Site 에서, 자신은 HTTPS Protocol만 사용해서 통신할 수 있음을, 접속하고자 하는 Web Browser에게 알려 주는 기능. 보안을 강화시킬 목적으로, Web Browser에게 HTTPS Protocol만 사용하도록 강제하는 기능

 

이것 때문에 오류가 계속 발생했음

 

http://node2.feed43.com 

 

Feed43: Convert web pages into professionally looking RSS feeds.

Offer your customers a convenient way to follow your news. Use Feed43 as a powerful information aggregation platform for your business. Or use Feed43 to streamline the way you read the news from websites you care about.

feed43.com

문제해결

https://feed43.com이이 아닌 http://node2.feed43.com 에 접속해서 rss를 생성하면 오류 발생하지 않음

 

https가 아닌 http로 생성한 주소를 feedly에 입력
FOLLOW 버튼을 눌러보자
정상적으로 잘 등록됨
Title-Only View로 변경하면 좀 더 보기가 수월함

 

  • 매일매일 사이트에 접속해서 새로운 글이 작성된것이 있나 없나 확인 안해도 됨
  • 토지이음 뿐만 아니라 시군구, 도청, 개발공사 등 다른 사이트에도 응용가능
  • 추가로 좀 더 생각해보면 python이랑 연동해서 첨부된 파일까지 자동 수집 되게끔 가능하지 않을까?
  • htts://feed43.com http://node2.feed43.com 문제 때문에 생각보다 시간이 많이 걸림