独自ウェブサイトからのスクレイピングを経由したOER登録方法
OERリポジトリでは,スクレイピング技術を用いて各機関が提供するOER用のプラットフォームからOERのメタデータを収集しています.
スクレイピングの対象への追加をご希望される場合は,OE Japan,もしくはNIIへご相談ください.
*工数の問題上,実施が難しい場合がございます.あらかじめご了承ください.
*OERリポジトリ上でメタデータ項目(出版日)が(2022-3-24)となっている項目は,以下説明とは異なるプログラムで取得しております.技術の詳細は以下文献をご参照ください.
重田ほか(2024)複数の高等教育機関が公開するOCWコンテンツ横断検索システムの開発
現在,スクレイピング用のプラットフォームとして,国立情報学研究所が提供するGakuNin RDMと,その一機能であるデータ解析機能を利用しています.GakuNin RDMとは,研究データ管理用のサービスであり,ファイルの保管・管理などが可能です.また,データ解析機能では,PythonやRのプログラムを開発・実行できるデータ解析環境を提供しており,本開発では,データ解析環境上でPythonを利用し,取得したファイルの管理などはGakuNin RDMのプロジェクト上で実施しています.
プログラム自体については,Pythonスクレイピング用として汎用的に利用されているScrapyのフレームワークを用いて構築しています.Scrapyの基盤を利用することで,データの流れや制御に関する処理の機関間での共通化を目指しています.各大学固有の処理は独立した個別のファイルに記述することで,ウェブサイトごとに異なる表現や場所に記載されているメタデータを収集できるように開発しています.
スクレイピングの流れ
既登録メタデータのファイル化
OERリポジトリに既に登録されているOERのメタデータ(既登録メタデータ)をファイル化します.
ファイルの解析機能へのアップロード
ファイル化した既登録メタデータを,GakuNin RDMのデータ解析機能へアップロードします.
プログラムの実行
開発したスクレイピングプログラムを解析機能上で実行します.
取得メタデータの生成
スクレイピングによって取得されたOERのメタデータがファイル(取得メタデータ)として生成されます.
既登録メタデータと取得メタデータの照合
既登録メタデータと取得メタデータを照合し,新規登録が必要なメタデータ(新規登録メタデータ)を抽出します.
新規登録メタデータの形式変換およびアップロード
新規登録メタデータをOERリポジトリ(WEKO3)へアップロードするために,形式変換を行います.アップロード作業は手動で行います.
不足メタデータの追加
必要に応じて,不足しているメタデータをこの段階で追加します.
Last updated