追記(8月31日)
ここのリストは旧版です。本文検索とPDFへのリンクを加えた改良版があります。
昨日の最後に書いた、Seesaaにある旧ブログ記事のアーカイブ化に着手しました。まず全記事リストを作ったので載せます。PostgreSQLと無関係、または過去のPCや日常の話で無意味なものも多いですが一応記録として。 リスト作成・表示に使った手順は、HTMLからリンク抽出 → PostgreSQLへ取り込み → TSV出力してWebページのテーブル化という流れ。他所でも役立ちそうなので、明日以降紹介します。 リストの元は ↓ このTSVファイル。文字コードはUTF-8。ヘッダはありませんが少ない列数なので分かると思います。必要なら自由に使って下さい。 kenpg_seesaa_lists.tsv.txt(693 rows, 78.4 kB)
DateTitleTagsloading...

リスト作成・表示までの手順

• BashスクリプトとcURL … 旧ブログにある全てのindex-XX.htmlを取得・保存
• PostgreSQLとpsql … 上記HTMLから正規表現で記事リストを作成し、TSVに保存
• JavaScript … TSVを動的に読み込み、テーブル化 詳細は明日以降、書きます。以下2記事に書きました。 » PostgreSQLの正規表現でHTML内のリンクを抽出・整理してTSV出力
» タブ区別りテキスト(TSV)をHTMLテーブルにする簡単なサンプル