ユーザ用ツール

サイト用ツール


web_archive:archivebox

差分

この文書の現在のバージョンと選択したバージョンの差分を表示します。

この比較画面にリンクする

両方とも前のリビジョン 前のリビジョン
次のリビジョン
前のリビジョン
web_archive:archivebox [2019/08/19 12:12]
matoken [一部のページでエラーとなり取得できない]
web_archive:archivebox [2019/08/19 14:21] (現在)
matoken
ライン 195: ライン 195:
  
 日本のproxyを使うか日本IPのサーバを使うくらい?​ 日本のproxyを使うか日本IPのサーバを使うくらい?​
 +
 +
 ### json.decoder.JSONDecodeError:​ Extra data ### json.decoder.JSONDecodeError:​ Extra data
  
ライン 265: ライン 267:
  
 手で修正したらまた動くようになった. 手で修正したらまた動くようになった.
 +
  
  
ライン 278: ライン 281:
  
 起こるページは文字コードがShift_JISのよう 起こるページは文字コードがShift_JISのよう
 +
 ``` ```
 $ curl -s https://​www.mbc.co.jp/​news/​ | grep -i charset= $ curl -s https://​www.mbc.co.jp/​news/​ | grep -i charset=
ライン 287: ライン 291:
  
 試しに小さなShift_JISのページを作ってみる 試しに小さなShift_JISのページを作ってみる
 +
 ``` ```
 $ echo '<​html>​ $ echo '<​html>​
ライン 309: ライン 314:
 * [Error if the character code is Shift_JIS · Issue #257 · pirate/​ArchiveBox · GitHub](https://​github.com/​pirate/​ArchiveBox/​issues/​257) * [Error if the character code is Shift_JIS · Issue #257 · pirate/​ArchiveBox · GitHub](https://​github.com/​pirate/​ArchiveBox/​issues/​257)
  
 +
 +### json.decoder.JSONDecodeError:​ Expecting property name enclosed in double quotes: line 30575 column 303 (char 1611858) ​                                                          
 +
 +
 +```
 +Traceback (most recent call last):
 +  File "​./​archive",​ line 136, in <​module>​
 +    main(*sys.argv)
 +  File "​./​archive",​ line 98, in main
 +    update_archive_data(import_path=import_path,​ resume=resume)
 +  File "​./​archive",​ line 118, in update_archive_data
 +    archive_link(link_dir,​ link)
 +  File "/​home/​matoken/​usr/​local/​ArchiveBox/​archivebox/​archive_methods.py",​ line 109, in archive_link ​                                                                           ​
 +    patch_links_index(link)
 +  File "/​home/​matoken/​usr/​local/​ArchiveBox/​archivebox/​index.py",​ line 177, in patch_links_index ​                                                                                
 +    json_file_links = parse_json_links_index(out_dir)
 +  File "/​home/​matoken/​usr/​local/​ArchiveBox/​archivebox/​index.py",​ line 108, in parse_json_links_index ​                                                                           ​
 +    links = json.load(f)['​links'​]
 +  File "/​usr/​lib/​python3.7/​json/​__init__.py",​ line 296, in load
 +    parse_constant=parse_constant,​ object_pairs_hook=object_pairs_hook,​ **kw)
 +  File "/​usr/​lib/​python3.7/​json/​__init__.py",​ line 348, in loads
 +    return _default_decoder.decode(s)
 +  File "/​usr/​lib/​python3.7/​json/​decoder.py",​ line 337, in decode
 +    obj, end = self.raw_decode(s,​ idx=_w(s, 0).end())
 +  File "/​usr/​lib/​python3.7/​json/​decoder.py",​ line 353, in raw_decode
 +    obj, end = self.scan_once(s,​ idx)
 +json.decoder.JSONDecodeError:​ Expecting property name enclosed in double quotes: line 30575 column 303 (char 1611858)
 +```
 +
 +jsonの該当行を見ると `https://​www.mbc.co.jp/​` のコンテンツだった.恐らく[[web_archive:​archivebox#​一部のページでエラーとなり取得できない]] と同じ問題
  
web_archive/archivebox.1566184325.txt.gz · 最終更新: 2019/08/19 12:12 by matoken