使用应用程序在这里.
使提取数据尽可能地开放和可访问意味着找到现有数据并在分析和可视化中使用它。通常情况下,这些数据以PDF报告的形式发布。
pdf并不是数据发布的理想格式。pdf中的数据表很难转换成机器可读的格式,以便在电子表格应用程序(如Microsoft Excel)中使用。复制和粘贴是无效的。
出于这个原因,在一个大型数据收集项目的过程中,NRGI数据工作人员开发了一个应用程序,简化了从PDF中提取表的过程。这个工具现在可以在网上找到。
该应用程序建立在开源软件之上横膈,它能完成识别PDF中的表格并将其提取为表格格式的繁重工作。与Tabula不同的是,整个应用程序可以通过网络浏览器使用,不需要下载或安装。
该应用程序是围绕表抓取的常见挑战设计的,比如需要轻松地比较值以确保准确性。随着PDF显示在应用程序窗口中,与提取数据的完全可编辑的电子表格一起,这一重要步骤一如既往地方便。此外,用户可以一次点击抓取多个页面的表格,然后将其下载为CSV文件。
该应用程序基于开源技术构建,所有代码都可以在Github中获得回购.你可以在那里或通过电子邮件提出建议(电子邮件保护).使用应用程序在这里.
这个应用程序是在加拿大发布你所付的费用,ONE的Kate Vang和许多NRGI同事的帮助下开发的。的开源贡献是不可能实现这个应用程序的横膈团队和rOpenSci团队。