一个JavaWeb项目开发总结 - 多啦A(2)_H5之家 - 中国HTML5教程资源分享第一站

获取规则url(正则表达式) -> 模拟请求（如httpclient get请求）-> 获取列表页html -> 获取信息页 -> 发送请求 -> 信息页html -> 根据规则截取相应的字段信息 -> 对字段进行清理(如图片压缩) -> 静态化(存储到数据库)

三、架构文档

开发项目是需要学会写架构文档，而不是只是做一个码农

包含以下内容：

下发任务后每个模块的负责人用开发工具画出自己的时序图，表结构和接口文档，最后汇总到总项目负责人处。

四、其它

数据库是否分表问题：用分表的方式管理表有时并不合理，如果读的压力高是不值得的，可能更慢。如果写并发高就行（以千万级别为准）。读是按缓存的，缓存密度在95%以上是比较保险的。读的优化：读单条信息，只需搜到这个id，然后直接从缓存中拿，缓存用id做缓存，查id的效率是很高的

CMS=模板+数据:可以通过只有一套自己的模板（如用freemarker），发送请求获取json数据填入信息。CMS有模板通过把数据填入模板即形成一个网页。

计算机浏览器的网页内容要在手机上查看，需要做到响应式HTML

如通过抓取网页内容放到app上显示，需要做的内容：图片大小自适应，内容尽量保真，校验内容是否丢失，链接需要替换的需要进行替换，html标签替换

爬虫的核心是多线程的任务管理，抓取分页列表内容。

微信公众号上是如何绑定用户让用户只登录一次，下次不用登陆？这个过几天补充。